• 제목/요약/키워드: 연관단어

검색결과 253건 처리시간 0.024초

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

노화불안과 라이프스타일에 대한 계량서지학적 분석 (Bibliographic Analysis of Aging Anxiety and Lifestyle)

  • 박선하;박혜연;임영명
    • 재활치료과학
    • /
    • 제11권2호
    • /
    • pp.25-37
    • /
    • 2022
  • 목적 : 본 연구는 노화불안과 라이프스타일에 관한 연구의 흐름을 계량서지학적 분석 방법을 통해 거시적인 관점에서 파악하고, 핵심 단어들의 연관성 분석을 실시하고자 한다. 이를 통해 노화불안과 라이프스타일에 관한 연구를 진행하기 위한 기초자료를 제공하는 것을 목적으로 한다. 연구방법 : 계량서지학적 분석 방법 중 인용 횟수를 기준으로 연관성을 파악하는 인용분석과 키워드의 출현 횟수를 기준으로 연관성을 파악하는 동시출현단어 분석 방법을 사용하였다. 분석된 정보들을 군집화하고 도표화하기 위해 VOS viewer(version 1.6.13, Leiden University, Netherlands, 2020)를 사용하였다. 결과 : 논문의 연도별 발생빈도는 2017년까지 완만한 상승세를 나타내었으며 2018년부터는 급증하는 추세를 나타내었다. 연구논문 학문 분야에서는 정신의학 분야에서 연구가 가장 활발하게 진행되었다. 인용분석에서는 미국, 호주, 영국이 서로 높은 상호연관성을 나타냈으며, 주요 키워드에 대해 동시출현 단어 분석을 실시한 결과 노화불안과 연관성이 높은 단어는 우울로 나타났다. 결론 : 본 연구는 계량서지학적 분석 방법을 사용하여 노화불안과 라이프스타일 연구의 흐름을 거시적인 관점에서 파악했다는 점에서 의의가 있다. 이를 토대로 노화의 예방적 관점에서 라이프스타일이 갖는 중요성을 파악하고, 중재 및 관련 교육의 기초자료로 활용되기를 기대한다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

빅데이터 분석을 위한 어텐션 기반의 단어 연관관계 분석 시스템 (Attention-based word correlation analysis system for big data analysis)

  • 황치곤;윤창표;이수욱
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.41-46
    • /
    • 2023
  • 최근, 빅데이터 분석은 기계학습의 발전에 따른 다양한 기법들을 이용할 수 있다. 현실에서 수집된 빅데이터는 단어 간의 관계성에 대한 의미적 분석을 바탕으로 같거나 유사한 용어에 대한 자동화된 정제기법이 부족하다. 빅데이터는 일반적인 문장으로 기술되어 있다. 이러한 문제를 해결하기 위해 문장의 형태소 분석과 의미를 이해해야 할 필요가 있다. 이에 자연어를 분석하기 위한 기법인 NLP는 단어의 관계성과 문장을 이해할 수 있다. 본 논문에서는 빅데이터에서 추출된 문장에서 단어를 추출하여 단어 간의 연관 관계를 생성하는 방법을 연구한다. 이에 트랜스포머 기술을 이용한다.

강화학습을 이용한 부정적 연관성 피드백 (Negative Relative Feedback Using Reinforcement Learning)

  • 손기준;이재안;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.351-355
    • /
    • 2007
  • 문서 여과 시스템은 사용자의 정보요구를 기준으로 문서들을 선별하여 제시한다. 사용자의 정보요구는 하나 이상의 단어들로 구성된 프로파일로 표현이 되며, 문서의 여과 과정 동안에 발생하는 사용자의 연관성 평가를 통해 구체적인 내용으로 변할 수 있다. 기존 연구의 경우 사용자는 자신이 직접 연관성 평가에 참여하여 평가 정보를 입력하고, 사용자가 평가한 긍정적 피드백 정보를 이용하여 사용자 프로파일을 학습한다. 본 연구는 사용자가 평가한 긍정적 연관성 피드백 뿐만 아니라 부정적 연관성 피드백을 함께 이용한 사용자 프로파일 학습 방법을 제안한다. 제안된 방법과, 대표적인 연관성 피드백 방법인 Rocchio 방법과의 성능을 측정하기 위해 네 가지 토픽에 대하여 여과를 수행하였다. 실험한 결과 부정적 연관성 피드백 정보를 이용하였을 경우 Rocchio 방법 보다는 6% 더 성능이 높은 것을 볼 수 있었다. 실험결과 부정적 평가를 받은 문서를 이용하여 사용자가 선호하지 않는 문서를 제거함으로써 여과 시스템의 성능을 향상 시킬 수 있었다.

  • PDF

한국 드라마 수용에 있어서 국가별 감정 반응 분석: 드라마 <도깨비>를 중심으로 (A Comparative Study of Emotional Response to Korean Drama among Countries: With Drama 'Goblin')

  • 이예원;우성주
    • 감성과학
    • /
    • 제20권4호
    • /
    • pp.31-40
    • /
    • 2017
  • 본 연구는 한류 콘텐츠 소비 시 나타나는 한국, 일본, 미국의 감정 반응을 통해 국가별 소비 성향을 규명하는 데 목적이 있다. 방대해진 텍스트 리뷰를 이용한 감정 분석 연구가 주목받고 있고, 콘텐츠 수요에 환경적 특성이 주요한 영향을 주고 있음에도, 국가별 감정 반응 차이에 대한 연구는 거의 이루어지지 않고 있다. 따라서 본 연구에서는, Russell(1980)이 제시한 감정 원형 모델을 사용하여 한국형 판타지 멜로드라마 <도깨비>에 대한 국가별 감정 단어의 변수 중요도 및 단어 간 연관을 비교하였다. 우선, 2017년 1월 26일부터 3월 26일까지 2달간의 텍스트 리뷰를 수집하였다. 둘째, 수집한 데이터로부터 Russell의 감정 모델에 해당하는 감정 단어를 선별하였다. 셋째, 선별한 데이터에 랜덤 포레스트를 적용하여 변수 중요도를 평가하였다. 넷째, Russell 축에 따른 주요 감정 단어 간 연관성을 비교하였다. 마지막으로 테스트 데이터를 이용하여 학습된 모델의 정확성을 측정하였다. 실험 결과, 국가별 감정 단어의 변수 중요도에서 한국과 미국은 Happy, 일본은 Pleased가 가장 중요한 변수로 나타남을 확인하였다. 단어 간 연관성에서 한국은 수동적 불쾌감, 미국과 일본은 수동적 쾌감이 강하게 나타나는 경향이 있음을 확인하였다. 본 연구를 통해, 한류 콘텐츠에 대한 국가별 감정 반응 차이를 확인할 수 있을 것으로 기대한다.

자동 색인을 이용한 문서의 분류 (Classification of Documents using Automatic Indexing)

  • 신진섭;장수진
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권1호
    • /
    • pp.21-27
    • /
    • 1999
  • 본 논문은 단어들의 유사도를 이용하여 문서들을 자동으로 분류하는 새로운 방법을 제안한다. 단어들 중에서 의미있는 단어들을 찾아내기 위하여 자동색인 방법을 이용하였으며. 두 번째로 본 논문에서 제안한 확률 모델을 이용하여 각 단어들의 문서와의 연관관계를 분석하였다. 이를 토대로 분류를 가능하게 하기 위한 프로파일을 생성한다. 본 논문에서는 유전자 알고리즘과 신경망에 관련된 10개의 문서에 대하여 실험하여 유전자 알고리즘과 신경망에 해당하는 프로파일을 생성하였다.

  • PDF

Web 검색 엔진의 제목과 문서요약을 이용한 동위어와 문맥의 발견 (Discovery of Coordinate Terms and Context using the Title and Snippet in Web Search)

  • 한상용;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.210-215
    • /
    • 2007
  • 웹상에서의 정보량이 증가함에 따라, 사용자가 알고 싶어 하는 단어에 대해서 연관된 단어를 통해서 이해하게 된다. 동위어란 공통의 상위어를 가지는 단어이다. 이를 위한 기존의 연구로서 동위어와 상위어, 하위어 등을 찾는 연구는 많이 있었지만, 웹상의 문서를 이용하여 거대한 코퍼스를 해석해서 결과를 구하는 데 많은 시간이 소요되었다. 이에 본 논문에서는 사용자의 질의어에 대해서 웹 검색엔진이 가지는 제목과 문서요악으로부터 동위어와 문맥을 빠른 시간 안에 발견하는 방법에 대해 제안한다. 어떤 단어에 대한 동위어가 병렬조사 #와#로 접속되는 것을 이용하여 웹 검색 엔진에 대한 질의어를 작성하고, 그 검색 결과로부터 동위어를 얻는다. 이와 동시에 발견된 동위어와 질의어의 배후에 있는 문맥도 얻는다. 이를 통해, 웹 검색에 있어서 질의어의 확장과 비교 대상의 발견 등 폭넓은 분야에서도 적용가능하다고 할 수 있다.

  • PDF

협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘 (Effective User Clustering Algorithm for Collaborative Filtering System)

  • 고수정;임기욱;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권2호
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF