연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산

Calculation of similarity by weighting title and summary in word co-occurrence of research reports

  • 김남훈 (전남대학교 전자컴퓨터공학대학원) ;
  • 주종민 (전남대학교 전자컴퓨터공학대학원) ;
  • 박혁로 (전남대학교 전자컴퓨터공학대학원) ;
  • 양형정 (전남대학교 전자컴퓨터공학대학원)
  • Kim, Nam-Hun (Chonnam National University, Department of Computer Science) ;
  • Joo, Jong-Min (Chonnam National University, Department of Computer Science) ;
  • Park, Hyuk-Ro (Chonnam National University, Department of Computer Science) ;
  • Yang, Hyung-Jeong (Chonnam National University, Department of Computer Science)
  • 발행 : 2017.08.09

초록

본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

키워드