Similarity calculation between national R&D reports using co-occurrence

문서의 공기관계를 이용하여 국가 R&D 보고서간 유사도 계산

  • Kim, Nam-Hun (Chonnam National University, Department of Computer Science) ;
  • Joo, Jong-Min (Chonnam National University, Department of Computer Science) ;
  • Park, Hyuk-Ro (Chonnam National University, Department of Computer Science) ;
  • Yang, Hyung-Jeong (Chonnam National University, Department of Computer Science) ;
  • Choi, Kwang-Nam (Korea Institute of Science and Technology Information)
  • 김남훈 (전남대학교 전자컴퓨터공학과) ;
  • 주종민 (전남대학교 전자컴퓨터공학과) ;
  • 박혁로 (전남대학교 전자컴퓨터공학과) ;
  • 양형정 (전남대학교 전자컴퓨터공학과) ;
  • 최광남 (한국과학기술정보연구원, NTIS센터)
  • Published : 2016.10.07

Abstract

본 논문에서는 문서의 공기관계를 통해 추출된 문서의 특징을 이용하여 유사 보고서를 판별하는 시스템을 제안한다. 국가 R&D 보고서의 XML형식 파일에서 텍스트를 추출 후, 문장 단위로 나누어 각 문장의 공기 관계를 추출한다. 그 후 공기관계의 노드와 엣지를 문서에 추가하고, 노드로 사용된 단어만 남기고 나머지 단어는 제외한다. 그리고 이것을 문서의 특징으로 삼고 유사도 계산을 한다. 이 때, 유사도 계산은 코사인 유사도를 사용한다. 실험결과, 국가 R&D문서 유사도 계산에서 제안된 방법이 기존의 방법보다 높은 분류율을 보여주었다.

Keywords