Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2016.10a
- /
- Pages.201-204
- /
- 2016
- /
- 2005-3053(pISSN)
Similarity calculation between national R&D reports using co-occurrence
문서의 공기관계를 이용하여 국가 R&D 보고서간 유사도 계산
- Kim, Nam-Hun (Chonnam National University, Department of Computer Science) ;
- Joo, Jong-Min (Chonnam National University, Department of Computer Science) ;
- Park, Hyuk-Ro (Chonnam National University, Department of Computer Science) ;
- Yang, Hyung-Jeong (Chonnam National University, Department of Computer Science) ;
- Choi, Kwang-Nam (Korea Institute of Science and Technology Information)
- 김남훈 (전남대학교 전자컴퓨터공학과) ;
- 주종민 (전남대학교 전자컴퓨터공학과) ;
- 박혁로 (전남대학교 전자컴퓨터공학과) ;
- 양형정 (전남대학교 전자컴퓨터공학과) ;
- 최광남 (한국과학기술정보연구원, NTIS센터)
- Published : 2016.10.07
Abstract
본 논문에서는 문서의 공기관계를 통해 추출된 문서의 특징을 이용하여 유사 보고서를 판별하는 시스템을 제안한다. 국가 R&D 보고서의 XML형식 파일에서 텍스트를 추출 후, 문장 단위로 나누어 각 문장의 공기 관계를 추출한다. 그 후 공기관계의 노드와 엣지를 문서에 추가하고, 노드로 사용된 단어만 남기고 나머지 단어는 제외한다. 그리고 이것을 문서의 특징으로 삼고 유사도 계산을 한다. 이 때, 유사도 계산은 코사인 유사도를 사용한다. 실험결과, 국가 R&D문서 유사도 계산에서 제안된 방법이 기존의 방법보다 높은 분류율을 보여주었다.