DOI QR코드

DOI QR Code

A Study on Tools for Text Similarity Evaluation

문서 유사도 분석 도구에 관한 연구

  • Kang, Hong-Bi (Dept of Computer Science, Han-Shin University) ;
  • Kim, Hee-Jin (Dept of Computer Science, Han-Shin University) ;
  • Kim, Han-Sung (Dept of Computer Science, Han-Shin University)
  • 김희진 (한신대학교 컴퓨터공학부) ;
  • 강홍비 (한신대학교 컴퓨터공학부) ;
  • 김한성 (한신대학교 컴퓨터공학부)
  • Published : 2017.11.01

Abstract

본 시스템은 LSA 또는 벡터공간 모델 방식을 이용하여, 문장 대 문장, 문서 대 문장, 다중 문서 간유사도 분석을 수행한다. 이는 문서의 특수문자를 제거한 뒤, 형태소 분석을 기반으로 단어를 추출하여 TF-IDF 가중치를 추출한뒤 행렬 계산을 통하여 Cosine 계산식을 사용하여 유사성을 검출하는 단계로 구성된다. 제시된 기법은 2개의 오픈소스를 이용하며, x86 기반 64bit Windows에서 개발되었으며, 60% 이상의 정확도를 나타낸다.

Keywords