Proceedings of the Korea Information Processing Society Conference (한국정보처리학회:학술대회논문집)
- 2017.11a
- /
- Pages.411-414
- /
- 2017
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
A Study on Tools for Text Similarity Evaluation
문서 유사도 분석 도구에 관한 연구
- Kang, Hong-Bi (Dept of Computer Science, Han-Shin University) ;
- Kim, Hee-Jin (Dept of Computer Science, Han-Shin University) ;
- Kim, Han-Sung (Dept of Computer Science, Han-Shin University)
- Published : 2017.11.01
Abstract
본 시스템은 LSA 또는 벡터공간 모델 방식을 이용하여, 문장 대 문장, 문서 대 문장, 다중 문서 간유사도 분석을 수행한다. 이는 문서의 특수문자를 제거한 뒤, 형태소 분석을 기반으로 단어를 추출하여 TF-IDF 가중치를 추출한뒤 행렬 계산을 통하여 Cosine 계산식을 사용하여 유사성을 검출하는 단계로 구성된다. 제시된 기법은 2개의 오픈소스를 이용하며, x86 기반 64bit Windows에서 개발되었으며, 60% 이상의 정확도를 나타낸다.
Keywords