Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2008.10a
- /
- Pages.90-95
- /
- 2008
- /
- 2005-3053(pISSN)
Measurement of WSD based Document Similarity using U-WIN
U-WIN을 이용한 WSD 기반의 문서 유사도 측정
- Shim, Kang-Seop (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
- Bae, Young-Jun (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
- Ock, Cheol-Young (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
- Choe, Ho-Seop (Information System Development Team, Korean Institute of Science and Technology Information)
- 심강섭 (울산대학교 컴퓨터정보통신공학과) ;
- 배영준 (울산대학교 컴퓨터정보통신공학과) ;
- 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
- 최호섭 (한국과학기술정보연구원 정보기술개발단 정보시스템개발팀)
- Published : 2008.10.10
Abstract
이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.
Keywords