Measurement of WSD based Document Similarity using U-WIN

U-WIN을 이용한 WSD 기반의 문서 유사도 측정

  • Shim, Kang-Seop (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Bae, Young-Jun (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Ock, Cheol-Young (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
  • Choe, Ho-Seop (Information System Development Team, Korean Institute of Science and Technology Information)
  • 심강섭 (울산대학교 컴퓨터정보통신공학과) ;
  • 배영준 (울산대학교 컴퓨터정보통신공학과) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학과) ;
  • 최호섭 (한국과학기술정보연구원 정보기술개발단 정보시스템개발팀)
  • Published : 2008.10.10

Abstract

이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.

Keywords