한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)
- 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
- /
- Pages.90-95
- /
- 2008
- /
- 2005-3053(pISSN)
U-WIN을 이용한 WSD 기반의 문서 유사도 측정
Measurement of WSD based Document Similarity using U-WIN
-
심강섭
(울산대학교 컴퓨터정보통신공학과) ;
- 배영준 (울산대학교 컴퓨터정보통신공학과) ;
-
옥철영
(울산대학교 컴퓨터정보통신공학과) ;
-
최호섭
(한국과학기술정보연구원 정보기술개발단 정보시스템개발팀)
-
Shim, Kang-Seop
(Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
- Bae, Young-Jun (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
-
Ock, Cheol-Young
(Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
-
Choe, Ho-Seop
(Information System Development Team, Korean Institute of Science and Technology Information)
- 발행 : 2008.10.10
초록
이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.
키워드