Measurement of WSD based Document Similarity using U-WIN

Shim, Kang-Seop;Bae, Young-Jun;Ock, Cheol-Young;Choe, Ho-Seop;

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
/
Pages.90-95
/
2008
/
2005-3053(pISSN)

한국정보과학회 언어공학연구회 (Human and Language Technology)

U-WIN을 이용한 WSD 기반의 문서 유사도 측정

Measurement of WSD based Document Similarity using U-WIN

심강섭 (울산대학교 컴퓨터정보통신공학과) ;
배영준 (울산대학교 컴퓨터정보통신공학과) ;
옥철영 (울산대학교 컴퓨터정보통신공학과) ;
최호섭 (한국과학기술정보연구원 정보기술개발단 정보시스템개발팀)

Shim, Kang-Seop (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
Bae, Young-Jun (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
Ock, Cheol-Young (Dept. of Computer Engineering and Information Technology, University of Ulsan) ;
Choe, Ho-Seop (Information System Development Team, Korean Institute of Science and Technology Information)

발행 : 2008.10.10

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

이미 국외에서는 WordNet과 같은 의미적 언어자원을 활용한 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 그러나 국내에서는 아직 WordNet과 같은 언어자원이 부족하여, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡하다. 기존에 국내에서 사용된 문서 유사도 측정법들은 대부분 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 그 어휘들의 단순 매칭이나 빈도수를 이용한 가중치 측정법, 또는 가중치를 이용한 중요 어휘 추출방법들 이었다. 이 때문에, 기존의 유사도 측정법들은 문서의 문맥정보를 포함하지 못하고, 어휘의 빈도를 구하기 위하여 대용량의 문서집합에 의존적이며, 또한 특정 개념(의미)을 다른 어휘로 표현하거나, 유사/관련 어휘가 사용된 유사 문서에 대한 처리가 미흡하였다. 본 논문에서는 이에 착안하여 한국어 어휘 의미망인 U-WIN과 문맥에 사용된 어휘들의 overlap 정보를 사용하여, 단순히 어휘에 기반하지 않고, 기본적인 문맥정보를 활용하며, 어휘의 의미에 기반을 둔 문서유사도 측정법을 제안한다.

한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리) (Annual Conference on Human and Language Technology)

U-WIN을 이용한 WSD 기반의 문서 유사도 측정

Measurement of WSD based Document Similarity using U-WIN

초록

키워드