기계가독사전을 이용한 한국어 시소러스 구축

Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary

  • 이주호 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터) ;
  • 은광희 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터) ;
  • 최기선 (한국과학기술원 전자전산학과, 전문용어언어공학연구센터)
  • Lee, Ju-Ho (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology) ;
  • Un, Koaung-Hi (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology) ;
  • Choi, Key-Sun (KOTERM, Dept of EE CS, Korea Advanced Institute of Science and Technology)
  • 발행 : 2001.10.12

초록

시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

키워드