말뭉치에 근거한 한국어 사전 표제어 구성

  • 박영환 (연세대학교 전산과학과) ;
  • 윤준태 (연세대학교 전산과학과) ;
  • 송만석 (연세대학교 전산과학과)
  • Published : 1991.10.18

Abstract

사전은 자연어를 처리하는 핵심 부분을 이루고 있다. 그러나 기존의 한국어 사전은 기계적인 처리에 직접 이용하기에는 크게 미흡하다. 특히, 사전의 기본을 이루는 표제어 수록에 관한 연구는 더욱 취약한 형편이다. 본 연구는 새로운 한국어 사전의 표제어률 구성하기 위하여 대형 말뭉치를 수집하였다. 이 말뭉치를 이용하여 기존 사전에서 빠져있는 미등록어들을 찾아내어 수록하고, 말뭉치에 나타난 각 단어의 출현 빈도를 조사하였다. 이 연구를 수행하기 위하여 형태소 분석기, 용례 분석기 등의 필수적인 텍스트 처리 도구들을 개발하였다. 또한, 말뭉치에 나타난 어절 단위의 오류 분포를 조사하여 밝히었다.

Keywords