An Automatic Korean Lexical Acquisition System

한국어 어휘자동획득 시스템

  • 임희석 (한신대학교 컴퓨터공학부)
  • Published : 2007.10.31

Abstract

This paper proposes a automatic korean lexical acquisition system which reflects the characteristics of human language acquisition. The proposed system automatically builds two kinds of lexicon, full-form lexicon and decomposition using Korean corpus as its input. As the experimental results using Korean Sejeong corpus of which size is 10 million Eojeols, the system acquired 2,097 full-form Eojeols and 3,488 morphemes. The accumulated frequency of the acquired full-form Eojeols covers the 38.63% of the input corpus and accuracy of morpheme acquisition is 99.87%.

본 논문은 인간의 언어 획득 원리를 반영한 계산주의적 한국어 어휘 자동 획득 시스템을 제안한다. 제안하는 시스템은 인간의 언어 생활을 모델링한 한국어 코퍼스를 입력 받아 언어 인식을 위하여 사용할 수 있는 어절 사전과 형태소 사전의 어절과 형태소를 자동으로 획득할 수 있다. 1천만 어절 크기의 한국어 코퍼스를 이용하여 실험한 결과, 2,097개의 어절과 3,488개의 형태소를 획득할 수 있었다. 획득된 2,097개의 어절의 출현 빈도의 합은 1천만 어절의 38.63%에 해당하였고 형태소 추출의 정확도는 99.87%를 보였다.

Keywords