Automatic Construction of Korean Unknown Word Dictionary using Occurrence Frequency in Web Documents

웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축

  • 박소영 (상명대학교 디지털미디어학부)
  • Published : 2008.05.31

Abstract

In this paper, we propose a method of automatically constructing a dictionary by extracting unknown words from given eojeols in order to improve the performance of a Korean morphological analyzer. The proposed method is composed of a dictionary construction phase based on full text analysis and a dictionary construction phase based on web document frequency. The first phase recognizes unknown words from strings repeatedly occurred in a given full text while the second phase recognizes unknown words based on frequency of retrieving each string, once occurred in the text, from web documents. Experimental results show that the proposed method improves 32.39% recall by utilizing web document frequency compared with a previous method.

본 논문에서는 한국어 형태소 분석의 성능향상을 위해서, 어절에서 미등록어를 인식하여 자동으로 사전을 구축하는 방법을 제안한다. 제안하는 사전 구축 방법은 전문 분석 기반 사전 구축 방법과 웹 출현빈도 기반 사전 구축방법으로 구성되어 있다. 전문 분석 기반사전 구축 방법은 전체 문서에서 반복적으로 나타나는 문자열을 미등록어로 인식하고, 웹 출현빈도 기반사전 구축 방법은 반복되지 않은 문자열을 웹 문서에서 검색하여 그 출현빈도를 바탕으로 미등록어를 인식한다. 실험결과 전문 분석만을 바탕으로 하는 기존 접근방법에 비해서 웹 문서에서의 출현빈도도 함께 고려하여 제안하는 사전 구축 방법은 32.39% 정도 재현율이 높게 나타났다.

Keywords