A Segmentation Method of Compound Nouns Using Syllable Preference

선호 음절 정보를 이용한 복합명사의 분해 방법

  • 박찬이 (경상대학교 컴퓨터과학과) ;
  • 류방 (진주 보건전문대학 사무정보계열) ;
  • 김상복 (경상대학교 컴퓨터과학과, 경상대학교 컴퓨터정보통신연구소)
  • Published : 2006.02.01

Abstract

The ratio of a segmentation algorithm of compound nouns causes an effect a lot in nouns which are not in the dictionary. The structure of Korean compound nouns are mostly derived from the Chinese characters and it includes some preference ratio. So it will be able to use segmentation rule of compound nouns. This paper suggests a segmentation algorithm using some preference ratio of Korean compound nouns which are not in the dictionary. The experiment resulted in getting 88.49% of correct segmentation and showed effective result from the comparative experimentation with other algorithm.

정보검색이나 언어번역에서의 복합명사는 사전 미등록 명사에 대한 처리에 크게 영향을 받는다. 한국어 복합명사는 그 구조가 한자어에 의해 파생한 것이 대부분으로 단위명사간 조합시 선호하는 음절이 존재한다. 이를 복합명사의 분해규칙으로 이용할 수 있다. 본 논문에서는 음절간 선호도를 이용하여 사전 미등록 복합명사에 대한 분해 방법을 제안한다. 사전 미등록 복합명사를 제안한 방법으로 분해한 결과 분해 정확률은 88.49%로서 기존의 방법보다 우수한 분해율을 보이고 있다.

Keywords