Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics

백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해

  • Park, Jae-Han (Div. of Information Technology, Yonsei University) ;
  • Kim, Myoung-Sun (Div. of Information Technology, Yonsei University) ;
  • Rho, Dae-Wook (Div. of Information Technology, Yonsei University) ;
  • Ra, Dong-Yul (Div. of Information Technology, Yonsei University)
  • 박재한 (연세대학교 정보기술학부 언어처리연구실) ;
  • 김명선 (연세대학교 정보기술학부 언어처리연구실) ;
  • 노대욱 (연세대학교 정보기술학부 언어처리연구실) ;
  • 나동열 (연세대학교 정보기술학부 언어처리연구실)
  • Published : 2004.10.08

Abstract

본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

Keywords