Hybrid POS Tagging with generalized unknown word handling and post error-correction rules

일반화된 미등록어 처리와 오류 수정규칙을 이용한 혼합형 품사태깅

  • Cha, Jeong-Won (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Won-Il (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Geun-Bae (Dept. of Computer Science and Engineering Pohang University of Science and Technology) ;
  • Lee, Jong-Hyeok (Dept. of Computer Science and Engineering Pohang University of Science and Technology)
  • 차정원 (포항공과대학교 전자계산학과) ;
  • 이원일 (포항공과대학교 전자계산학과) ;
  • 이근배 (포항공과대학교 전자계산학과) ;
  • 이종혁 (포항공과대학교 전자계산학과)
  • Published : 1997.10.10

Abstract

본 논문에서는 품사 태깅을 위해 여러 통계 모델을 실험을 통하여 비교하였으며 이를 토대로 통계적 모델을 구성하였다. 형태소 패턴 사전을 이용하여 미등록어의 위치와 개수에 관계없는 일반적인 방법의 미등록어 처리 방법을 개발하고 통계모델이 가지는 단점을 보완할 수 있는 오류 수정 규칙을 함께 이용하여 혼합형 품사 태깅 시스템인 $POSTAG^{i}$를 개발하였다. 미등록어를 추정하는 형태소 패턴 사전은 한국어 음절 정보와 용언의 불규칙 정보를 이용하여 구성하고 다어절어 사전을 이용하여 여러 어절에 걸쳐 나타나는 연어를 효과적으로 처리하면서 전체적인 태깅 정확도를 개선할 수 있다. 또 오류 수정 규칙은 Brill이 제안한 학습을 통하여 자동으로 얻어진다. 오류 수정 규칙의 자동 추출시에 몇 가지의 휴리스틱을 사용하여 보다 우수하고 일반적인 규clr을 추출할 수 있게 하였다. 10만의 형태소 품사 말뭉치로 학습하고 학습에 참여하지 않은 2만 5천여 형태소로 실험하여 97.28%의 정확도를 보였다.

Keywords