POS-Tagging Model Combining Rules and Word Probability

규칙과 어절 확률을 이용한 혼합 품사 태깅 모델

  • Hwang, Myeong-Jin (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Kang, Mi-Young (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University) ;
  • Kwon, Hyuk-Chul (Korean Language Processing Lab, School of Electrical & Computer Engineering, Pusan National University)
  • 황명진 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 강미영 (부산대학교 컴퓨터공학과 한국어정보처리 연구실) ;
  • 권혁철 (부산대학교 컴퓨터공학과 한국어정보처리 연구실)
  • Published : 2006.10.20

Abstract

본 논문은, 긍정적 가중치와 부정적 가중치를 통해 표현되는 규칙에 기반을 둔 품사 태깅 모델과, 형태 소 unigram 정보와 어절 내의 카테고리 패턴에 기반하여 어절 확률을 추정하는 품사 태깅 모델의 장점을 취하고 단점을 보완할 수 있는 혼합 품사 태깅 모델을 제안한다. 이 혼합 모델은 먼저, 규칙에 기반한 품사 태깅을 적용한 후, 규칙이 해결하지 못한 결과에 대해서 통계적인 기법을 사용하여 품사 태깅을 한다. 본 연구는 어절 내 카테고리 패턴정보에 따른 파라미터 set과 형태소 unigram만을 이용해 어절 확률을 계산해 내므로 다른 통계기반 접근방법에서와는 달리 작은 크기의 통계사전만을 필요로 하며, 카테고리 패턴 정보를 사용함으로써 통계기반 접근 방법의 가장 큰 문제점인 data sparseness 문제 또한 줄일 수 있다는 이점이 있다. 특히, 본 논문에서 사용할 통계 모델은 어절 확률에 기반을 두고 있기 때문에 한국어의 특성을 잘 반영할 수 있다. 본 논문에서 제안한 혼합 모델은 규칙이 적용된 후에도 후보열이 둘 이상 남아 오류로 반환되었던 어절 중 24%를 개선한다.

Keywords