Korean Part-Of-Speech Tagging based on Maximum Entropy Model

최대 엔트로피 모델을 이용한 한국어 품사 태깅

  • Kang, In-Ho (Department of Computer Science, KAIST) ;
  • Kim, Jae-Hoon (Department of Computer Engineering, Korea Maritime University) ;
  • Kim, Gil-Chang (Department of Computer Science, KAIST)
  • 강인호 (한국과학기술원 전산학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 김길창 (한국과학기술원 전산학과)
  • Published : 1998.10.09

Abstract

주어진 문자열에 품사를 정해주는 방법으로 현재 많이 사용되고 있는 것 중의 하나로 통계적 방법을 들 수 있다. 대부분의 통계적 방법은 품사 태깅을 위해 주변 품사열만으로 이뤄진 단순한 정보를 사용하고 있는데, 품사 태깅 문제는 본래 품사열 정보 뿐 아니라 단어에 대한 어휘 정보, 통사 정보, 연어 정보 등 다양한 정보들이 종합되어야 하는 문제이다. 이에 본 논문에서는 품사 태깅에 유용한 정보를 정형화하여 성능 향상을 얻어내는 방법을 제안한다. 제안된 방법은 먼저 품사열 정보만을 이용한 품사 태깅의 주된 오류인 조사, 용언, 연결어미의 구분 문제와 복합어의 형태소 분석 문제를 해결하기 위한 정보를 품사 분류 기준으로부터 얻어낸다. 얻어낸 정보들은 정형화 과정을 거쳐 최대 엔트로피 모델의 자질로 사용된다. 이렇게 얻어낸 모델을 가지고 수행된 실험 결과, 품사열 정보만을 이용한 품사태깅보다 좋은 성능을 얻을 수 있었다.

Keywords