Improvement of Transformation Rule-Based Korean Part-Of-Speech Tagger

변형 규칙 기반 한국어 품사 태거의 개선

  • Lim, Heui-Seok (Natural Language Processing Lab., Dept. of Computer Science, Korea Univ.) ;
  • Kim, Jin-Dong (Natural Language Processing Lab., Dept. of Computer Science, Korea Univ.) ;
  • Rim, Hae-Chang (Natural Language Processing Lab., Dept. of Computer Science, Korea Univ.)
  • 임희석 (고려대학교 전산과학과 자연어처리 연구실) ;
  • 김진동 (고려대학교 전산과학과 자연어처리 연구실) ;
  • 임해창 (고려대학교 전산과학과 자연어처리 연구실)
  • Published : 1996.10.11

Abstract

변형 규칙 기반 품사 태거는 태깅 규칙을 코퍼스로부터 자동 학습할 수 있고, 견고하며 태깅 결과를 이해하고 분석하기가 쉽다는 장점을 갖는다. 이에 최근 한국어 특성을 고려한 변형 규칙 기반 한국어 품사 태거가 개발되었다. 하지만 이 시스템은 오류 어절의 어휘 정보를 사용하지 않으므로 수정 가능 오류에 대한 변형 규칙이 제대로 학습되지 못하며, 변형 규칙 적용 과정에 새로운 오류를 발생시킨다는 문제점이 있다. 이에 본 논문은 오류 어절의 어휘 정보를 참조할 수 있는 세부변형 규칙 추출을 이용한 변형 규칙 기반 한국어 품사 태거의 개선 방안을 제안한다. 어휘 정보를 참조할 수 있는 세부 변형 규칙의 형태는 특정 문맥 C에서 어절 W의 어절 태그 ${\alpha}$를 어절 태그 ${\beta}$로 변형한다와 같다. 제안된 방법은 약 10만 어절 크기의 학습 코퍼스에서 57개의 세부 규칙을 학습하였고, 2만 어절 크기의 실험코퍼스에 적용한 결과 95.6%의 정확도를 보임으로써 기존의 변형 규칙 기반 품사 태거의 정확도를 약 15.4% 향상시켰다.

Keywords