Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information

언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅

  • Lim, Heui-Seok (Human Interface Lab., Samsung Advance Institute of Technology) ;
  • Kim, Jin-Dong (NLP. Lab., Dept. of Computer Science and Engineering, Korea Univ.) ;
  • Rim, Hae-Chang (NLP. Lab., Dept. of Computer Science and Engineering, Korea Univ.)
  • 임희석 (삼성 종합 기술원 휴먼 인터페이스 랩) ;
  • 김진동 (고려대학교 컴퓨터학과 자연어처리 연구실) ;
  • 임해창 (고려대학교 컴퓨터학과 자연어처리 연구실)
  • Published : 1997.10.10

Abstract

기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

Keywords