Porting POSTAG using Part-Of-Speech TagSet Mapping

품사 태그 세트의 매핑을 이용한 한국어 품사 태거 (POSTAG) 이식

  • Kim, Jun-Seok (Natural Language Processing Lab., Dept. of Computer Science & Engineering, POSTECH) ;
  • Shim, Jun-Hyuk (Natural Language Processing Lab., Dept. of Computer Science & Engineering, POSTECH) ;
  • Lee, Geun-Bae (Natural Language Processing Lab., Dept. of Computer Science & Engineering, POSTECH)
  • 김준석 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 심준혁 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실) ;
  • 이근배 (포항공과대학교 컴퓨터공학과 자연어 처리 연구실)
  • Published : 1999.10.08

Abstract

품사 태그세트 매핑은 서로 다른 품사 태그세트로 태깅되어 있는 대량의 코퍼스들로부터 정보를 얻고 또한 제공함을 통해 코퍼스의 재사용성(reusability)을 높이는데 유용하게 사용된다. 본 논문은 포항공대 자연언어처리 연구실의 자연언어처리 엔진(SKOPE)의 품사 태거(POSTAG)에서 사용되는 태그세트와 한국전자통신연구원의 표준 태그세트 간의 양방향 태그세트 매핑을 다룬다. 매핑을 통해 표준태그세트로 태깅된 코퍼스로부터 POSTAG를 위한 대용량 학습자료를 얻고 POSTAG 가 두 가지 태그세트로 결과를 출력할 수 있다. 특히 한국어 태그세트 매핑에서 발생할 수 있는 여러 가지 문제점들, 즉 사전 표제어 차이 (형태소 분할 차이), 태그 할당 차이, 축약 처리 차이 등과 그것들의 기계적인 해결책을 살펴보고, 태그세트 매핑의 정확도를 측정하기 위해서 매핑 전과 후의 태깅 시스템의 정확도를 서로 비교함으로써 매핑의 정확도를 측정하는 실험을 수행하였다. 본 자동 매핑 방법을 반영한 POSTAG 는 제 1회 형태소 분석기 평가 대회(MATEC'99)에 적용되어 성공적으로 사용되었다.

Keywords