어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템

Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word

  • 박희근 (충북대학교 컴퓨터공학과) ;
  • 안영민 (충북대학교 컴퓨터공학과) ;
  • 서영훈 (충북대학교 전기전자컴퓨터공학부)
  • 발행 : 2007.11.15

초록

본 논문에서는 어절별 중의성 해소 규칙과 trigram 통계 정보를 이용하는 혼합형 한국어 품사 태깅 시스템에 대하여 기술한다. 어절별 중의성 해소 규칙은 중의성을 가지는 어절들 각각에 대해 정의된 중의성 해소 규칙으로, 현재 중의성을 가지는 어절의 50%에 대해 작성되어 있다. 본 논문의 태깅 시스템은 먼저 보조용언, 숙어, 관용적 표현 등에 해당하는 공통규칙을 적용하고, 그 후에 어절별 중의성 해소 규칙을 적용한다. 마지막으로 중의성이 해소되지 않은 어절은 각 어절을 중심으로 하는 trigram 통계 정보를 이용하여 중의성을 해소한다. 실험 결과는 본 논문에서 제안하는 어절별 중의성 해소 규칙과 trigram 통계 정보를 혼합하여 중의성을 해소 시키는 방법이 높은 정확률과 넓은 처리 범위를 가지고 있다는 것을 보여준다.

In this paper we describe a Korean part-of-speech tagging approach using resolution rules for individual ambiguous word and statistical information. Our tagging approach resolves lexical ambiguities by common rules, rules for individual ambiguous word, and statistical approach. Common rules are ones for idioms and phrases of common use including phrases composed of main and auxiliary verbs. We built resolution rules for each word which has several distinct morphological analysis results to enhance tagging accuracy. Each rule may have morphemes, morphological tags, and/or word senses of not only an ambiguous word itself but also words around it. Statistical approach based on HMM is then applied for ambiguous words which are not resolved by rules. Experiment shows that the part-of-speech tagging approach has high accuracy and broad coverage.

키워드

참고문헌

  1. 이하규, 김영택, '통계 정보에 기반을 둔 한국어 어휘 중의성 해소', 한국통신학회 논문지, 제19권, 제2호, pp. 265-275, 1994
  2. 신중호, 한영석, 박영찬, 최기선, '어절구조를 반영한 은닉 마르코프 모델을 이용한 한국어 품사태깅', 제6회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 389-394, 1994
  3. 김재훈, 임철수, 서정연, '은닉 마르코프 모델을 이용한 효율적인 한국어 품사의 태깅', 정보과학회논문지(B), 제22권, 제1호, pp. 136-146, 1995
  4. 김진동, 임희석, 임해창, 'Twoply HMM: 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델', 정보과학회논문지(B), 제24권, 제12호, pp. 1502-1512, 1997
  5. Eric Brill, 'A simple rule-based part-of-speech tagger,' Proc. of the 3rd Conference on Applied NLP, Trento, Italy, pp. 153-155, 1992
  6. Eric Brill, 'Unsupervised Learning of Disambiguation Rules for Part of Speech Tagging,' Proc. of the 3rd Workshop on Very Large Copora, pp. 1-13, 1995
  7. M Zhang, S. Li and T. Zhao, 'Tagging Chinese Corpus Based on Statistical and Rule Techniques,' Proceedings of the Int. Conference on Computer Processing of Oriental Language (ICCPOL-97), pp. 503-506, 1997
  8. 신상현, 이근배, 이종혁, '통계와 규칙에 기반한 2단계 한국어 품사 태깅 시스템,' 정보과학회논문지(B), 제24권, 제2호, pp. 160-169, 1997
  9. 임희석, 김진동, 임해창, '통계 정보와 언어 지식의 보완적 특성을 고려한 혼합형 품사 태깅', 정보과학회논문지(B), 제25권, 제11호, pp. 1705-1715, 1998
  10. 심준혁, 김준석, 차정원, 이근배, '통계와 규칙을 이용한 강인한 품사태거', 제11회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 60-75, 1999
  11. 임희동, '어절간 문맥 정보를 이용한 통합 기반 한국어 품사 태깅 시스템', 충북대학교 컴퓨터공학과 석사학위 논문, 2001
  12. 안영민, '문법 형태소를 이용한 통계 정보와 규칙에 기반한 한국어 품사태깅 시스템', 충북대학교 컴퓨터공학과 석사학위 논문, 2002
  13. 도미숙, 최호섭, 옥철영, '문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템', 제20회 한국정보처리학회 추계학술발표대회 논문집, 제10권, 제2호, pp. 481-484, 2003
  14. 이동훈, 강미영, 황명진, 권혁철, '규칙과 비감독 학습기반 통계정보를 이용한 품사 태깅 시스템', 한국컴퓨터 종합학술대회 2005 논문집, pp. 445-447, 2005