Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word

Park, Hee-Geun;Ahn, Young-Min;Seo, Young-Hoon;

한국정보과학회논문지:컴퓨팅의 실제 및 레터 (Journal of KIISE:Computing Practices and Letters)

제13권6호
/
Pages.427-431
/
2007
/
1229-7712(pISSN)

한국정보과학회 (Korean Institute of Information Scientists and Engineers)

어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템

Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word

박희근 (충북대학교 컴퓨터공학과) ;
안영민 (충북대학교 컴퓨터공학과) ;
서영훈 (충북대학교 전기전자컴퓨터공학부)

발행 : 2007.11.15

PDF KSCI

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 어절별 중의성 해소 규칙과 trigram 통계 정보를 이용하는 혼합형 한국어 품사 태깅 시스템에 대하여 기술한다. 어절별 중의성 해소 규칙은 중의성을 가지는 어절들 각각에 대해 정의된 중의성 해소 규칙으로, 현재 중의성을 가지는 어절의 50%에 대해 작성되어 있다. 본 논문의 태깅 시스템은 먼저 보조용언, 숙어, 관용적 표현 등에 해당하는 공통규칙을 적용하고, 그 후에 어절별 중의성 해소 규칙을 적용한다. 마지막으로 중의성이 해소되지 않은 어절은 각 어절을 중심으로 하는 trigram 통계 정보를 이용하여 중의성을 해소한다. 실험 결과는 본 논문에서 제안하는 어절별 중의성 해소 규칙과 trigram 통계 정보를 혼합하여 중의성을 해소 시키는 방법이 높은 정확률과 넓은 처리 범위를 가지고 있다는 것을 보여준다.

In this paper we describe a Korean part-of-speech tagging approach using resolution rules for individual ambiguous word and statistical information. Our tagging approach resolves lexical ambiguities by common rules, rules for individual ambiguous word, and statistical approach. Common rules are ones for idioms and phrases of common use including phrases composed of main and auxiliary verbs. We built resolution rules for each word which has several distinct morphological analysis results to enhance tagging accuracy. Each rule may have morphemes, morphological tags, and/or word senses of not only an ambiguous word itself but also words around it. Statistical approach based on HMM is then applied for ambiguous words which are not resolved by rules. Experiment shows that the part-of-speech tagging approach has high accuracy and broad coverage.

키워드

참고문헌

이하규, 김영택, '통계 정보에 기반을 둔 한국어 어휘 중의성 해소', 한국통신학회 논문지, 제19권, 제2호, pp. 265-275, 1994
신중호, 한영석, 박영찬, 최기선, '어절구조를 반영한 은닉 마르코프 모델을 이용한 한국어 품사태깅', 제6회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 389-394, 1994
김재훈, 임철수, 서정연, '은닉 마르코프 모델을 이용한 효율적인 한국어 품사의 태깅', 정보과학회논문지(B), 제22권, 제1호, pp. 136-146, 1995
김진동, 임희석, 임해창, 'Twoply HMM: 한국어의 특성을 고려한 형태소 단위의 품사 태깅 모델', 정보과학회논문지(B), 제24권, 제12호, pp. 1502-1512, 1997
Eric Brill, 'A simple rule-based part-of-speech tagger,' Proc. of the 3rd Conference on Applied NLP, Trento, Italy, pp. 153-155, 1992
Eric Brill, 'Unsupervised Learning of Disambiguation Rules for Part of Speech Tagging,' Proc. of the 3rd Workshop on Very Large Copora, pp. 1-13, 1995
M Zhang, S. Li and T. Zhao, 'Tagging Chinese Corpus Based on Statistical and Rule Techniques,' Proceedings of the Int. Conference on Computer Processing of Oriental Language (ICCPOL-97), pp. 503-506, 1997
신상현, 이근배, 이종혁, '통계와 규칙에 기반한 2단계 한국어 품사 태깅 시스템,' 정보과학회논문지(B), 제24권, 제2호, pp. 160-169, 1997
임희석, 김진동, 임해창, '통계 정보와 언어 지식의 보완적 특성을 고려한 혼합형 품사 태깅', 정보과학회논문지(B), 제25권, 제11호, pp. 1705-1715, 1998
심준혁, 김준석, 차정원, 이근배, '통계와 규칙을 이용한 강인한 품사태거', 제11회 한글 및 한국어 정보처리 학술대회 발표 논문집, pp. 60-75, 1999
임희동, '어절간 문맥 정보를 이용한 통합 기반 한국어 품사 태깅 시스템', 충북대학교 컴퓨터공학과 석사학위 논문, 2001
안영민, '문법 형태소를 이용한 통계 정보와 규칙에 기반한 한국어 품사태깅 시스템', 충북대학교 컴퓨터공학과 석사학위 논문, 2002
도미숙, 최호섭, 옥철영, '문법 규칙과 어절 상관도를 이용한 품사 태깅 시스템', 제20회 한국정보처리학회 추계학술발표대회 논문집, 제10권, 제2호, pp. 481-484, 2003
이동훈, 강미영, 황명진, 권혁철, '규칙과 비감독 학습기반 통계정보를 이용한 품사 태깅 시스템', 한국컴퓨터 종합학술대회 2005 논문집, pp. 445-447, 2005

한국정보과학회논문지:컴퓨팅의 실제 및 레터 (Journal of KIISE:Computing Practices and Letters)

어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템

Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word

초록

키워드

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)