Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 1994.11a
- /
- Pages.389-394
- /
- 1994
- /
- 2005-3053(pISSN)
An HMM Part-of-Speech Tagger for Korean Based on Wordphrase
어절구조를 반영한 은닉 마르코프 모텔을 이용한 한국어 품사태깅
- Shin, Jung-Ho (Department of Computer Science, KAIST) ;
- Han, Young-Seok (Department of Computer Science, KAIST) ;
- Park, Young-Chan (Department of Computer Science, KAIST) ;
- Choi, Key-Sun (Department of Computer Science, KAIST)
- Published : 1994.11.18
Abstract
말뭉치에 품사를 부여하는 일은 언어연구의 중요한 기초가 된다. 형태소 해석의 모호한 결과로부터 한 가지 품사를 선정하는 작업을 태깅이라고 한다. 한국어에서 은닉 마르코프 모델 (Hidden Markov Model)을 이용한 태깅은 형태소 관계만 흑은 어절관계만을 이용한 방법이 있어 왔다. 본 논문에서는 어절관계와 형태소관계를 동시에 은닉 마르코프 모델에 반영하여 태깅의 정확도를 높인 모델을 제시한다. 제안된 방법은 품사의 변별력은 뛰어나지만 은닉 마르코프 모델의 노드의 수가 커짐으로써 형태소만을 고려한 방법보다 더 많은 학습데이타를 필요로 한다. 실험적으로 본 논문의 방법이 기존의 방법보다 높은 정확성을 가지고 있음이 검증되었다.
Keywords