DOI QR코드

DOI QR Code

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅

Syllable-based Korean POS Tagging Based on Combining a Pre-analyzed Dictionary with Machine Learning

  • 이충희 (한국전자통신연구원 지식마이닝연구실) ;
  • 임준호 (한국전자통신연구원 지식마이닝연구실) ;
  • 임수종 (한국전자통신연구원 지식마이닝연구실) ;
  • 김현기 (한국전자통신연구원 지식마이닝연구실)
  • 투고 : 2015.10.19
  • 심사 : 2016.01.04
  • 발행 : 2016.03.15

초록

본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.

This study is directed toward the design of a hybrid algorithm for syllable-based Korean POS tagging. Previous syllable-based works on Korean POS tagging have relied on a sequence labeling method and mostly used only a machine learning method. We present a new algorithm integrating a machine learning method and a pre-analyzed dictionary. We used a Sejong tagged corpus for training and evaluation. While the machine learning engine achieved eojeol precision of 0.964, the proposed hybrid engine achieved eojeol precision of 0.990. In a Quiz domain test, the machine learning engine and the proposed hybrid engine obtained 0.961 and 0.972, respectively. This result indicates our method to be effective for Korean POS tagging.

키워드

과제정보

연구 과제번호 : (1세부) 휴먼 지식증강 서비스를 위한 지능진화형 WiseQA 플랫폼 기술 개발

연구 과제 주관 기관 : 정보통신기술진흥센터

참고문헌

  1. Dong-Su Jang and Young-Hoo Seo, "Syllable-Based Korean Morphological Analyzer," Proc. of 5th Annual Conference on Human and Cognitive Language Technology, pp. 331-339, 1993. (in Korean)
  2. Seung-Hyun Yang and Young-Sum Kim, "A High_speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words," Journal of KIISE : Software and Applications, Vol. 27, No. 3, pp. 290-301, 2000. (in Korean)
  3. Kwang-Seob Shim and Jae-Hyung Yang, "High Speed Korean Morphological Analysis based on Adjacency Condition Check," Journal of KIISE : Software and Applications, Vol. 31, No. 1, pp. 89-99, 2002. (in Korean)
  4. In-Ho Kang, Jae-Hoon Ki, and Gil-Chang Kim, "Korean Part-Of-Speech Tagging based on Maximum Entropy Model," Proc. of 10th Hangul and Korean Information Processing Conference, pp. 9-14, 1998. (in Korean)
  5. Kwang-Mo Ahn, Kyou-Youl Han, and Young-Hoon Seo, "Korean Part-of-Speech Tagging using Disambiguation Rules for Ambiguous Word and Statistical Information," Journal of the Korea Contents Association, Vol. 9, No. 2, pp. 18-26, 2009. (in Korean) https://doi.org/10.5392/JKCA.2009.9.2.018
  6. Jae-Sung Lee, "Three-Step Probabilistic Model for Korean Morphological Analysis," Journal of KIISE : Software and Applications, Vol. 38, No. 5, pp. 257-268, 2011. (in Korean)
  7. Kwangseob Shim, "Morpheme Restoration for Syllable-based Korean POS Tagging," Journal of KIISE: Software and Applications, Vol. 40, No. 3, pp. 182-189, 2013. (in Korean)
  8. Seung-Hoon Na, Seong-Il Yang, Chang-Hyun Kim, Oh-Woog Kwon, and Young-Kil Kim, "CRFs for Korean Morpheme Segmentation and POS Tagging," Proc. of 24th Annual Conference on Human and Cognitive Language Technology, pp. 12-15, 2012. (in Korean)
  9. Chang-Ki Lee, "Joint Models for Korean Word Spacing and POS Tagging using Structural SVM," Journal of KIISE: Software and Applications, Vol. 40, No. 12, pp. 826-832, 2013. (in Korean)
  10. Jae-Hoon Kim and Kong-Joo Lee, "Segmenting and Classifying Korean Words based on Syllables Using Instance-Based Learning," Journal of the KIPS transactions, Vol. 10B, No. 1, pp. 47-56, 2003. (in Korean) https://doi.org/10.3745/KIPSTB.2003.10B.1.047
  11. S. S. Keerthi and S. Sundararajan, "CRF versus SVM-struct for sequence labeling," Technical report, Yahoo! Research, 2007.
  12. Changki Lee and Myungil Jang, "Named Entity Recognition with Structural SVMs and Pegasos algorithm," Korean Journal of Cognitive Science, Vol. 21, No. 4, pp. 655-667, 2010. (in Korean) https://doi.org/10.19066/cogsci.2010.21.4.009