DOI QR코드

DOI QR Code

한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법

Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis

  • 곽수정 (충북대학교 정보산업공학협동과정) ;
  • 김보겸 (충북대학교 디지털정보융합학과) ;
  • 이재성 (충북대학교 디지털정보융합학과)
  • 투고 : 2013.08.09
  • 심사 : 2013.10.22
  • 발행 : 2013.12.31

초록

기분석 사전은 형태소 분석기의 속도와 정확도를 향상시키고, 과분석을 줄이기 위해 사용된다. 하지만 기분석 사전에 저장된 어절 중에 저장된 형태소 분석 결과가 부족한 어절, 즉 불충분 분석 어절이 존재할 경우 오히려 형태소 분석기의 정확도를 떨어뜨리는 원인으로 작용할 수 있다. 본 논문에서는 세종 형태 분석 말뭉치(문어체, 2011)를 이용해 말뭉치의 크기와 어절 빈도의 변화에 따라 사전의 정답 제시율이 변화하는 양상을 측정하였다. 그리고 통계기반의 형태소 분석기인 SMA와 기분석 사전을 결합한 통합 시스템을 구성하여 기분석 사전의 충분 분석률이 99.82% 이상일 때 시스템 전체 성능이 향상되는 것을 확인하였다. 또한 160만 어절의 말뭉치를 이용할 때는 32회 이상 출현한 어절로, 630만 어절로 구성된 말뭉치를 이용할 때는 64회 이상 출현한 어절로 사전을 구성하는 것이 통합 시스템의 성능을 가장 높게 할 수 있었다.

A pre-analyzed dictionary is used to increase the speed and the accuracy of morphological analyzers and to decrease the over-generation. However, if the dictionary includes 'Insufficiently-analyzed word-phrases', which do not include all the possible analysis of the word-phrase, it may cause the decrease of the analysis accuracy. In this paper, we measure the accuracy changes according to the number of word-phrase frequency and the size changes of corpus by Sejong corpus. And performance of integrate system(SMA with pre-dictionary) is highest when sufficient analysis rate of pre-dictionary is more than 99.82%. Also pre-dictionary is constructed with word-phrase that frequency more than 32(64) when size of corpus is 1,600,000(6,300,000) word-phrase.

키워드

참고문헌

  1. S. S. Kang, "Korean Morphological Analysis and Information Retrieval," Hongrung Publisher, 2002.
  2. J. H. Kim, C. Y. Ok, "Korean Morphological Analysis using Inflected-Word-Dictionary," Proceedings of Spring Conference on KIISE, Vol.21, No.1, pp.813-816, 1994.
  3. S. S. Kang, "Encoding of Morphological Analysis Result and Eojeol Dictionary Construction," Proceeding of the 16th Hangul and Korean Information Processing conference on KIISE, Vol.16, No.1, pp.112-117, 2004.
  4. D. Lee, "Probabilistic Models for Korean Morphological Analysis and Part-of-Speech Tagging," Ph.D. dissertation, University of Korea at Computer Science and Engineering, Korea, 2005.
  5. J. C. Shin, C. Y. Ock, "A Korean Morphological Analyzer using a Pre-analyzed Partial Word-phrase Dictionary," The KIISE Transactions: Software and Application, Vol.39, No.5, pp. 415-424, 2012.
  6. S. S. Kang, "Extracting High-Frequency Optimal Korean Word Set by Word Frequency Statistics," Proceeding of the 13th Hangul and Korean Information Processing conference on KIISE, pp.85-88, 2001.
  7. S. H. Yang, Y. S. Kim, "A High-Speed Korean Morphological Analysis Method based on Pre-Analyzed Partial Words," The KIISE Transactions: Software and Applications, Vol.27, No.3, pp.290-301, 2003.
  8. S. S. Kang, Y. T. Kim, "A Computational Analysis Model of Prefinal Endings for Korean Morphological Analyzer," The KIISE Transations, Vol.18, No.5, 1991.
  9. J. P. Hong, J. W. Cha, "A New Korean Morphological Analyzer using Eojeol Pattern Dictionary," Proceeding of the Korea Computer Congress on KIISE, Vol.35, No.1(C), pp.279-284, 2008.
  10. H. S. Lim, H. Lee, H. C. Rim "A Method of Analyzing Word Ambiguity in Korean Morphological Analysis," Proceeding of Spring Conference on KIISE, Vol.20, No.1, pp.779-776, 1993.
  11. J. S. Nam, K. S. Choi, "Disambiguation Method based on a Lexicon of Typographical Units," Proceeding of the 9th Hangul and Korean Information Processing conference on KIISE, pp.75-82, 1997.
  12. J. Y. Kee, K. Y. Lee, H. W. Kim "Disambiguation in Morphological Analysis Using Word Rules," Proceeding of autumn Conference on KIISE, Vol.24, No.2(II), pp.215-218, 1997.
  13. The National Institute of the Korean Language, 21st Century Sejong Project Final Result - 2011.12. Revised Edition, 2011.
  14. J. S. Lee, "Three-Step Probabilistic Model for Korean Morphological Analysis," The KIISE Transactions: Software and Application, Vol.38, No.5, pp.257-268, 2011.

피인용 문헌

  1. Cloning of Korean Morphological Analyzers using Pre-analyzed Eojeol Dictionary and Syllable-based Probabilistic Model vol.22, pp.3, 2016, https://doi.org/10.5626/KTCP.2016.22.3.119