DOI QR코드

DOI QR Code

Part-Of-Speech Tagging using multiple sources of statistical data

이종의 통계정보를 이용한 품사 부착 기법

  • 조세형 (명지대학교 컴퓨터소프트웨어학과)
  • Published : 2008.08.25

Abstract

Statistical POS tagging is prone to error, because of the inherent limitations of statistical data, especially single source of data. Therefore it is widely agreed that the possibility of further enhancement lies in exploiting various knowledge sources. However these data sources are bound to be inconsistent to each other. This paper shows the possibility of using maximum entropy model to Korean language POS tagging. We use as the knowledge sources n-gram data and trigger pair data. We show how perplexity measure varies when two knowledge sources are combined using maximum entropy method. The experiment used a trigram model which produced 94.9% accuracy using Hidden Markov Model, and showed increase to 95.6% when combined with trigger pair data using Maximum Entropy method. This clearly shows possibility of further enhancement when various knowledge sources are developed and combined using ME method.

통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

Keywords

References

  1. L.E. Baum and T. Petrie, "Statistical inference for probabilitsic functions of finite state Markov chains," Ann. Math. Sat., vol.37, pp.1554-1563
  2. E. T. Jaynes, "Information Theory and Statistical Mechanics," Physical Review 1957
  3. Daniel Jurafsky and James H. Martin, Speech and Language Processing, Prentice-Hall, 2000
  4. Ronald Rosenfeld, "Adaptive Statistical Language Modeling: A Maximum Entropy Approach," Ph.D. thesis, School of Computer Science Carnegie Mellon University Pittsburgh, April 19, 1994
  5. Ken Church and Patrich Hanks, "Word Association Norms, Mutual Information, and Lexicography," Computational Linguistics, Volume 16, number 1, pages 22-29, March 1990
  6. Adwait Ratnaparkhi, "Maximum Entropy Models For Natural Language Ambiguity Resolution," Ph.D. thesis, University of Pennsylvania, 1998
  7. A.Berger, S.A. Della Pietra, and V.J. Della Pietra, "A Maximum Entropy Approach to Natural Language Processing," Computation Linguistics, 22(1):39-71 1996
  8. J. Darroch and D. Ratcliff, Generalized iterative scaling for log-linear models. Ann. Math. Statistics, 43:1470-1480, 1972 https://doi.org/10.1214/aoms/1177692379
  9. Adwait Ratnaparkhi, "A Maximum Entropy Model of Part-of-speech tagging," Proceedings of the Conference on Empirical Methods in Natural Language Processing, pp.133-142, 1996
  10. 박성배, 장병탁, "최대 엔트로피 모델을 이용한 텍스트 단위화," 제13회 한글 및 한국어 정보처리 학술대회 논문집, pp. 130-137, 2001
  11. Sehyeong Cho, "Improvement of language models using dual-source backoff," Lecture Notes in Artificial Intelligence, vol.3157, pp.892-900, Springer, 2004