Measuring Reliability of POS Tagging Systems

품사 태깅 시스템의 신뢰도 측정

  • 김재훈 (한국해양대학교 컴퓨터공학과)
  • Published : 2001.08.01

Abstract

본 논문에서는 품사 태깅 시스템에서 신뢰도 측정 방법에 대해서 기술한다. 품사 태깅 시스템의 신뢰도는 품사 태깅 결과에 오류가 포함되지 않을 확률이다. 일반적으로 신뢰도 측정은 오류확률에 기반한다. 정확한 오류확률을 추정하기 위해서는 일반적으로 품사 태깅 시스템에서 사용되는 말뭉치보다 훨씬 더 많은 양의 말뭉치가 필요하다. 이 문제를 다소 완화시키기 위해서, 본 논문에서는 좀더 정확한 오류확률 추정하기 위해 교차확인 방법을 이용한다. 본 논문에서 사용된 품사 태깅 시스템은 시험말뭉치에 대해서 61%의 신뢰도를 보였다. 이는 한국어 문장의 형태소 수가 평균 20개이고, 품사 태깅 시스템의 정확률이 97.5%일 때의 신뢰도에 해당한다. 본 논문에서 사용된 품사 태깅 시스템이 미등록어가 없을 경우에 97.68%의 정확률을 보이므로 제안된 신뢰도 측정 방법이 어느 정도 타당함을 알 수 있었다. 제안된 신뢰도 측정 방법은 구문분석, 정보검색 등 여러 분야에 응용이 가능할 것이며, 본 논문에서는 품사태깅의 오류검출에 적용해보았다.

Keywords

References

  1. Dermatas, E. and Kokkinakis, G., 'Automatic stochastic tagging of natural Ianguage texts,' Computational Ling-uistics, Vol.21, No.2, pp.137-163, 1995
  2. Brill, E.(1995). 'Tranformation-based error driven learn-ing and natural language processing: a case study in part-of-speech tagging,' Computational Linguistics, Vol.21, No.4, pp.543-564
  3. Church, K. W. and Mercer, R. L., 'A introduction to the special issue on computational linguistics using large corpora,' Computational Linguistics, Vol.19, No.1, pp.1-24, 1993
  4. 김재훈, '오류-보정 기법을 이용한 어휘 모호성 해소', 한국과학기술원, 전산학과, 박사학위 논문, 1996
  5. Lin, Y. -C., Chiang, T. -H., and Su, K. -Y., 'Automatic model refinement - with an application to tagging,' Pro-ceedings of the International Conference on Compu-tational Linguistics (COLING-94), Kyoto, Japan, pp.148-153, 1994 https://doi.org/10.3115/991886.991911
  6. 박경수, 신뢰도 공학 및 정비이론, 희중당, 1987
  7. Ramakumar, R., Engineering Reliability : Fundamental and Applications, Prentice Hall, 1993
  8. 김재훈, 임철수, 서정연, '은닉 마르코프 모델을 이용한 효율적인 한국어 품사 태깅', 정보과학회논문지, 제22권, 제1호, pp.136-146, 1995
  9. 신중호, 한영석, 박영찬, 최기선, '어절구조를 반영한 은닉 마르코프 모델을 이용한 한국어 품사 태깅', 제6회 한글 및 한국어 정보처리 학술대회 발표논문집, 시스템공학연구소, 대전, pp.389-364, 1994
  10. 이운재, '한국어 문서 태깅 시스템의 설계 및 구현', 한국과학기술원, 전산학과, 석사학위논문, 1993
  11. 이상주, 임희석, 임해창, '은닉 마르코프 모델을 이용한 두 단계 한국어 품사 태깅,' 제6회 한글 및 한국어 정보처리 학술대회발표논문집, 시스템공학연구소, 대전, pp.305-312, 1994
  12. 김진동, 임희석, 임해창, 'Twoply HMM : 한국어 특성을 고려한 형태소 단위의 품사 태깅 모델', 정보과학회논문지(B), 제25권, 제1호, pp.183-192, 1998
  13. 임희석, '언어 지식과 통계 정보를 이용한 한국어 품사 태깅 모델', 고려대학교, 컴퓨터학과, 박사학위논문, 1997
  14. Nadler, M. and Smith, E. P., Patterhn Recognition Engineering, John Wiley &Sons, 1993
  15. Helstrom, C. W., Probability and Stochastic Process for Engineering, Macmillan Publishing Company, 1991
  16. Cohen, P. R., Empirical Methods for Artifical Intelli-gence, The MIT Press, 1995
  17. 김재훈, '가중치 망을 이용한 한국어 품사 태깅', 정보과학회논문지(B), 제25권, 제6호, pp.951-959, 1998
  18. Forster, G.F. Stastical Lexical Disambiguation, Master's Thesis, McGill University, School of Computer Science, 1991