Estimation of the Corpus Size for Solving Data Sparseness

자료 빈약성을 해소하기 위한 말뭉치 크기의 예측

  • 양단희 (연세대학교 컴퓨터과학과) ;
  • 임수종 (LG 증권 IS개발팀 연구원) ;
  • 송만석 (연세대학교 컴퓨터과학과)
  • Published : 1999.04.01

Abstract

대량의 말뭉치(corpus)로부터 구문 정보나 의미 정보를 컴퓨터를 사용하여 자동으로 발췌하려는 연구가 활발하다. 그러나 실용적인 자연언어처리 시스템이 되기 위해 필요한 망라성(coverage)과 견고성(robustness)을 갖기 위해 어느 정도 규모의 말뭉치가 필요한지에 대한 연구는 극히 미비하다. 본 연구는 '우리말큰사전'상의 주요 4가지 품사에 속하는 단어들을 중심으로 상이 단어(different words) 수와 말뭉치 크기간의 상관관계를 통계적으로 고찰하여 수학적 예측함수(estimating functions)를 구한다. 그리고 이를 통해 자료 빈약성(data sparseness)현상을 타당한 수준으로 감소시켜 말뭉치를 기반 자연어처리의 신뢰도를 높이기 위해 요구되는 말뭉치 크기를 예측한다. 또한 예측된 말뭉치 크기를 근거로 합리적인 말뭉치 구축 방법을 제안한다.

Keywords

References

  1. Using Large Corpora Armstrong, Susan (eds.)
  2. Literary and Linguistic Computing v.7 no.1 Corpus Design Criteria Atkins,Sue;Jeremy Clear;Nicholas Ostler
  3. Numerical Analysis Burden,Richard L.;J.Douglas Faires
  4. Using Large Corpora Introduction to the Special Issue on Computational Linguistics Using Large Corpora Church, Kenneth W.;Robert L. Mercer;Susan Armstrong (edited)
  5. The Computational Analysis of English: A Corpus-Based Approach Garside,Roger;Geoffrey Leech;Geoffrey Sampson
  6. Information Retrieval: Computational and Theoretical Aspects Heaps,H.S.
  7. In The $8^{th}$ Australian Joint Conference on Artificial Intelligence Conserving Fuel in Statistical Language Learning: Predicting Data Requirements Lauer, Mark
  8. The $2^{th}$ Conference of the Pacific Association for Computational Linguistics How much is enough?: Data requirements for statistical NLP Lauer, Mark
  9. Numerical Analysis: A Practical Approach Maron, M.J.
  10. Corpus Linguistics McEnery,T.;A.Wilson
  11. Selection and Information: A Class-Based Approach to Lexical Relationships Resnik, Philip
  12. International Journal of Lexicography v.6 no.3 Longman/Lancaster English Language Corpus-Criteria and Design Summers,Della
  13. Using Large Corpora Coping with Ambiguity and Unknown Words through Probabilistic Models Weischedel, Ralph (et al.);Susan Armstrong (edited by)
  14. 제11회 언어 정보 연찬회 빈도와 언어 기술, 언어정보의 개발과 이용 강범모
  15. 한국심리학회지 v.5 no.3 한국어 어휘빈도조사 김영채
  16. 자연 언어 처리 김영택
  17. 과학기술처 연구기획과제 최종 보고서 우리말 컴퓨터를 위한 개발 계획 수립 박동인 등
  18. 정통부연구개발사업 연구보고서 한국어처리를 위한 격틀의 자동구축 송만석;남기심;양단희 등
  19. In Proceedings of Text, Speech, and Dialogue (TSD) '98 How Much Training Data Is Required to Remove Data Sparseness in Statistical Language Learning 양단희;송만석
  20. 한국정보과학회 98 봄 학술발표논문집 한국어 기계학습과 말뭉치 구축 양단희;송만석
  21. In Proceedings of the Pacific Asia Conference on Language, Information and Computation 98 (PACLIC-12) Using Case Prototypicality as a Semantic Primitive 양단희;이익환;송만석
  22. 사전편찬학 연구 v.5;6 말뭉치: 그 개념과 구현 이상섭
  23. 사전편찬학 연구 v.2 뭉치 언어학적으로 본 사전 편찬의 실제 문제 이상섭
  24. 제11회 언어 정보 연찬회 연세말뭉치의 어절 빈도 연구, 언어정보의 개발과 이용 장석배
  25. 사전편찬학 연구 v.5;6 국어 어휘의 통계적 특성과 이의 응용 정영미
  26. 사전편찬학 연구 v.3 우리말 낱말 빈도 조사 표본의 선정기준 정찬섭;이상섭;남기심 등