DOI QR코드

DOI QR Code

형태소 단위의 한국어 확률 의존문법 학습

Korean Probabilistic Dependency Grammar Induction by morpheme

  • 최선화 (전남대학교 대학원 전산학과) ;
  • 박혁로 (전남대학교 전산학과)
  • 발행 : 2002.12.01

초록

본 논문에서는 코퍼스를 이용한 확률 의존문법 자동 생성 기술을 다룬다. 한국어의 부분 자유 어순성질과 문장의 필수적 성분의 생략과 같은 특성으로 인하여 한국어 구문분석에 관한 연구들에서는 주로 의존문법을 선호하고 있다. 본 논문에서는 기존의 어절단위학습방법에서는 학습할 수 없었던 어절 내의 의존관계를 학습할 수 있는 형태소 단위의 학습 방법을 제안한다. KAIST의 트리 부착 코퍼스 약 3만 문장에서 추출한 25,000문장의Tagged Corpus을 가지고 한국어 확률 의존문법 학습을 시도하였다. 그 결과 초기문법 2,349개의 정확한 문법을 얻을 수 있었으며, 문법의 정확성을 실험하기 위해 350개의 실험문장을 parsing한 결과 69.77%의 파싱 정확도를 보였다. 이로서 한국어 어절 특성을 고려한 형태소 단위 학습으로 얻어진 의존문법이 어절 단위 학습으로 얻어진 문법보다 더 정확하다는 사실을 알 수 있었다.

In this thesis. we present a new method for inducing a probabilistic dependency grammar (PDG) from text corpus. As words in Korean are composed of a set of more basic morphemes, there exist various dependency relations in a word. So, if the induction process does not take into account of these in-word dependency relations, the accuracy of the resulting grammar nay be poor. In comparison with previous PDG induction methods. the main difference of the proposed method lies in the fact that the method takes into account in-word dependency relations as well as inter-word dependency relations. To access the performance of the proposed method, we conducted an experiment using a manually-tagged corpus of 25,000 sentences which is complied by Korean Advanced Institute of Science and Technology (KAIST). The grammar induction produced 2,349 dependency rules. The parser with these dependency rules shoved 69.77% accuracy in terms of the number of correct dependency relations relative to the total number dependency relations for best-1 parse trees of sample sentences. The result shows that taking into account in-word dependency relations in the course of grammar induction results in a more accurate dependency grammar.

키워드

참고문헌

  1. De. Marcken, 'Lexical heads, phase structure and the induction of grammar,' In Third Workshop on Very Large Corpora, 1995
  2. M. Magerman, 'Natural Language Parsingas Statistical pattern Recognition,' PhD thesis, Standford University, 1994
  3. Black, Lafferty and S. Roukos, 'Development and evaluation of a road-coverage probabilistic grammar of Englishlanguage computer manuals,' In 30th Annual Meeting of the Assocation for Computational Linguistics, pp.185-192, 1992
  4. E. Brill and M. Marcus, 'Tagging an unfamiliar text with minimal human supersision,' In Fall Symposium on Probabilistic Approaches to Natural Language, 1992
  5. E. Charniak, 'Statistical Language Learning,' The MIT Press, 1993
  6. F. Jelinek, J D. Lafferty and R. L. Mercer, 'Basic methods of Probabilistic Context Free Grammars,' Technical Report, IBM-T. J Watson Research Center, 1990
  7. F. Pereira and Y. Schabes, 'Inside-outside reestimation from partially bracketed corpora,' In 30th Annual Meeting of the Association for Computational Linguistics, pp.128-135, 1992
  8. G. Carroll and E. Charniak, 'Learning probabilistic dependency grammars from labeled text,' In Working Notes Fall Symposium Series AAAI, pp.25- 31, 1992
  9. G. Carroll and E. Charniak, 'Two Experiments on Learning Probabilistic Dependency Grammars for Corpora,' Technical Report CS-92-16, Brown University, 1992
  10. H. Gaifman, 'Dependency systems and phrase-structure system,' Information and Control, 8, pp.304-337, 1965 https://doi.org/10.1016/S0019-9958(65)90232-9
  11. J. K. Baker, 'Trainable grammars for speech recognition,' In 97th Meeting of the Acoustical Society of America, pp.547-550, 1979
  12. K. Lari and S. J Young, 'The estimation of stochastic context-free grammars using the inside-outside algorithm,' Computer Speech and Language, 4, pp.35-56, 1990 https://doi.org/10.1016/0885-2308(90)90022-X
  13. M. A. Covington, 'A Dependency Parser for Variable-WordOrder Languages,' Technical Report Al-1990-01, The University of Georgia, 1990
  14. M. J Collins, 'A New Statistical Parser Based on Bi-gram Lexical Dependencies,' In COLING-96, 1996
  15. P. F. Brown, V. J. Della Pietra, P. V. deSouza, J. C. Lai and R. L. Mercer, 'Class-Based n-gram Models of Natural Language,' Computational Linguistics, 18(4) : pp.467-480, 1992
  16. S. F. Chen, 'Bayesian grammar induction for language modeling.' In 33rd Annual Meeting of the Association for Computational Linguistics, pp.228-235, 1995 https://doi.org/10.3115/981658.981689
  17. 김형근, '확률적 의존문법과 한국어 구분 분석', 석사논문, 한국과학기술원, 1994
  18. 나동렬, '한국어 파싱에 대한 고찰' 한국정보과학회지, 12(8), pp.33-46, 1994
  19. 이공주, '언어적 특성에 기반한 한국어의 확률적 구문분석' 박사논문, 한국과학기술원, 1998
  20. 이공주, 김재훈, 장병규, 최기선, 김길창, '한국어 구문트리 태깅 코퍼스 작성을 위한 한국어 구문 태그' 한국과학기술원 전산학과 기술보고서, CS/TR-96-102, http://hanul.kaist.ac.kr/~kjlee/paper.html, 1996
  21. 이승미, '확률 의존문법 학습' 박사논문, 한국과학기술원, 1998
  22. 홍영국, 이종혁, 이근배, '의존문법에 기반을 둔 한국어 구문 분석기' 한국정보과학회 봄 학술발표논문집, pp.781-784, 1993

피인용 문헌

  1. A Study of Parsing System Implementation Using Segmentation and Argument Information vol.16, pp.3, 2013, https://doi.org/10.9717/kmms.2013.16.3.366