한국어 구문분석의 효율성을 개선하기 위한 구문제약규칙의 학습

Loaming Syntactic Constraints for Improving the Efficiency of Korean Parsing

  • 발행 : 2002.10.01

초록

본 논문에서는 한국어 구문분석에 적합한 다양한 구문정보에 대해 살펴보고, 이를 바탕으로 학습한 제약규칙을 이용하여 구문분석모델의 효율성을 개선시키는 방법을 제안한다. 제안하는 방법의 특징은 다음과 같다. 첫째, 제약규칙을 이용하여 불필요한 중간결과물의 생성을 제약하므로, 구문분석의 효율성이 향상된다. 둘째, 제약규칙의 학습에 이용되는 구문정보가 한국어의 특성을 적절히 반영하고 있으므로, 한국어 문장에 대해 비교적 견고하게 분석할 수 있다. 셋째, 제약규칙은 결정트리 학습알고리즘에 의해 말뭉치에서 자동으로 학습되므로, 제약규칙의 획득이 용이하다. 제약규칙을 이용하여 실험한 결과 구문분석모델의 과생성이 1/2~1/3로 줄고 처리속도가 2~3배 빨라졌다.

In this paper, we observe various syntactic information for Korean parsing and propose a method to learn constraints and improve the efficiency of a parsing model by using the constraints. The proposed method has the following three characteristics. First, it improves the parsing efficiency since we use constraints that can prevent the parser from generating unsuitable candidates. Second, it is robust on a given Korean sentence because the attributes for the constraints are selected based on the syntactic and lexical idiosyncrasy of Korean. Third, it is easy to acquire constraints automatically from a treebank by using a decision tree learning algorithm. The experimental results show that the parser using acquired constraints can reduce the number of overgenerated candidates up to 1/2~1/3 of candidates and it runs 2~3 times faster than the one without any constraints.

키워드

참고문헌

  1. 나동렬, '한국어 파싱에 대한 고찰', 한국정보과학회지, 제12권, 제8호, pp.33-46, 1994
  2. Nicola Cancedda, Christer Samuelsson, 'Experiments with Corpus-based LFG Specialization,' Proceedings of the Sixth Applied Natural Language Processing Conference, pp.204-209, 2000 https://doi.org/10.3115/974147.974175
  3. 서정연, 김창현, '통계적 방법을 이용한 구문분석,' 한국정보과학회지, 제14권, 제7호, pp.58-70, 1996
  4. Wolfgang Menzel, Ingo Schoder, 'Decision Procedures for Dependency Parsing Using Graded Constraints,' In Proceedings of COLLING-ACL Workshop on Processing of Dependency Grammars, pp.78-87, 1998
  5. 이공주, '언어특성에 기반한 한국어의 확률적 구문분석,' 한국과학기술원 박사학위 논문, 1997
  6. A. Voutilainen, 'Three Studies of Grammar-Based Surface Parsing of Unrestricted English Text,' PhD thesis, University of Helsinki, 1994
  7. David M. Magerman, 'Statistical Decision-Tree Models for Parsing,' In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics, pp.276-283, 1995 https://doi.org/10.3115/981658.981695
  8. 김학수, 서정연, '어휘 의존 정보에 기반한 한국어 통계적 구문분석기,' 한국정보과학회 인공지능 연구회 봄 학술발표 논문집, pp.61-65, 1997
  9. Michael Collins, 'Head-Driven Statistical Models for Natural Language Parsing,' Ph.D. Thesis, University of Pennsylvania, 1999
  10. David M. Magerman, Carl Weir, 'Efficiency, Robustness and Accuracy in Picky Chart Parsing,' In Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics, pp.40-47, 1992 https://doi.org/10.3115/981967.981973
  11. 조정미, 서정연, 김길창, '말뭉치로부터 자동 추출된 문맥 반영 구문규칙을 이용한 영어 구문 분석,' 한국정보과학회논문지, 제21권, 제9호, pp.1702-1710, 1994
  12. Ezra Black, Fred Jelinek, John Lafferty, David M. Magerman, Robert Mercer, Salim Roukos, 'Towards History-based Grammars: Using Richer Models for Probabilistic Parsing,' In Proceedings of the 31st Annual Meeting of the Association for Comptational Linguistics, pp.31-37, 1993 https://doi.org/10.3115/981574.981579
  13. Bernd Kiefer, Hans-Uirich Krieger, John Carroll, Rob Malouf, 'A bag of useful techniques for efficient and robust parsing,' In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, pp.473-480, 1999 https://doi.org/10.3115/1034678.1034750
  14. Kentaro Torisawa, Kenji Nishida, Yusuke Miyao, Jun-Ichi Tsujii, 'An HPSG Parser with CFG filtering,' Natural Language Engineering, Vol. 6, Part 1, pp.63-80, 2000 https://doi.org/10.1017/S1351324900002412
  15. 권혜진, 이원일, 이근배, 이종혁, '범주문법에 기반한 한국어의 의미분석,' 한국정보과학회 봄 학술발표 논문집, pp.915-918, 1996
  16. J. T. Maxwell, R. M. Kaplan, 'The interface between phrasal and functional constraints,' Computational Linguistics, Vol.19, Num.4, pp.571-590, 1993
  17. 박소영, 황영숙, 임해창, 'X-바 이론의 중심어 개념을 도입한 형태소 단위의 한국어 자질기반 문법,' 한국정보학회 논문지(B), 제26권, 제10호, pp.1247-1259, 1999
  18. J. Ross Quinlan, 'C4.5: Programs for Machine Learning,' Morgan Kaufmann Publishers, 1993
  19. Masaru Tomita, 'Efficient Parsing for Natural Languge: A Fast Algorithm for Practical Systems,' Kluwer Academic Publishers, 1986
  20. Yong-Jae Kwak, Young-Sook Hwang, Hoo-Jung Chung, So-Young Park, Sang-Zoo Lee, and Hae-Chang Rim, GLR Parser with Conditional Action Model(CAM), Proc. of the 6th Natural Language Processing Pacific Rim Symposium, pp.359-366, 2001
  21. Joshua Goodman, 'Parsing Algorithms and Metrics,' Proceedings of the 34th Anuual Meeting of the Association for Computational Linguistics, pp.177-183, 1996 https://doi.org/10.3115/981863.981887