DOI QR코드

DOI QR Code

Implementing Korean Partial Parser based on Rules

규칙에 기반한 한국어 부분 구문분석기의 구현

  • 이공주 (이화여자대학교 컴퓨터학과) ;
  • 김재훈 (한국해양대학교 컴퓨터공학과)
  • Published : 2003.08.01

Abstract

In this paper, we present a Korean partial parser based on rules, which is used for running applications such as a grammar checker and a machine translation. Basically partial parsers construct one or more morphemes and/or words into one syntactical unit, but not complete syntactic trees, and accomplish some additional operations for syntactical parsing. The system described in this paper adopts a set of about 140 manually-written rules for partial parsing. Each rule consists of conditional statements and action statement that defines which one is head node and also describes an additional action to do if necessary. To observe that this approach can improve the efficiency of overall processing, we make simple experiments. The experimental results have shown that the average number of edges generated in processing without the partial parser is about 2 times more than that with the partial parser.

본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.

Keywords

References

  1. 국어어문규정집
  2. 김재훈, 부분 구문분석 방법론, 정보처리학회지, 제7권 제6호, pp.83-96, 2000
  3. 김재훈, 한국어 부분 구문분석의 단위와 그 표지, 한국해양대학교, 컴퓨터 공학과, KMU-NLP-TR-2000-006, 2000
  4. 김홍규 외, 현대국어 기초 말뭉치 개발, 문화공보부, 2002
  5. 박수호, 권혁철, '확장된 어휘적 중의성 제거 규칙에 따른 부분 문장 분석에 기반한 한국어 문법검사기', 제13회 한글 및 한국어 정보처리 학술대회 발표논문집, pp.516-522, 2001
  6. 안동언, 기계번역을 위한 한국어 해석에서 형태소로부터 구문요소의 형성에 관한 연구, 한국과학기술원, 전산학과, 석사학위논문, 1987
  7. 이중영, 신병훈, 이공주, 김지은, 안상규, COM 기반의 다목적 형태소 분석기를 이용한 명사 추출기, 제1회 형태소 분석기 및 품사태거 평가 워크숍 논문지, pp.167-172, 1999
  8. Abney, S., 'Chunk and dependencies : Bringing processing evidence to bear on syntxt,' 'Conputational Linguistics and the Foundations of Linguistic Theory, CLSI, 1995
  9. Abney, S. 'Partial Parsing via Finite-State Cascades,' J. of Natural Language Engineering, 2(4), pp.337-344, 1996 https://doi.org/10.1017/S1351324997001599
  10. Abney, S. Chunk Stylebook, http://sfs.npil.unituebingen.de/~abney/Papers.html #98i, 1996
  11. At-Mohtar, S. and Chanod, J. P, 'Incremental Finite-State Parsing,' Proceedings of ANLP '97, Washington, pp. 72-79, 1997
  12. Bourigault, D., 'Surface grammatical analysis for the extraction of terminological noun phrases,' Proceedings of COLING-92, pp.977-981, 1992 https://doi.org/10.3115/992383.992415
  13. Brants, T., 'Cascaded Markov Models,' Proceedings of EACL-99, Bergen, Norway, 1999 https://doi.org/10.3115/977035.977052
  14. Cardie, C. and Pierce, D., 'Error-driven pruning of treebank grammars for base noun phrase identification,' Proceedings of COLING-ACL-98, 1998 https://doi.org/10.3115/980451.980881
  15. Cardie, C., Ng, V., Pierce, D., Buckley, C. 'Examining the role of statistical and linguistic knowledge sources in a general-knowledge question-answering system,' Proceedings of the Sixth Applied Natural Language Processing Conference(ANLP-2000), pp.180-187, 2000 https://doi.org/10.3115/974147.974172
  16. Church ,K., 'A stochastic PARTS program and nour phrase parser for unrestricted texts,' Proceedings of ANLP-88, Austin, Texas, 1988
  17. Chen K.-H. and Chen H. H., 'Extracting noun phrase phrases from large scale texts : Hybrid approach and its automatic evaluation,' Proceedings of ACL-94, pp. 234-241, 1994 https://doi.org/10.3115/981732.981764
  18. Daelemans, W., Buchholz, S. and Veenstra, J., 'Memory-Based Shallow Parsing,' Proceedings of CoNLL-99, Bergen, Norway, 1999
  19. Dagan, I. and Krymolowski, Y.,Compositional partial Parsing by memory-based sequence learning, Data-oriented Parsing,' Rens Bod, Remko Scha, and Khalil Sima'an, CSLI publications, 2001
  20. Hobbs, J., Appelt, D., Bear, J., Israel, D., Karmeyama, M., Stickel, M. and Tyson, M., 'FASTUS : a cascaded finite-state transducer for extracting information from natural-language text ,' Finite State Devices for Natural Lanaguage Processing, E. Roche and Y. Schabes, eds., Cambridge MA : MIT Press, 1996
  21. Hindle, D., User manual for Fidditch, Technical Memorandum, #7590-142, Naval Research Laboratory, 1993
  22. http://msdn.microsoft.com/library/default.asp?url=/library/en-us/dnofftalk/html/office01022003.asp
  23. INUI,T. and INUI K. 'An application of Probabilistic Partial Parsing : Detection of Syntactic-Tag Errors in Treebanks,' IPSJ SIGNotes Natural Language Abstract, No.134-003, 1999
  24. Joshi, A., Hopely, P., 'A parser from antiquity : an early application of finite state transducers to natural language parsing,' Extended Finite State Models of Language, Kornai, A. eds, Cambridge University Press, pp.6-15, 1999
  25. Rawshaw, L. A. and Marcus, M. P., 'Text chunking using transformation-based learning,' Proceedings of the 3rd Workshop.on Very Large Corpora, MIT, pp.82-94, 1995
  26. Skut, W. and Brants, T., 'Chunk tagger-statistical recognition of noun phrases,' Proceedings of the ESSLLI Workshop on Automated Acquisition of Syntax and Parsing. Saarbrcken, Germany, 1998
  27. Skut, W. and Brants, T. 'A maximum-entropy partial parser for unrestricted text,' Proceedings of the Sixth Workshop on Very Large Corpora. Montreal, Canada., 1998a
  28. Tjong Kim Sang, 'Noun phase representation by system combination,' Proceedings of ANLP-NAACL2000, Seattle, Washington, USA, 2000
  29. Voutilainen, A. and Padro, L., 'Developing a hybrid NP parser,' Proceedings of ANLP-97, 1997 https://doi.org/10.3115/974557.974570
  30. Voutilainen, A., 'NPtool, a detector of English noun phrases,' The computation and Language E-Print Archive (http://arXiv.org/), cmp-lg/9502010, 1995
  31. Zhang,T., Damerau, F. and Johnson, D. 'Text Chunking based on a Generalization of Winnow,' Journal of Machine Learning Research, Vol.2, pp.615-637, Mar., 2002 https://doi.org/10.1162/153244302320884560

Cited by

  1. An Analysis of Korean Dependency Relation by Homograph Disambiguation vol.3, pp.6, 2014, https://doi.org/10.3745/KTSDE.2014.3.6.219
  2. Web Information Retrieval based on Natural Language Query Analysis and Keyword Expansion vol.21, pp.2, 2004, https://doi.org/10.3743/KOSIM.2004.21.2.235
  3. Understanding the Use of Community Informatics: A Structural Equation Modeling Approach vol.21, pp.2, 2004, https://doi.org/10.3743/KOSIM.2004.21.2.023