Korean Syntactic Rules using Composite Labels

복합 레이블을 적용한 한국어 구문 규칙

  • Published : 2004.02.01

Abstract

We propose a format of a binary phrase structure grammar with composite labels. The grammar adopts binary rules so that the dependency between two sub-trees can be represented in the label of the tree. The label of a tree is composed of two attributes, each of which is extracted from each sub-tree so that it can represent the compositional information of the tree. The composite label is generated from part-of-speech tags using an automatic labeling algorithm. Since the proposed rule description scheme is binary and uses only part-of-speech information, it can readily be used in dependency grammar and be applied to other languages as well. In the best-1 context-free cross validation on 31,080 tree-tagged corpus, the labeled precision is 79.30%, which outperforms phrase structure grammar and dependency grammar by 5% and by 4%, respectively. It shows that the proposed rule description scheme is effective for parsing Korean.

본 논문에서는 한국어 구문 분석 및 구문 트리 표현을 위한 복합 레이블 생성 방법을 제안한다. 기존의 구문 트리 표현에서는 미리 정의된 구문 트리 레이블을 사용하여 구문 정보를 표현하였다. 본 논문에서는 이진 규칙하에서 품사태그 정보만을 이용하여 구문 레이블을 자동으로 생성하는 방법을 제시한다. 제안된 구문 레이블은 두 개의 하위 구성체의 품사정보를 적절히 구성하여 형성되며, 동시에 현 구성체의 상태 및 역할 정보를 표현할 수 있도록 고안되었다. 이와 같이 함으로써 품사태그 정보가 가지고 있는 정보를 그대로 구문 트리에 반영시킬 수 있었다. 또한, 품사 정보와 이진규칙만을 이용하여 구문 트리를 표현하기 때문에, 다양한 구문 규칙을 채택하고 있는 서로 다른 구문 분석기의 결과를 정규화 하는 데 적용할 수 있을 것이며, 일본어와 같은 다른 언어에도 쉽게 적용 가능하다. 약 31,080 문장에 대한 구문 분석의 결과, 79.30%의 정확도를 얻을 수 있었으며, 이는 제안된 구문 트리 표현 방법이 구문 분석기의 효율에도 좋은 영향을 미침을 보이는 것이다.

Keywords

References

  1. C. H. Kim, J. H. Kim, J. Y. Seo, and G. C. Kim. 1994. A right-to-left chart parsing with headable paths for Korean dependency grammar. Computer Processing of Chinese and Oriental Languages 8 (Supplement), 105-118
  2. K. J. Seo, K. C. Nam, and K. S. Choi. 1998. A probabilistic model for dependency parsing considering ascending dependencies. Literary and Linguistic Computing 13(2), 59-63 https://doi.org/10.1093/llc/13.2.59
  3. K. J. Lee, J. H. Kim, and G. C. Kim. 1997. An efficient parsing of Korean sentences using restricted phrase structure grammar. Computer Processin of Oriental Languages 11(1), 49-62
  4. C. H. Han, N. R. Han, and E. S. Ko. 2001. Bracketing Guidelines for Penn Korean TreeBank. IRCS Report 01-10, University of Pennsylvania
  5. 나동렬. 1994. 한국어 파싱에 대한 고찰. 정보과학회지 12(8), 33-46
  6. J. Cha and Geunbae Lee. Structural disambiguation of morpho-syntactic categorial parsing for Korean, Proceedings of 18th Conference on Computational Linguistics, pp. 1002-1006. 2000 https://doi.org/10.3115/992730.992793
  7. Jeongwon Cha, Geunbae Lee, Jong-Hyeok Lee. Korean Combinatory Categorial Grammar and statistical parsing, Computers and the Humanities, Vol 36(4): 431-453, Nov. 2002 https://doi.org/10.1023/A:1020260012525
  8. C. D. Manning and H. Schutze. 1999. Foundations of Statistical Language Processing. The MIT Press
  9. 한국과학기술원. 1997. 문화체육부와 과학기술부의 연구과제 국어정보처리기 구축과 STEP2000에서 구축된 KAIST 코퍼스, 1996-1997. 한국과학기술원
  10. 최기선, 남영준, 김진규, 한영균, 박석문, 김진수, 이춘택, 김덕봉, 김재훈, 최병진. 1996. 한국어정보베이스를 위한 형태·통사 태그 표준에 관한 연구. 인지과학 7(4), 43-61
  11. J. E. Hopcraft and J. D. Ullman. 1979. Introduction to Automata Theory, Languages and Computation. Addison-Wesley
  12. E. Charniak, S. Goldwater, and M. Johnson. 1998. Edge-based bast-first chart parsing. Proc. of the Fourteenth Nat'l Conf. on AI, 127-133
  13. C. D. Manning, and R. Carpenter. 1997. Probabilistic parsing using left corner language models cmp-lg/9711003
  14. H. Tanaka, T. Tokunaga, and M. Aizawa. 1995. Integration of morphological and syntactic analysis based on LR parsing algorithm. Journal of Natural Language Processing 2(2), 59-74 https://doi.org/10.5715/jnlp.2.2_59
  15. E. Black, S. Abney, D. Flickinger, C. Gdaniec, R. Grishman, P. Harrison, D. Hindle, R. Ingia, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. 1991. A procedure for quantitatively comparing the syntactic coverage of English grammars. Proceedings of Speech and Natural Language Wrkshop DARPA, Pacific Grove, 306-311 https://doi.org/10.3115/112405.112467
  16. S. Sekine and M. Collins. 1997. Evalb. ftp://cs.nyu.edu
  17. C. M. White. 2000. Rapid Grammar Development and Parsing Constraint Dependency Grammars with Abstract Role Values. Ph.D. Thesis, Purdue University