Analyzing dependency of Korean subordinate clauses using a composit kernel

복합 커널을 사용한 한국어 종속절의 의존관계 분석

  • Kim, Sang-Soo (Department of Computer Engineering, Kyungpook National University) ;
  • Park, Seong-Bae (Department of Computer Engineering, Kyungpook National University) ;
  • Park, Se-Young (Department of Computer Engineering, Kyungpook National University) ;
  • Lee, Sang-Jo (Department of Computer Engineering, Kyungpook National University)
  • 김상수 (경북대학교 컴퓨터공학과) ;
  • 박성배 (경북대학교 컴퓨터공학과) ;
  • 박세영 (경북대학교 컴퓨터공학과) ;
  • 이상조 (경북대학교 컴퓨터공학과)
  • Published : 2008.03.31

Abstract

Analyzing of dependency relation among clauses is one of the most critical parts in parsing Korean sentences because it generates severe ambiguities. To get successful results of analyzing dependency relation, this task has been the target of various machine learning methods including SVM. Especially, kernel methods are usually used to analyze dependency relation and it is reported that they show high performance. This paper proposes an expression and a composit kernel for dependency analysis of Korean clauses. The proposed expression adopts a composite kernel to obtain the similarity among clauses. The composite kernel consists of a parse tree kernel and a liner kernel. A parse tree kernel is used for treating structure information and a liner kernel is applied for using lexical information. the proposed expression is defined as three types. One is a expression of layers in clause, another is relation expression between clause and the other is an expression of inner clause. The experiment is processed by two steps that first is a relation expression between clauses and the second is a expression of inner clauses. The experimental results show that the proposed expression achieves 83.31% of accuracy.

한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미정보와 같은 추가적인 정보가 필요할 것으로 판단하고 처리해 왔다. 본 논문에서는 추가적인 정보를 사용하지 알고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보와 정적 정보를 다루는 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결 및 하부절의 표현 유무로 나누었고, 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

Keywords