Abstract
Most of Korean sentences are complex sentences which consisted of main clause and embedded clause. These complex sentences have more than one predicate and this causes various syntactic ambiguities in syntactic analysis. These ambiguities are caused by phrase attachment problems which are occurred by the modifying scope of embedded clause. To resolve it, we decide the scope of embedded clause in the sentence and consider this clause as a unit of syntactic category. In this paper, we use sentence patterns information(SPI) and syntactic properties of Korean to decide a scope of embedded clause. First, we split the complex sentence into embedded clause and main clause by the method that embedded clause must have maximal arguments. This work is done by the SPI of the predicate in the embedded clause. And then, the role of this embedded clause is converted into a noun phrases or adverbial phrases in the main clause by the properties of Korean syntax. By this method, the structure of complex sentence is exchanged into a clause. And some phrases attachment problem, which is mainly caused by the modifying scope, is resolved easily. In this paper, we call this method clausal segmentation for embedded clause. By empirical results of parsing 1000 sentences, we found that our method decreases 88.32% of syntactic ambiguities compared to the method that doesn't use SPI and split the sentence with basic clauses.
한국어 문장은 대부분 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 복문에 나타나는 하나 이상의 용언으로 인해 구문 분석 과정에서 다양한 구문 애매성이 발생한다. 이들 중 대부분은 내포문의 수식 범위로부터 발생되는 구 부착의 문제 때문이다. 이런 구문 애매성은 내포문의 범위를 정해서 하나의 구문 범주의 기능을 가지도록 하면 해결할 수가 있다. 본 논문에서는 내포문의 범위를 정하기 위해서 문형과 한국어의 구문 특성을 이용한다. 먼저, 내포문에 있는 용언의 문형 정보가 가질 수 있는 필수격을 최대로 부착하여 내포문의 범위를 정하고 이를 이용해서 복문을 내포문과 주절로 분할한다. 그리고 한국어의 구문 특성을 이용해서 분할된 내포문의 기능을 하나의 구문 범주인 체언구나 부사구로 변환한다. 이렇게 함으로써 복합문의 구성 형태가 단문 구조로 변환되기 때문에 내포문의 범위에 의한 구 부착의 문제가 쉽게 해결된다. 이것을 본 논문에서는 내포문의 단문 분할이라고 한다. 본 논문에서 제안한 방법으로 1000 문장을 실험한 결과 문형과 단문 분할을 이용하지 않은 방법보다 구문 애매성이 88.32% 감소되었다.