Korean Syntactic Analysis by Using Clausal Segmentation of Embedded Clause

내포문의 단문 분할을 이용한 한국어 구문 분석

  • 이현영 (전북대학교 컴퓨터정보학과) ;
  • 이용석 (전북대학교 컴퓨터정보학과)
  • Published : 2008.01.15

Abstract

Most of Korean sentences are complex sentences which consisted of main clause and embedded clause. These complex sentences have more than one predicate and this causes various syntactic ambiguities in syntactic analysis. These ambiguities are caused by phrase attachment problems which are occurred by the modifying scope of embedded clause. To resolve it, we decide the scope of embedded clause in the sentence and consider this clause as a unit of syntactic category. In this paper, we use sentence patterns information(SPI) and syntactic properties of Korean to decide a scope of embedded clause. First, we split the complex sentence into embedded clause and main clause by the method that embedded clause must have maximal arguments. This work is done by the SPI of the predicate in the embedded clause. And then, the role of this embedded clause is converted into a noun phrases or adverbial phrases in the main clause by the properties of Korean syntax. By this method, the structure of complex sentence is exchanged into a clause. And some phrases attachment problem, which is mainly caused by the modifying scope, is resolved easily. In this paper, we call this method clausal segmentation for embedded clause. By empirical results of parsing 1000 sentences, we found that our method decreases 88.32% of syntactic ambiguities compared to the method that doesn't use SPI and split the sentence with basic clauses.

한국어 문장은 대부분 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 복문에 나타나는 하나 이상의 용언으로 인해 구문 분석 과정에서 다양한 구문 애매성이 발생한다. 이들 중 대부분은 내포문의 수식 범위로부터 발생되는 구 부착의 문제 때문이다. 이런 구문 애매성은 내포문의 범위를 정해서 하나의 구문 범주의 기능을 가지도록 하면 해결할 수가 있다. 본 논문에서는 내포문의 범위를 정하기 위해서 문형과 한국어의 구문 특성을 이용한다. 먼저, 내포문에 있는 용언의 문형 정보가 가질 수 있는 필수격을 최대로 부착하여 내포문의 범위를 정하고 이를 이용해서 복문을 내포문과 주절로 분할한다. 그리고 한국어의 구문 특성을 이용해서 분할된 내포문의 기능을 하나의 구문 범주인 체언구나 부사구로 변환한다. 이렇게 함으로써 복합문의 구성 형태가 단문 구조로 변환되기 때문에 내포문의 범위에 의한 구 부착의 문제가 쉽게 해결된다. 이것을 본 논문에서는 내포문의 단문 분할이라고 한다. 본 논문에서 제안한 방법으로 1000 문장을 실험한 결과 문형과 단문 분할을 이용하지 않은 방법보다 구문 애매성이 88.32% 감소되었다.

Keywords

References

  1. KIBS : Korean Information Base System, http:// kibs.kaist.ac.kr/kibs
  2. 이현영, 황이규, 이용석, '문형과 단문 분할을 이용한 한국어 구문 모호성 해결', 제 12회 한글 및 한국어 정보처리 학술대회, pp. 116-123, 2000
  3. 신효필, '최소자원 최대효과의 구문 분석', 제11회 한글 및 한국어 정보처리 학술대회, pp. 242-247, 1999
  4. 박현재, 이수선, 우요섭, '의미 정보를 이용한 이단계 단문분할 알고리즘', 제 11회 한글 및 한국어 정보처리 학술대회, pp. 237-241, 1999
  5. 김광백, 박의규, 나동렬, 윤준태, '구간 분할 기반 한국어 구문 분석', 제 14회 한글 및 한국어 정보처리 학술대회, pp. 163-168, 2002
  6. 장재철, 박의규, 나동렬, '구간 분할 기반 한국어 대등접속 구문분석 기법', 제 14회 한글 및 한국어 정보처리 학술대회, pp. 139-146, 2002
  7. 황이규, 구문 형태소를 이용한 형태소 및 구문 모호성 축소, 전북대학교 박사학위 논문, 2001
  8. 서울대학교, '한.영동사의 하위범주화와 대응에 관한 연구', 한국전자통신연구소 최종 연구보고서, 1989
  9. 장석진, 정보기반 한국어 문법, 도서출판 언어와 정보, 1993
  10. 연세대학교 언어정보개발원, 연세한국어 사전, 두산동아, 1999
  11. 양승원, 박영진, 이용석, '조건 단일화 기반 PATRII를 이용한 한국어 구문 분석', 한국정보과학회 논문지 Vol.22, No.4, pp. 653-662, 1995
  12. 교육부, 사회 5-1, 국정교과서주식회사, 1995