A Robust Korean Spoken Language Parsing Based on Core Concept

핵심개념 기반의 강건한 한국어 대화체 파싱

  • 노서영 (충북대학교 대학원 컴퓨터공학과) ;
  • 정천영 (구미1대학 전자계산학과) ;
  • 서영훈 (충북대학교 컴퓨터공학과)
  • Published : 1999.08.01

Abstract

The partial free order feature of Korean makes grammar size represented by CFG too big and that's why grammar has to contain all the ordered words. There are some problems to parse spoken language, because spontaneous spoken language has special features such as meaningless words, repetitious speech, etc. So, in this paper, we define 'Core-Concept' as the necessary element for parsing and we describe grammar only using Core-Concept. And we can prevent grammar from becoming very large and reduce an additional parsing burden as we select. Core-Concept described in grammar as parsing element. Through this strategy, we present that the simplified grammar can give us more efficient method to get right results. Experiments show that our parsing strategy has an average of 98% or over success rate in correct parsing results.

부분 자유어순 특성을 가지는 한국어를 CFG형태의 문법으로 기술했을 때 문법이 방대해지고 CFG형태의 문법을 파서가 이용할 때는 자연발화문의 특징인 간투어, 중복발화 등 때문에 불필요 성분을 따로 처리해야 하므로 파서의 부담이 커진다. 이러한 문제점을 해결하기 위해 본 논문에서는 발화문에서 중요한 의미를 가지는 요소를 '핵심개념'이라 정의하고 핵심개념만을 문법에 기술하여 문법이 방대해지는 것을 막고 문법에 기술된 핵심개념을 파싱요소로 선택함으로써 불필요 성분처리에 대한 파서의 부담을 줄였으며 이렇게 단순화된 문법만으로도 정확한 파싱결과를 내줄 수 있음으로 보인다. 실험결과 '여행안내'영역 자연발화문에 대해서 평균 98%이상의 올바른 파싱결과를 얻어낼 수 있었다.

Keywords