Two-Level Clausal Segmentation using Sense Information

의미 정보를 이용한 이단계 단문분할

  • 박현재 (인천대학교 대학원 정보통신공학과) ;
  • 우요섭 (인천대학교 정보통신공학과)
  • Published : 2000.09.01

Abstract

Clausal segmentation is the method that parses Korean sentences by segmenting one long sentence into several phrases according to the predicates. So far most of researches could be useful for literary sentences, but long sentences increase complexities of the syntax analysis. Thus this paper proposed Two-Level Clausal Segmentation using sense information which was designed and implemented to solve this problem. Analysis of clausal segmentation and understanding of word senses can reduce syntactic and semantic ambiguity. Clausal segmentation using Sense Information is necessary because there are structural ambiguity of sentences and a frequent abbreviation of auxiliary word in common sentences. Two-Level Clausal Segmentation System(TLCSS) consists of Complement Selection Process(CSP) and Noncomplement Expansion Process(NEP). CSP matches sentence elements to subcategorization dictionary and noun thesaurus. As a result of this step, we can find the complement and subcategorization pattern. Secondly, NEP is the method that uses syntactic property and the others methods for noncomplement increase of growth. As a result of this step, we acquire segmented sentences. We present a technique to estimate the precision of Two-Level Clausal Segmentation System, and shows a result of Clausal Segmentation with 25,000 manually sense tagged corpus constructed by ETRl-KONAN group. An Two-Level Clausal Segmentation System shows clausal segmentation precision of 91.8%.

단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.

Keywords

References

  1. 이호, 백대호, 임해창, '분류 정보를 이용한 단어 의미 중의성 해결', 한국정보과학논문지 제24권 제7호, pp.779-789, 1997
  2. 양단희, 송만석, '말뭉치로부터 격틀 구축에 필요한 학습 데이터 추출', 제 10회 한글 및 한국어 정보처리 학술발표 논문집, pp. 287-292, 1998
  3. 김광진, 송영훈, 이정현, '복합문에서의 단문 추출 시스템의 설계 및 구현', 산업과학기술연구소 논문집, 제22권, pp.373-380, 1994
  4. 박성배, '문장분할을 이용한 한국어 분석', 서울대학교 컴퓨터공학과 석사학위논문, 1996
  5. 이현아, 이종혁, 이근배, '단문분할을 통한 명사구 색인 방법', 한국정보처리학회논문지, 제24권 제3호, pp. 302-311, 1997
  6. Yorick Wilks and Mark Stevenson, 'Sense Tagging : Semantic Tagging with a Lexicon,' Proc. of the SIGLEX Workshop, pp.74-78, 1997
  7. Ralph Grishman, Catherine Macleod, Adam Meyers, 'Complex Syntax : Build a Computational Lexicon,' Proc. of COLING-94, pp.268-272, 1994
  8. 김나리, '패턴 정보룰 이용한 한국어 구문 분석', 서울대학교 컴퓨터공학과 박사학위논문, 1997
  9. 우요섭, 윤덕호, 양승현, 김영섬, '시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축', 한국정보과학회논문지, pp.364-372, Jun. 2000
  10. 서영훈 외, '토큰 기반 한국어 분석기 개발- 한국어 의미 분석 사전 및 하위범주화 사전구축', 한국전자통신연구원 보고서, 1998
  11. Yorick Wilks and Mark Stevenson, 'The Grammar of Sense : Using part-of-speech tags as a first step in semantic disambiguation,' Natural Language Engineering, Volume 4, pp.135-143, Jun. 1998 https://doi.org/10.1017/S1351324998001946
  12. Adam Kilgarriff, 'What is word sense disambig-uation good for?' Proc. Natural Language Processing Pacific Rim, pp.209-214, Dec. 1997