Language Modeling based on Inter-Word Dependency Relation

단어간 의존관계에 기반한 언어모델링

  • Lee, Seung-Mi (Department of Computer Science, Center for Artificial Intelligence Korea Advanced Institute of Science and Technology) ;
  • Choi, Key-Sun (Department of Computer Science, Center for Artificial Intelligence Korea Advanced Institute of Science and Technology)
  • 이승미 (한국과학기술원 전산학과, 인공지능연구센터) ;
  • 최기선 (한국과학기술원 전산학과, 인공지능연구센터)
  • Published : 1998.10.09

Abstract

확률적 언어모델링은 일련의 단어열에 문장확률값을 적용하는 기법으로서 음성인식, 확률적 기계번역 등의 많은 자연언어처리 응용시스템의 중요한 한 요소이다. 기존의 접근방식으로는 크게 n-gram 기반, 문법 기반의 두가지가 있다. 일반적으로 n-gram 방식은 원거리 의존관계를 잘 표현 할 수 없으며 문법 기반 방식은 광범위한 커버리지의 문법을 습득하는데에 어려움을 가지고 있다. 본 논문에서는 일종의 단순한 의존문법을 기반으로 하는 언어모델링 기법을 제시한다. 의존문법은 단어와 단어 사이의 지배-피지배 관계로 구성되며 본 논문에서 소개되는 의존문법 재추정 알고리즘을 이용하여 원시 코퍼스로부터 자동적으로 학습된다. 실험 결과, 제시된 의존관계기반 모델이 tri-gram, bi-gram 모델보다 실험코퍼스에 대해서 약 11%에서 11.5%의 엔트로피 감소를 보임으로써 성능의 개선이 있었다.

Keywords