Automated Unitary Phrases Extraction for Aligning Phrases in Korean-English Bilingual Corpus

한국어/영어 병렬 코퍼스에서 구 단위 정렬을 위한 단위 구 자동 추출

  • 김기태 (한양대학교 컴퓨터공학과) ;
  • 김동주 (한양대학교 컴퓨터공학과) ;
  • 김한우 (한양대학교 컴퓨터공학과)
  • Published : 2001.10.01

Abstract

정렬(alignment)은 병렬 코퍼스에서 원문서의 문단, 문장, 혹은 단어와 같은 단위 요소에 대해, 대역문서에서의 상응하는 단위 요소를 찾는 일로, 코퍼스 기반 기계번역 방식에서 매우 중요한 과정이다. 동일 어족간의 원문과 대역문에서는 어순이나 단위 요소들이 거의 일치하여 정렬에 큰 어려움이 없으나, 한국어와 영어와 같이 어족이 다른 언어간의 정렬은 언어의 단위 요소의 상이성과 어순의 차이 등으로 인해 않은 어려움이 존재한다. 본 논문은 어족이 다른 언어 사이의 정렬을 위해 상대 구문 고립성(Relative Syntactic Isolativity)이라는 개념을 적용하여 언어 단위의 상이성을 극복할 수 있는 단위 구를 제안하고 이들을 추출하는 방법에 대해 보인다.

Keywords