한국정보과학회:학술대회논문집 (Proceedings of the Korean Information Science Society Conference)
- 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
- /
- Pages.181-183
- /
- 2001
- /
- 1598-5164(pISSN)
한국어/영어 병렬 코퍼스에서 구 단위 정렬을 위한 단위 구 자동 추출
Automated Unitary Phrases Extraction for Aligning Phrases in Korean-English Bilingual Corpus
초록
정렬(alignment)은 병렬 코퍼스에서 원문서의 문단, 문장, 혹은 단어와 같은 단위 요소에 대해, 대역문서에서의 상응하는 단위 요소를 찾는 일로, 코퍼스 기반 기계번역 방식에서 매우 중요한 과정이다. 동일 어족간의 원문과 대역문에서는 어순이나 단위 요소들이 거의 일치하여 정렬에 큰 어려움이 없으나, 한국어와 영어와 같이 어족이 다른 언어간의 정렬은 언어의 단위 요소의 상이성과 어순의 차이 등으로 인해 않은 어려움이 존재한다. 본 논문은 어족이 다른 언어 사이의 정렬을 위해 상대 구문 고립성(Relative Syntactic Isolativity)이라는 개념을 적용하여 언어 단위의 상이성을 극복할 수 있는 단위 구를 제안하고 이들을 추출하는 방법에 대해 보인다.
키워드