Proceedings of the Korean Information Science Society Conference (한국정보과학회:학술대회논문집)
- 2007.06c
- /
- Pages.199-203
- /
- 2007
- /
- 1598-5164(pISSN)
Empirical Impact Analysis of Sentence Length on Statistical Machine Translation
문장 길이가 한영 통계기반 기계번역에 미치는 영향 분석
- Cho, Hee-Young (Department of Computer Engineering, Korea Maritime University) ;
- Sou, Hyoung-Won (Department of Computer Engineering, Korea Maritime University) ;
- Kim, Jea-Hoon (Department of Computer Engineering, Korea Maritime University)
- Published : 2007.06.25
Abstract
본 논문에서는 한영 통계기반 기계번역에서 한국어 문장 길이의 변화에 따른 번역 성능의 변화를 분석하고자 한다. 일반적으로 통계기반 기계번역은 정렬기법을 이용하는데 문장의 길이가 길수록 많은 변형(distortion)이 이루어진다. 특히 한국어와 영어처럼 어순이 매우 다를 경우, 문장 길이의 변화에 따라 그 변형이 더욱 심할 수 있다. 본 논문에서는 이러한 성질이 통계기반 기계번역에 어떠한 영향을 주는지를 실험적으로 살펴보고자 한다. 본 논문에서 비교적 잘 정렬된 203,310개의 문장을 학습데이터로 사용하였고, 세종 병렬 말뭉치로부터 89,309개의 문장을 추출하여 실험데이터로 사용하였다. 실험데이터는 한국어 문장의 길이에 따라 5구간(
Keywords