Speed Improvement of Sentence Aligner for Parallel Text

병렬 코퍼스 구축을 위한 문장 자동 정렬 프로그램의 속도 개선

  • Jeong, Seon-Yi (Dept. of Information and Communication Engineering, Chung-Nam University) ;
  • Lee, Kong Joo (Dept. of Information and Communication Engineering, Chung-Nam University)
  • 정선이 (충남대학교 정보통신공학과) ;
  • 이공주 (충남대학교 정보통신공학과)
  • Published : 2012.10.06

Abstract

문서 또는 문장 단위의 정렬이 통계적 기계 번역에 활발히 이용되고 있다. 문장 정렬은 통계 기반의 기계 번역에서 가장 중요한 작업으로 정렬의 정확도와 속도는 기계 번역 시스템의 성능을 좌우할 수 있다. 문장 정렬을 수행 할 때 대용량의 문서입력이 있을 경우 처리 속도가 상당히 늦어지는 문제를 지적하고 그 문제를 해결하는 두 가지 방법을 제안한다. 문서의 구조적 특성을 이용하여 문서의 경계정보를 추출하거나 또는 단어 출현 빈도의 따른 경계 추출방법을 이용하여 문제를 해결한다. 상기의 방법이 정렬 속도 저하 개선에 비교적 효과가 있고 그에 따른 성능 저하가 없음을 실험을 통하여 확인하였다.

Keywords