병렬 코퍼스 구축을 위한 문장 자동 정렬 프로그램의 속도 개선

Speed Improvement of Sentence Aligner for Parallel Text

  • 정선이 (충남대학교 정보통신공학과) ;
  • 이공주 (충남대학교 정보통신공학과)
  • Jeong, Seon-Yi (Dept. of Information and Communication Engineering, Chung-Nam University) ;
  • Lee, Kong Joo (Dept. of Information and Communication Engineering, Chung-Nam University)
  • 발행 : 2012.10.06

초록

문서 또는 문장 단위의 정렬이 통계적 기계 번역에 활발히 이용되고 있다. 문장 정렬은 통계 기반의 기계 번역에서 가장 중요한 작업으로 정렬의 정확도와 속도는 기계 번역 시스템의 성능을 좌우할 수 있다. 문장 정렬을 수행 할 때 대용량의 문서입력이 있을 경우 처리 속도가 상당히 늦어지는 문제를 지적하고 그 문제를 해결하는 두 가지 방법을 제안한다. 문서의 구조적 특성을 이용하여 문서의 경계정보를 추출하거나 또는 단어 출현 빈도의 따른 경계 추출방법을 이용하여 문제를 해결한다. 상기의 방법이 정렬 속도 저하 개선에 비교적 효과가 있고 그에 따른 성능 저하가 없음을 실험을 통하여 확인하였다.

키워드