Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선

  • Kwon, Hong-Seok (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Seo, Hyeung-Won (Korea Maritime and Ocean University, Department of Computer Engineering) ;
  • Kim, Jae-Hoon (Korea Maritime and Ocean University, Department of Computer Engineering)
  • 권홍석 (한국해양대학교, 컴퓨터공학과) ;
  • 서형원 (한국해양대학교, 컴퓨터공학과) ;
  • 김재훈 (한국해양대학교, 컴퓨터공학과)
  • Published : 2013.10.06

Abstract

본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

Keywords