NMT Training Method for Korean-English Idiom Machine Translation

한-영 관용구 기계번역을 위한 NMT 학습 방법

  • Choi, Min-Joo (Dept. of Computer Science, Kangwon National University) ;
  • Lee, Chang-Ki (Dept. of Computer Science, Kangwon National University)
  • 최민주 (강원대학교 컴퓨터과학과) ;
  • 이창기 (강원대학교 컴퓨터과학과)
  • Published : 2020.10.14

Abstract

관용구는 둘 이상의 단어가 결합하여 특정한 뜻을 생성한 어구로 기계번역 시 종종 오역이 발생한다. 이는 관용구가 지닌 함축적인 의미를 정확하게 번역할 수 없는 기계번역의 한계를 드러낸다. 따라서 신경망 기계 번역(Neural Machine Translation)에서 관용구를 효과적으로 학습하려면 관용구에 특화된 번역 쌍 데이터셋과 학습 방법이 필요하다. 본 논문에서는 한-영 관용구 기계번역에 특화된 데이터셋을 이용하여 신경망 기계번역 모델에 관용구를 효과적으로 학습시키기 위해 특정 토큰을 삽입하여 문장에 포함된 관용구의 위치를 나타내는 방법을 제안한다. 실험 결과, 제안한 방법을 이용하여 학습하였을 때 대부분의 신경망 기계 번역 모델에서 관용구 번역 품질의 향상이 있음을 보였다.

Keywords

Acknowledgement

이 논문은 현대 자동차 AIR Lab의 "신경망 기계번역 모델을 위한 지식 증류 기술 연구" 과제의 지원을 받아 연구되었음