Quality, not Quantity? : Effect of parallel corpus quantity and quality on Neural Machine Translation

양보다 질? : 병렬 말뭉치의 양과 질이 인공신경망 기계번역에 미치는 효과

  • Park, Chanjun (Korea University, Department of Computer Science and Engineering) ;
  • Lee, Yeonsu (Sungkyunkwan University Department of Media Communication) ;
  • Lee, Chanhee (Korea University, Department of Computer Science and Engineering) ;
  • Lim, Heuiseok (Korea University, Department of Computer Science and Engineering)
  • 박찬준 (고려대학교 컴퓨터학과) ;
  • 이연수 (성균관대학교 미디어커뮤니케이션학과) ;
  • 이찬희 (고려대학교 컴퓨터학과) ;
  • 임희석 (고려대학교 컴퓨터학과)
  • Published : 2020.10.14

Abstract

글로벌 시대를 맞이하여 언어의 장벽을 해소하기 위하여 기계번역 연구들이 전 세계적으로 이루어지고 있다. 딥러닝의 등장으로 기존 규칙 및 통계기반 방법론에 비하여 눈에 띄는 성능향상을 이루어내고 있으며 많은 연구들이 이루어지고 있다. 인공신경망 기반 기계번역 모델을 만들 때 가장 중요한 요소는 병렬 말뭉치의 양과 질이다. 본 논문은 한-영 대용량의 말뭉치를 수집하고 병렬 말뭉치 필터링 기법을 적용하여 데이터의 양과 질을 충족시켰으며 한-영 기계번역 관련 객관적인 테스트셋인 Iwslt 16, Iwslt 17을 기준으로 기존 한-영 기계번역 관련 연구 중 가장 좋은 성능을 보였다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기술기획평가원의 지원을 받아 수행된 연구이며 (No. 2020-0-00368, 뉴럴-심볼릭(neural-symbolic) 모델의 지식 학습 및 추론 기술 개발) 본 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업의 연구결과로 수행되었음 (IITP-2020-0-01819)