Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안

  • Zhang Qinghao (Department of Information Convergence Engineering, Pusan National University) ;
  • Yang Hongjian (Department of Information Convergence Engineering, Pusan National University) ;
  • Serin Kim (Department of Information Convergence Engineering, Pusan National University) ;
  • Hyuk-Chul Kwon (Department of Information Convergence Engineering, Pusan National University)
  • 장칭하오 (부산대학교 정보컴퓨터공학부) ;
  • 양홍진 (부산대학교 정보컴퓨터공학부) ;
  • 김세린 (부산대학교 정보컴퓨터공학부) ;
  • 권혁철 (부산대학교 정보컴퓨터공학부)
  • Published : 2022.10.18

Abstract

한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

Keywords