Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features

Zhang Qinghao;Yang Hongjian;Serin Kim;Hyuk-Chul Kwon;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2022.10a
/
Pages.592-595
/
2022
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안

Zhang Qinghao (Department of Information Convergence Engineering, Pusan National University) ;
Yang Hongjian (Department of Information Convergence Engineering, Pusan National University) ;
Serin Kim (Department of Information Convergence Engineering, Pusan National University) ;
Hyuk-Chul Kwon (Department of Information Convergence Engineering, Pusan National University)

장칭하오 (부산대학교 정보컴퓨터공학부) ;
양홍진 (부산대학교 정보컴퓨터공학부) ;
김세린 (부산대학교 정보컴퓨터공학부) ;
권혁철 (부산대학교 정보컴퓨터공학부)

Published : 2022.10.18

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 t^hu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features

단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안

Abstract

Keywords