Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
- 2022.10a
- /
- Pages.592-595
- /
- 2022
- /
- 2005-3053(pISSN)
Proposed Methodology for Building Korean Machine Translation Data sets Considering Phonetic Features
단어의 음성학적 특징을 이용한 한국어 기계 번역 데이터 세트 구축 방안
- Zhang Qinghao (Department of Information Convergence Engineering, Pusan National University) ;
- Yang Hongjian (Department of Information Convergence Engineering, Pusan National University) ;
- Serin Kim (Department of Information Convergence Engineering, Pusan National University) ;
- Hyuk-Chul Kwon (Department of Information Convergence Engineering, Pusan National University)
- Published : 2022.10.18
Abstract
한국어에서 한자어와 외래어가 차지하는 비중은 매우 높다. 일상어의 경우 한자어와 외래어의 비중이 약 53%, 전문어의 경우 약 92%에 달한다. 한자어나 외래어는 중국이나 다른 나라로부터 영향을 받아 한국에서 쓰이는 단어들이다. 한국어에서 사용되는 한자어와 외래어의 한글 표기과 원어 표기를 발음해보면, 발음이 상당히 유사하다는 것을 알 수 있다. 한자어인 도서관(图书馆)을 중국어로 발음해보면 thu.ʂu.kwan'로 해당 단어에 대한 한국 사람의 발음과 상당히 유사하다. 본 논문에서는 Source Length, Source IPA Length, Target Length, Target IPA Length, IPA Distance 등 총 5가지의 음성학적 특징을 고려한 한국어-중국어 한국어-영어 단어 기계번역 데이터 세트를 구축하고자 한다.
Keywords