어원 정보를 이용한 외래어의 자동 원어 복원

Automatic Back-Transliteration with Word Origin Information

  • 이상율 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 강인수 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 나승훈 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터) ;
  • 이종혁 (포항공과대학교 전자컴퓨터공학부 컴퓨터공학과, 첨단정보기술 연구센터)
  • Lee, Sang-Yool (Department of Computer Science and Engineering, Division of Electrical and Computer Engineering, Pohang University of Science and Technology, and Advanced Information Technology Research Center(AITrc)) ;
  • Kang, In-Su (Department of Computer Science and Engineering, Division of Electrical and Computer Engineering, Pohang University of Science and Technology, and Advanced Information Technology Research Center(AITrc)) ;
  • Na, Seung-Hoon (Department of Computer Science and Engineering, Division of Electrical and Computer Engineering, Pohang University of Science and Technology, and Advanced Information Technology Research Center(AITrc)) ;
  • Lee, Jong-Hyeok (Department of Computer Science and Engineering, Division of Electrical and Computer Engineering, Pohang University of Science and Technology, and Advanced Information Technology Research Center(AITrc))
  • 발행 : 2003.10.10

초록

음차 표기된 외래어로부터 원어를 복원하는 문제는 원어의 발음정보를 이용한 통계적인 방법을 많이 사용한다. 하지만 지금까지의 연구들은 대부분 영어단어만을 그 대상으로 하였기 때문에 '도쿄(Tokyo)', '하인리히(Hinrich)'와 같이 어원이 영어가 아닌 단어들의 복원에는 좋은 결과를 보여주지 못했다. 이러한 문제를 해결하기 위하여 한글로 표기된 외래어의 어원을 판단할 수 있는 방법을 찾아내고, 이 방법을 통해 외래어를 어원별로 분리하여 학습모델을 구축함으로써 다양한 어원을 가진 외래어들의 복원 정확률을 높이고자 하였다. 위의 방식으로 구현된 시스템은 영어, 일본어, 중국어, 프랑스어의, 서로 다른 4개의 어원을 가진 데이터의 복원 실험에서 기존의 방식에 비해 13%의 성능 향상을 보였다.

키워드