Automatic Foreign Word Transliteration Model for Information Retrieval

정보검색을 위한 외래어 자동표기 모델

  • 이재성 (한국과학기술원 전산학과) ;
  • 최기선 (한국과학기술원 전산학과)
  • Published : 1997.08.01

Abstract

조사에 따르면 한글 문서에서 사용되는 단어 중 외래어 또는 영어가 포함된 단어가 약 26%정도를 차지하고 있으며, 이는 정보검색의 중요 색인어로 사용된다(권윤형 1996). 그러나 이들 단어들은 서로 같은 단어인데도 영어로 표기되기도 하고 이형의 외래어들로 표기되기도 하여, 정보검색의 효율을 떨어뜨리고 있다. 본 논문에서는 영어 단어와 그에 대응되어 표기되는 외래어들을 찾기 위한 한 단계로서, 영어를 한글로 음차(transliteration)하여 자동표기하는 통계적 모델을 제안하고 실험한다. 제안된 모델은 통계적 기계번역 방식과 그의 한 방법인 문서 정렬(text alignment) 방식에 근거하고 있다. 특히 이 모델에서는 효과적으로 발음의 단위를 분리한 다음 정렬을 하여. 전체적인 계산량을 줄이고 성능도 향상시켰다. 음차표기는 피봇방식과 직접방식의 두가지로 구현하였다. 피봇방식은 영어에서 발음을 생성한 후, 그 발음을 다시 한글로 표기하는 방식이고, 직접방식은 직접 영어 단어에서 한글 표기로 포기하는 방식이다. 두 방식을 제안된 모델을 이용하여 비교 테스트한 결과 직접방식이 보다 정확하게 표준 외래어로 표기하였다.

Keywords