Automatic Extraction of Technical Terminologies from Scientific Text based on Hidden Markov Model

은닉마르코프 모델(HMM)을 이용한 과학기술문서에서의 외래어 추출 모델

  • 오종훈 (한국과학기술원 전산학과, 전문용어 언어 공학 센터) ;
  • 최기선 (한국과학기술원 전산학과, 전문용어 언어 공학 센터)
  • Published : 1999.10.08

Abstract

기술의 발달로 인해 수많은 용어들이 생성되고 있다. 이들은 대부분 전문용어이며 이는 비영어권 국가인 우리나라에 도입될 때, 외래어나 원어형태로 도입된다. 그런데 외래어나 원어형태의 전문용어는 형태소 분석기, 색인기 등의 시스템에서 오류의 원인이 되어, 이를 전처리기로 사용하는 자연언어처리 시스템의 성능을 저하 시킨다. 따라서 본 논문에서는 외래어나 원어로 된 전문용어를 처리하기 위한 전단계로서 문서에서 자동적으로 외래어를 인식하고 추출하는 방법을 제시한다. 본 논문에서 제시하는 방법은 외래어 추출 문제를 태깅문제로 변환하여, 태깅 문제를 해결하는 기법 중의 하나인 은닉마르코프 모델 (Hidden Markov Model)을 이용하여 외래어 추출을 하였다. 그 결과 94.90%의 재현률과 95.41%의 정확도를 나타내었다.

Keywords