EM 알고리즘을 이용한 전문용어의 자동 추출

Automatic Term Recognition Through EM Algorithm

  • 오종훈 (한국과학기술원 전자전산학과/전문용어 언어 공학연구센터) ;
  • 김재호 (한국과학기술원 전자전산학과/전문용어 언어 공학연구센터) ;
  • 최기선 (한국과학기술원 전자전산학과/전문용어 언어 공학연구센터)
  • 발행 : 2003.10.01

초록

전문용어란 전문분야의 개념이 언어적으로 표현된 형태이다. 전문분야마다 분야 특성 적인 개념이 사용되므로, 전문용어는 전문분야를 특성화하는 단위로 사용된다. 따라서 전문분야문서에 대한 자연언어처리에서 전문용어를 효과적으로 처리하는 것은 매우 중요하다. 전문용어 추출은 분야 특성적인 전문용어를 해당 분야 문서에서 파악하는 작업을 말한다. 본 논문에서는 기계학습방법을 이용한 전문용어 자동 추출 기법을 제안한다. 본 논문의 기법은 전문분야 사전과 전문분야 문서를 이용하여 문서에서 나타나는 전문용어의 특성을 파악하고 이를 이용하여 전문용어를 추출한다. 본 논문의 기법은 70,000단어 수준의 영어 의학분야 300개 문서에 대하여 약 77%의 정확률로 전문용어를 추출하였다.

키워드