자율 학습에 의한 실질 형태소와 형식 형태소의 분리

A Korean Language Stemmer based on Unsupervised Learning

  • 차영태 (명지대학교 정보통신공학과) ;
  • 조세형 (명지대학교 정보통신공학과)
  • Cha, Yong-Tae (Dept. of information communication engineering, Myong-Ji University) ;
  • Cho, Se-Hyeong (Dept. of information communication engineering, Myong-Ji University)
  • 발행 : 2002.11.15

초록

자연어의 처리를 위해 반드시 필요한 형태소 분석에는 여러 가지 방법이 있으나 기본적으로 사전을 갖춘 상태에서 가장 가능성 있는 후보를 선택하는 방식을 선택한다. 이러한 방식으로는 사전이 없는 미지의 언어를 분석하기는 불가능하다. 기지의 언어라도 지속적으로 어휘가 변하는 경우나 매우 특별한 분야의 경우에는 필요로 하는 사전이 존재하지 않는다. 본 논문에서는 태그가 없는 단순 말뭉치만을 가지고 자율학습을 이용하여 한국어의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다.

키워드