Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique

정보검색 기술을 이용한 비교사 학습 기반 문서 분류 시스템 개발

  • Noh, Dae-Wook (Computer & Telecomunication Engineering Div., Yonsei University) ;
  • Lee, Soo-Yong (Computer & Telecomunication Engineering Div., Yonsei University) ;
  • Ra, Dong-Yul (Computer & Telecomunication Engineering Div., Yonsei University)
  • 노대욱 (연세대학교 정보통신공학부) ;
  • 이수용 (연세대학교 정보통신공학부) ;
  • 나동열 (연세대학교 정보통신공학부)
  • Published : 2006.10.13

Abstract

문서분류기의 개발에 있어 교사학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비교사 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발할 수 있음을 제시하였다.

Keywords