Text Categorization Based on the Maximum Entropy Principle

최대 엔트로피 기반 문서 분류기의 학습

  • 장정호 (서울대학교 컴퓨터공학과) ;
  • 장병탁 (서울대학교 컴퓨터공학과) ;
  • 김영택 (서울대하교 컴퓨터공학과)
  • Published : 1999.10.01

Abstract

본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

Keywords