Improving performance of Binary Text Classification Using the EM algorithm

EM 알고리즘을 이용한 이진 분류 문서 범주화의 성능 향상

  • 한형동 (서강대학교 컴퓨터학과) ;
  • 고영중 (동아대학교 전기전자컴퓨터공학부 컴퓨터공학전공) ;
  • 서정연 (서강대학교 컴퓨터학과)
  • Published : 2004.10.01

Abstract

문서 범주화에서 이진분류를 다중 분류에 적용할 때, 일반적으로 One-Against-All 방법을 사용한다. 하지만, 이 One-Against-All 방법은 한가지 문제점을 가진다. 즉, positive 집합의 문서들은 사람이 직접 범주를 할당한 것이지만, negative 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해 Sliding Window기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 먼저 Sliding Window 기법을 이용하여 학습 데이터로부터 오류 문서들을 추출하고 이 문서들을 EM 알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

Keywords