Automatic Text Categorization by Term Weighting and Inverted Category Frequency

Lee, Kyung-Chan;Kang, Seung-Shik;

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

2003.10d
/
Pages.14-17
/
2003
/
2005-3053(pISSN)

Human and Language Technology (한국정보과학회 언어공학연구회)

Automatic Text Categorization by Term Weighting and Inverted Category Frequency

용어 가중치와 역범주 빈도에 의한 자동문서 범주화

Lee, Kyung-Chan (School of Computer Science, Kookmin University & AITrc) ;
Kang, Seung-Shik (School of Computer Science, Kookmin University & AITrc)

이경찬 (국민대학교 컴퓨터학부, 첨단정보기술연구센터) ;
강승식 (국민대학교 컴퓨터학부, 첨단정보기술연구센터)

Published : 2003.10.10

PDF

Download PDF

⟨ Previous Next ⟩

Abstract

문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))

Automatic Text Categorization by Term Weighting and Inverted Category Frequency

용어 가중치와 역범주 빈도에 의한 자동문서 범주화

Abstract

Keywords