An Improved Bayesian Spam Mail Filter based on Ch-square Statistics

카이제곱 통계량을 이용한 개선된 베이지안 스팸메일 필터

  • 김진상 (계명대학교 정보통신대학 정보통신학부) ;
  • 최상열 (계명대학교 정보통신대학 정보통신학부)
  • Published : 2005.04.01

Abstract

Most of the currently used spam-filters are based on a Bayesian classification technique, where some serious problems occur such as a limited precision/recall rate and the false positive error. This paper addresses a solution to the problems using a modified Bayesian classifier based on chi-square statistics. The resulting spam-filter is more accurate and flexible than traditional Bayesian spam-filters and can be a personalized one providing some parameters when the filter is teamed from training data.

현재까지 개발된 스팸 메일 필터는 주로 베이지안 학습을 이용한 문서분류에 바탕을 두고 있지만, 정확률 향상의 한계라는 문제점과 더불어 일반 메일을 스팸 메일로 오분류하는 치명적인 오류를 극복하지 못하는 문제점을 안고 있다. 본 논문은 카이제곱 통계량을 바탕으로 베이지안 필터의 false positive 에러를 해결하고. 더불어 정확률과 재현율 향상을 동시에기할 수 있는 스팸 메일 필터링 방법을 기술한다. 또한 본 논문에서 사용된 방법은 사용자의 배경 지식을 기계학습 단계에서 파라미터로 반영하여 시스템의 유연성을 높이고 나아가 개인화된 시스템으로 확장시킬 수 있다는 장점도 있다.

Keywords