카이제곱 통계량을 이용한 개선된 베이지안 스팸메일 필터

An Improved Bayesian Spam Mail Filter based on Ch-square Statistics

  • 김진상 (계명대학교 정보통신대학 정보통신학부) ;
  • 최상열 (계명대학교 정보통신대학 정보통신학부)
  • 발행 : 2005.04.01

초록

현재까지 개발된 스팸 메일 필터는 주로 베이지안 학습을 이용한 문서분류에 바탕을 두고 있지만, 정확률 향상의 한계라는 문제점과 더불어 일반 메일을 스팸 메일로 오분류하는 치명적인 오류를 극복하지 못하는 문제점을 안고 있다. 본 논문은 카이제곱 통계량을 바탕으로 베이지안 필터의 false positive 에러를 해결하고. 더불어 정확률과 재현율 향상을 동시에기할 수 있는 스팸 메일 필터링 방법을 기술한다. 또한 본 논문에서 사용된 방법은 사용자의 배경 지식을 기계학습 단계에서 파라미터로 반영하여 시스템의 유연성을 높이고 나아가 개인화된 시스템으로 확장시킬 수 있다는 장점도 있다.

Most of the currently used spam-filters are based on a Bayesian classification technique, where some serious problems occur such as a limited precision/recall rate and the false positive error. This paper addresses a solution to the problems using a modified Bayesian classifier based on chi-square statistics. The resulting spam-filter is more accurate and flexible than traditional Bayesian spam-filters and can be a personalized one providing some parameters when the filter is teamed from training data.

키워드