Comparison of Performance for Korean E-mail Filtering using Bayesian Classifier

한글 전자메일에 대한 베이지언 필터의 성능비교

  • Lee, Chang-Beom (Dept. of Computer Science, Chonnam National University) ;
  • Kim, Ji-Soo (Dept. of Computer Science, Chonnam National University) ;
  • Kim, Soo-Hyung (Dept. of Computer Science, Chonnam National University) ;
  • Park, Hyuk-Ro (Dept. of Computer Science, Chonnam National University)
  • 이창범 (전남대학교 전자컴퓨터정보통신공학부) ;
  • 김지수 (전남대학교 전자컴퓨터정보통신공학부) ;
  • 김수형 (전남대학교 전자컴퓨터정보통신공학부) ;
  • 박혁로 (전남대학교 전자컴퓨터정보통신공학부)
  • Published : 2004.10.08

Abstract

전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.

Keywords