Analysis of filtering performance of Korean and English spam-mails

한국어와 영어 스팸메일의 필터링 성능 분석

  • Hwang Wun-Ho (School of Computer and Information Technology, Daegu Univ.) ;
  • Kang Sin-Jae (School of Computer and Information Technology, Daegu Univ.) ;
  • Kim Tae-Hee (School of Computer and Information Technology, Daegu Univ.) ;
  • Kim Hee-Jae (School of Computer and Information Technology, Daegu Univ.) ;
  • Kim Jong-Wan (School of Computer and Information Technology, Daegu Univ.)
  • 황운호 (대구대학교 컴퓨터.IT공학부) ;
  • 강신재 (대구대학교 컴퓨터.IT공학부) ;
  • 김태희 (대구대학교 컴퓨터.IT공학부) ;
  • 김희재 (대구대학교 컴퓨터.IT공학부) ;
  • 김종완 (대구대학교 컴퓨터.IT공학부)
  • Published : 2006.05.01

Abstract

본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

Keywords