Analysis of filtering performance of Korean and English spam-mails

Hwang Wun-Ho;Kang Sin-Jae;Kim Tae-Hee;Kim Hee-Jae;Kim Jong-Wan;

한국산업정보학회:학술대회논문집 (Proceedings of the Korea Society for Industrial Systems Conference)

한국산업정보학회 (Korea Society of Industrial Information Systems)

한국어와 영어 스팸메일의 필터링 성능 분석

Analysis of filtering performance of Korean and English spam-mails

황운호 (대구대학교 컴퓨터.IT공학부) ;
강신재 (대구대학교 컴퓨터.IT공학부) ;
김태희 (대구대학교 컴퓨터.IT공학부) ;
김희재 (대구대학교 컴퓨터.IT공학부) ;
김종완 (대구대학교 컴퓨터.IT공학부)

Hwang Wun-Ho (School of Computer and Information Technology, Daegu Univ.) ;
Kang Sin-Jae (School of Computer and Information Technology, Daegu Univ.) ;
Kim Tae-Hee (School of Computer and Information Technology, Daegu Univ.) ;
Kim Hee-Jae (School of Computer and Information Technology, Daegu Univ.) ;
Kim Jong-Wan (School of Computer and Information Technology, Daegu Univ.)

발행 : 2006.05.01

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

한국산업정보학회:학술대회논문집 (Proceedings of the Korea Society for Industrial Systems Conference)

한국어와 영어 스팸메일의 필터링 성능 분석

Analysis of filtering performance of Korean and English spam-mails

초록

키워드

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)