• 제목/요약/키워드: 스팸메일 필터

검색결과 55건 처리시간 0.031초

한국어와 영어 스팸메일의 필터링 성능 분석 (Analysis of filtering performance of Korean and English spam-mails)

  • 황운호;강신재;김태희;김희재;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2006년도 춘계 국제학술대회 논문집
    • /
    • pp.389-396
    • /
    • 2006
  • 본 연구에서는 한국어와 영어 메일을 대상으로 2단계 스팸 메일 필터링 시스템을 구축하여 성능평가를 수행한다. 2단계 스팸 메일 필터링 시스템은 블랙리스트를 활용하는 1단계와 기계학습을 통한 지능적인 분류를 하는 2단계로 구성된다. 만약 새로 도착한 메일이 블랙리스트의 내용을 포함한다면 이 메일은 스팸 메일로 분류되고 그렇지 않은 메일은 2단계로 넘어가서 스팸 메일 여부를 판단하게 된다. 메일의 본문이 영어로 작성된 영어 스팸 메일을 일반 메일로부터 분류해내기 위해서는 우선 Stemming과 Stopping 기법을 이용하여 본문에서 정형화된 어휘정보들을 추출한다. 추출된 어휘정보들을 대상으로 속성벡터를 구축한 후 SVM 기계 학습을 시켜 SVM 분류기를 생성하여 지능적인 스팸 메일 필터링을 수행한다. 속성벡터를 구축할 때 기준이 되는 자질을 어떻게 선택하느냐에 따라 스팸 메일 필터링 시스템의 성능이 좌우된다. 따라서 SYM 기계 학습을 위한 속성벡터를 구축할 때 기준이 되는 자질을 선택하는 여러 알고리즘들을 적용하여 성능을 비교 분석한다. 그리고 한국어 스팸 메일 필터링 시스템과 비교하여 영어 스팸 메일 필터링 시스템의 전체적인 성능을 비교 분석한다.

  • PDF

메일 주소 유효성과 제목-내용 가중치 기법에 의한 스팸 메일 필터링 (Junk-Mail Filtering by Mail Address Validation and Title-Content Weighting)

  • 강승식
    • 한국멀티미디어학회논문지
    • /
    • 제9권2호
    • /
    • pp.255-263
    • /
    • 2006
  • 스팸 메일의 특성을 분석해 보면 스팸 메일 발송 프로그램이 메일 헤더에 기록된 주소와 송신자 및 수신자 메일 주소가 일치하지 않는 경우가 빈번하게 발견된다. 또한, 스팸 메일과 정상적인 메일을 비교-분석해 보면 제목만 살펴봐도 스팸 메일인지 여부를 쉽게 판별할 수가 있다. 본 논문에서는 이와 같은 스팸 메일의 특성을 이용하여 스팸 메일 필터링 시스템의 성능을 향상시키는 방안으로 메일 주소 유효성 검사 및 제목과 내용을 구분하여 각각 스팸 확률을 계산하는 기법을 제안하였다. 제안한 방법의 효용성을 검증하기 위하여 단순 베이스 기법에 대해 주소 유효성 검사 및 제목과 내용 등 각 요인의 중요도에 따른 스팸 메일 필터링의 성능 향상 정도를 측정하였다. 그 결과로, 제안한 방법을 적용했을 때 재현율이 11.6%, 정확률은 2.1%의 성능 향상 효과가 있음을 확인하였으며, 스팸 메일 필터링 시스템의 성능 향상에 많은 기여를 하는 것을 알 수 있었다.

  • PDF

발신지 추적기법과 사례기반학습을 이용한 한국어 스팸메일 필터의 설계 및 구현 (Design and Implementation of Korean Spam mail Filter using the Place of Dispatch Tracking and IBL)

  • 하홍준;원일용;박호준;송두헌;이창훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.343-346
    • /
    • 2002
  • 스팸메일이 급증함에 따라 신뢰할 수 있는 전자메일 필터의 요구가 늘어나는 추세다. 스팸메일을 보내는 스패머(spammer)의 거의 대부분은 광고가 주요 목적이다. 멀티미디어(multimedia)기반의 전자메일은 정보전달 및 시각효과가 뛰어나 스패머가 선호하는 전자메일의 한 형태이다. 이런 종류의 전자메일은 텍스트 기반(基盤) 스팸메일 필터의 성능을 떨어뜨리거나 필터링을 아예 불가능하게 한다. 본 연구에서 발신지(發信地) 추적기법과 사례기반학습을 이용해 신뢰할 수 있는 한국어 스팸 메일필터를 설계 및 구현하였다.

  • PDF

한글 전자메일에 대한 베이지언 필터의 성능비교 (Comparison of Performance for Korean E-mail Filtering using Bayesian Classifier)

  • 이창범;김지수;김수형;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.214-219
    • /
    • 2004
  • 전자 메일은 매우 많은 사람들이 사용하는 편리하고 효율적인 통신 수단이다. 그러나 전자메일 주소를 쉽게 획득할 수 있다면 점을 악용하기 때문에 사용자가 원하지 않는 메일 즉 스팸 메일에 대한 문제가 심각해지고 있다. 이러한 스팸 메일을 자동으로 분류해주는 스팸 필터는 주로 영어를 대상으로 하고 있으며, 규칙 기반 필터링보다는 통계적 학습을 통한 필터링 방법을 주로 사용하고 있다. 본 논문에서는 베이즈 정리를 기반으로 하는 3가지 분류 알고리즘을 한글 전자메일을 대상으로 하여 스팸 메일 특히 음란성 메일을 분류하는데 있어 그 성능을 평가하고자 한다. 실험 결과, 단어의 스팸일 확률만을 이용하는 방법이 나이브 베이즈 알고리즘이나 m-estimate를 이용하는 방법보다는 성능이 우수함을 알 수 있었다 특히, 단어의 스팸일 확률만을 이용하는 방법은 false positive rate를 0%로 유지하면서도 다른 방법들보다는 필터링을 잘 해내고 있음을 확인할 수 있었다. 그리고, 자질 선정에서는 명사나 명사/형용사를 사용할 경우에 그 에러율이 가장 적었다.

  • PDF

하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템 (Two-phase Spam-mail Filtering System Applying Hyper]links)

  • 강신재;이새봄;김종완
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

신경망과 운전자 알고리즘을 이용한 스팸 메일 필터링 기법에 구현과 성능평가 (Implementation and Experimental Results of Neural Network and Genetic Algorithm based Spam Filtering Technique)

  • 김범배;최형기
    • 정보처리학회논문지C
    • /
    • 제13C권2호
    • /
    • pp.259-266
    • /
    • 2006
  • 스팸 메일의 양의 급증함에 따라, 다양한 스팸 메일 필터링 기법이 제시되고 있다. 이런 필터링 기법 가운데, 학습 기반 필터링 기법은 현재 가장 보편화된 필터링 기법 가운데 하나이다. 본고에서는 신경망과, 유전자알고리즘, 카이제곱통계를 이용한 학습 기반 필터링 기법을 제시한다. 제안된 필터링 기법은 기존 필터링 기법의 문제를 해결하고, 스팸 메일 필터링에 높은 정확도를 제공할 수 있다 제안된 필터링 기법은 스팸메일 필터링 정확도와 정상 메일 필터링 정확도에서 각각 95.25%와 95.31%의 높은 정확도를 보인다. 이런 실험 결과는 기존의 규칙 기반 필터링 기법과 베이지안 필터링 기법에 비해 각각 7%, 12% 이상 높은 수치이다.

나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템 (Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check)

  • 임정택;김형준;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

자동 생성 메일계정 인식을 통한 스팸 필터링 (Spam-Filtering by Identifying Automatically Generated Email Accounts)

  • 이상호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.378-384
    • /
    • 2005
  • 본 논문에서는 기존의 스팸 메일 필터링 시스템의 성능을 향상시키기 위한 새로운 필터링 방법을 설명한다. 대부분의 스팸 필터링 시스템은 메일의 제목이나 혹은 그 문서 안에서 발견되는 단어들의 분포를 조사하여 이루어진다. 한편, 최근의 스팸 발송자들은 메일 서비스 업체가 제공하는 웹메일 계정을 이용하여 스팸을 발송하기 시작하였다 이렇게 웹메일을 통해 발송되는 스팸 메일의 특징을 보면, 그 메일 계정이 자동으로 생성되기 때문에 일반 사용자의 메일 계정과 많은 차이를 보인다. 본 연구에서는 이러한 점에 착안하여, 발송자의 메일 계정이 자동 생성된 메일 계정인지를 예측하고 이를 통해 스팸을 필터링하고자 한다. 메일 계정을 분류하기 위해서는 패턴 인식 문제에서 사용되어 온 결정 트리를 이용하였으며, 메일 서비스 업체로부터 수집된 약 215 만개의 메일 계정에 대해 실험하였다. 실험 결과, $96.3\%$의 정확률을 나타내었으며, 기존 시스템과 연동하여 새로운 형태의 스팸을 필터링할 수 있었다.

컨텐츠 필터를 이용한 스팸메일 차단 시스템 설계 및 구현 (Design and Implementation of The Spam I-Mail filtering System)

  • 김진만;장종욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.465-468
    • /
    • 2003
  • 전자메일은 가장 오래된 인터넷 서비스중의 하나로서 인터넷의 발달과 더불어 현대사회에 아주 중요하고, 필수적인 통신수단이 되었다. 개인적인 목적에서부터 중요한 비즈니스적인 목적으로 까지 이용되고 있는 전자메일은 그 특성상 보안에 취약하고, 그를 이용한 상업적 또는 악의적인 목적으로까지 이용되기도 한다. 그래서 최근 스팸메일의 차단과 상업성 광고 메일에 관련한 문제가 대두되고 있으며, 그에 관련된 대처 방안들이 많이 나오고 있는 실정이다. 이 논문에서는 스팸메일 및 상업적 목적의 광고성 메일 둥의 분류 및 차단에 관련하여 세 가지 측면, 즉 서버 레벨 차단, 네트워크구조 레벨 차단, 클라이언트 레벨 차단방법 중 클라이언트 레벨에서의 정보통신부 유해 사이트 DB를 이용한 스팸메일차단 시스템을 설계하고, 구현하였다.

  • PDF

향상된 차단 성능 지원을 위한 SMBC 플랫폼 개발 (A Development of the SMBC platform for supporting advanced performance of blocking spam-mails)

  • 서상진;진현준;박노경
    • 인터넷정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.89-94
    • /
    • 2007
  • 현재 새로운 스팸 메일 차단 시스템과 다양한 스팸 차단 기술에 대한 연구가 계속되고 있다. 그렇지만, 새로운 유형의 스팸 메일이 등장하면서 스팸 메일 차단률(Spam mail Filtering Rate)과 오인된 메일(False-positive mail) 발생률은 점차적으로 늘어나고 있다. 하지만 기존에 제안된 스팸 메일 필터링 알고리즘은 새로운 유형의 스팸 메일에 대응하기 위해 적용될 알고리즘 수의 증가와 효율적인 스팸 메일 필터링 알고리즘의 대응 관계에 대한 연구 부족으로 인하여 스팸 메일 차단 시스템의 처리 부하는 증가하고 이에 대한 신뢰성은 반감되고 있다. 본 논문에서는 스팸 메일 차단 시스템의 부하 처리 성능 및 신뢰성을 증가시키기 위해 Fit-FA Finder와 Privacy 기반의 오인된 메일을 복구시키는 SMBC플랫폼을 개발하고 성능을 분석하였다.

  • PDF