• 제목/요약/키워드: 스팸메일 필터

검색결과 55건 처리시간 0.029초

정책기반의 계층적 스팸메일 제어모델 설계 (Design of A Spammail Control Model Based on Hierarchical Policy)

  • 이영진;백승호;박남규;이상호
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권2호
    • /
    • pp.143-151
    • /
    • 2005
  • 초고속 인터넷망의 확산에 따른 인터넷 이용과 전자상거래의 급격한 성장과 함께 저 비용 고 효율적 특성의 전자우편 광고가 마케팅 수단으로 각광을 받고 있다. 반면 스팸메일의 빠른 속도의 증가로 인하여 메일서비스업체와 메일사용자에게 정신적 경제적 피해를 주고 있는 것이 현실이다 이 논문에서는 대학을 중심으로 효율적인 스팸메일 차단을 위해 참여자-사용자, 관리자 그리고 ISP들이 상호 협력하는 계층적 스팸메일 차단정책을 설계하고 그 정책을 기반으로 스팸메일에 효율적으로 대응하는 스팸메일 제어모델을 제안한다. 또한 제안모델에 대한 분석평가를 통하여 모델의 효율성을 보인다.

  • PDF

스팸성 자질과 URL 자질의 공동 학습을 이용한 최대 엔트로피 기반 스팸메일 필터 시스템 (A Spam Filter System Based on Maximum Entropy Model Using Co-training with Spamminess Features and URL Features)

  • 공미경;이경순
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.61-68
    • /
    • 2008
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질의 공동 학습을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 URL도 자질로 사용하였다. 메일에 나타난 정상적인 URL과 필터 시스템을 피하기 위해 변형된 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL자질을 이용한 공동 학습을 하였다. 공동 학습은 학습 과정에서 두 자질을 독립적으로 이용한 비지도 학습 방법으로 정답을 모르는 문서를 이용할 수 있다는 장점을 갖는다. 실험을 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인하였으며 두 자질 집합을 이용한 공동 학습이 필요한 학습 문서의 수를 감소시키면서, 정확도는 일괄 학습 정확도에 근접한다는 것을 확인하였다.

나이브 베이지안 분류자와 메세지 규칙을 이용한 스팸메일 필터링 시스템 (Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule)

  • 조한철;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.223-225
    • /
    • 2002
  • 인터넷의 급속한 성장과 함께 E-Mail은 대표적인 통신수단의 하나가 되어버렸다. 편리하다는 점을 이용해서 엄청난 양의 스팸메일이 매일같이 쏟아져 오고 , 그 문제점의 심각성에 정보통신부에서 정보통신망 이용촉진 및 정보보호 등에 관한 법률이라는 새로운 법률까지 생겨났다. 본 논문에서는 이 법률에서 요구하는 '광고'라는 문구를 걸러내는 등의 메시지 규칙을 갖는 시스템과 기존의 문서 분류에 널리 쓰이던 나이브 베이지안 분류자(Naive Baesian Classifier)를 결합한 스팸 메일 필터링 시스템(Spam-mail Fitering System)을 제안한다. 제안된 시스템에서는 사용자가 직접 규칙을 작성할 필요없이 학습한 데이터를 갖고 자동으로 스팸메일을 분류할 수가 있다. 들어온 메일은 메시지 규칙 기반 필터가 먼저 적용되고, 메세지 규칙 기반 필터에서 분류되지 않으면 나이브 베이지안 필터에서 분류된다. 실험에서는 제안된 시스템의 성능을 평가하기 위해서 메시지 규칙을 사용한 시스템 및 나이브 베이지만 분류자 시스템과 비교 평가하였다. 또한 임계치를 변경함으로써 제안된 시스템의 성능을 높일 수있도록 하였다.

  • PDF

어휘정보와 시소러스에 기반한 스팸메일 필터링 (Spam-mail Filtering based on Lexical Information and Thesaurus)

  • 강신재;김종완
    • 한국산업정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.13-20
    • /
    • 2006
  • 본 연구에서는 어휘정보와 개념정보를 기반으로 스팸메일 필터링 시스템을 구축하였다. 스팸메일을 판별할 수 있는 정보를 두 가지로 구분하였는데, 확실한 정보군은 송신자 정보, URL, 그리고 최근 스팸 키워드 리스트이며, 덜 확실한 정보군은 메일 본문에서 추출한 단어목록과 개념코드이다. 먼저 확실한 정보군을 이용하여 스팸메일을 분류하고 그다음 덜 확실한 정보군을 이용하였다. 메일 본문에 포함된 어휘정보와 개념코드는 SVM 기계학습을 한 후 사용된다. 본 연구의 결과, 더 많은 어휘정보를 특징벡터로 사용하였을 때 스팸 정확률이 상승하였으며 추가로 개념코드를 특징벡터에 포함시켰을 때 스팸 재현율이 상승하였다.

  • PDF

텍스트정보와 하이퍼링크에 기반한 지능형 스팸 메일 필터링 (Intelligent Spam-mail Filtering Based on Textual Information and Hyperlinks)

  • 강신재;김종완
    • 한국지능시스템학회논문지
    • /
    • 제14권7호
    • /
    • pp.895-901
    • /
    • 2004
  • 본 논문은 텍스트 정보와 하이퍼링크에 기반한 2단계 지능형 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 따로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메밀만 사용한 방법보다 F-measure 값이 평균 9.4% 의 성능향상을 보였다.

스팸 메일 차단솔루션의 새로운 제어 방식 제안 (The Suggestion of a New Control Method for SPAM Mail Prevention Solution)

  • 김민홍;두창호
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권4호
    • /
    • pp.453-460
    • /
    • 2004
  • 스팸메일은 최근 전 세계적으로 사회문제가 되고 있으며, 이에 대한 차단 솔루션에 대한 개발 제품이 출시되고 있다. 본 논문은 기존 스팸메일 방지 솔루션을 설치 형태에 따른 분류, 장단점 분석과 스팸의 판정 법에 따른 분류 고찰하였다. 이에 기존 스팸메일 솔루션의 문제점을 도출하고 현재 적용되지 않은 새로운 필터링 방법인 URL Prefetch 방식을 새롭게 제안하고 이에 따른 방법에 의한 실험을 통한 스팸메일 차단 상승효과를 도출하고, 또한 HTML 유형 방식에 의한 차단방법도 함께 제안한다.

  • PDF

단어 가중치를 이용한 스팸메일 필터링 (A Filtering Method of Spam E-mails by Term Weighting)

  • 김호성;정경호;황도삼
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-174
    • /
    • 2001
  • 현재, 전자메일을 정보전달의 수단이나 광고등의 목적으로 많이 이용하게 되면서, 메일 수신자는 원치 않는 상업적 광고, 불필요한 정보등의 스팸메일을 여과 없이 수신하게 되는 경우가 많아졌다. 이로 인하여 업무효율성 감퇴, 시간 낭비, 자원 낭비 등의 많은 문제점을 야기시키고 있다. 이러한 문제점을 해결하기 위한 기존의 메일 필터링 시스템들은 송신자의 주소나 도메인, 제목 등의 메일 헤더정보만을 이용하거나, 사용자가 정의한 문장이 본문 내용에 나타날 때 필터링하는 방식들이 주류를 이루고 있다. 그러나 이러한 방식들은 메일의 내용에 대한 근본적인 필터링이 불가능하다. 본 논문에서는 메일의 내용을 파악하기 위해 메일의 내용을 대표할 수 있는 체언정보를 추출하여, 카이제곱 통계량 공식을 통해 단어 가중치를 부여하고, 이를 문서분류를 위한 로그단어 빈도 가중치 공식에 적용하여 스팸메일을 필터링하는 방식을 제시한다. 본 논문에서 제안한 방법으로 실험한 결과, 스팸메일을 필터링하는데 84.61%의 재현율과 83.01%의 정확율을 얻을 수 있었다.

  • PDF

비정상 문자 조합으로 구성된 스팸 메일의 탐지 방법 (An Approach to Detect Spam E-mail with Abnormal Character Composition)

  • 이호섭;조재익;정만현;문종섭
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.129-137
    • /
    • 2008
  • 인터넷의 활용도가 높아짐에 따라, 스팸메일이 전체 메일에서 차지하는 비중이 점점 커지게 되었다. 전체 인터넷 자원에서 필요에 의해 사용되는 메일의 기능보다, 주로 광고나 악성코드 등의 전파를 위한 목적으로 사용되는 메일의 비중이 점점 커지고 있으며, 이를 방지하기 위한 컴퓨터 및 네트워크, 인적자원의 소모가 매우 심각해지고 있다. 이를 해결하기 위해 스팸 메일 필터링에 대한 연구가 활발히 진행되어 왔으며, 현재는 문맥상의 의미는 없지만 가독상에서 의미를 해석할 수 있는 문장에 대한 연구가 활발히 이루어지고 있다. 이러한 방식의 메일은 기존의 어휘를 분석하거나 문서 분류 기법 등을 이용한 스팸 메일을 필터링 방법을 통해 분류하기 어렵다. 본 연구는 이와 같은 어려움을 해결하기 위해 메일의 제목에 대한 N-GRAM 색인화를 통해 베이지안 및 SVM 을 이용하여 스팸 메일을 필터링 하는 방법을 제안한다.

Fit-FA Finder를 이용한 SMBC 플랫폼 설계 (A design of the SMBC Platform using the Fit FA-Finder)

  • 박노경;한성호;서상진;진현준
    • 전기전자학회논문지
    • /
    • 제10권1호
    • /
    • pp.49-54
    • /
    • 2006
  • 최근 전자 우편은 IT 사회의 중요한 의사소통의 수단이 되고 있다. 그러나 스팸 메일의 증가로 인해 다양한 사회 문제가 발생되고 증가하는 추세이다. 스팸 메일을 차단하기 위해 정부와 민간 단체에서 많은 연구와 개발을 하고 있으나 다양한 스팸 메일의 증가로 인해 많은 비용과 시스템의 복잡성이 요구되어 지고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 Fit-FA Finder를 이용한 SMBC(Spam Mail Blocking Center)를 설계 하였다. Fit-FA Finder는 스팸 메일의 유형에 따라 필터링 데이터베이스에서 적절한 알고리즘을 적용 시키는 시스템으로서 필터의 적용 순서에 따라 스팸 메일 오인율(False-Positive Error)이 달라져 시스템 처리 신뢰도에 큰 영향을 준다. 본 논문에서 제안한 Fit-FA Finder를 이용한 SMBC 플랫폼은 불필요한 필터링 처리 과정을 줄임으로써 시스템의 부하를 줄 일수 있다.

  • PDF

로지스틱 회귀 분석을 이용한 스펨 필터링의 특징 축소 (Features Reduction using Logistic Regression for Spam Filtering)

  • 정용규;이범준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.13-18
    • /
    • 2010
  • 오늘날의 스팸 메일이 메일 서버와 네트워크 저장장치의 대부분을 차지함으로 인해 네트워크 부하와 같은 부정적인 문제가 발생하고 있으며 사용자 입장에서는 스팸을 삭제하기 위한 시간과 자원 소모 같은 문제를 가지고 있다. 자동 스팸 메일 필터링은 문제 해결위한 필수적인 요소로 부각 되었다. 대표적인 방법은 나이브 베이지안 방법과 달리 PCA를 통하여 많은 차원을 가지는 스팸 테이터 집합을 몇 개의 주축으로 차원을 축소 시켜 연차 처리의 부담을 줄이고 특정 집으로 분류를 위한 로지스틱 회귀 분석 방법을 사용하여 스팸 필터링을 하였다. 이를 통하여 속도와 성능 두가지의 성과를 얻을 수 있었다.