• 제목/요약/키워드: spam mail filter

검색결과 22건 처리시간 0.022초

로지스틱 회귀 분석을 이용한 스펨 필터링의 특징 축소 (Features Reduction using Logistic Regression for Spam Filtering)

  • 정용규;이범준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권2호
    • /
    • pp.13-18
    • /
    • 2010
  • 오늘날의 스팸 메일이 메일 서버와 네트워크 저장장치의 대부분을 차지함으로 인해 네트워크 부하와 같은 부정적인 문제가 발생하고 있으며 사용자 입장에서는 스팸을 삭제하기 위한 시간과 자원 소모 같은 문제를 가지고 있다. 자동 스팸 메일 필터링은 문제 해결위한 필수적인 요소로 부각 되었다. 대표적인 방법은 나이브 베이지안 방법과 달리 PCA를 통하여 많은 차원을 가지는 스팸 테이터 집합을 몇 개의 주축으로 차원을 축소 시켜 연차 처리의 부담을 줄이고 특정 집으로 분류를 위한 로지스틱 회귀 분석 방법을 사용하여 스팸 필터링을 하였다. 이를 통하여 속도와 성능 두가지의 성과를 얻을 수 있었다.

스팸메일 차단을 위해 IP 주소간 거리 측정 알고리즘을 이용하는 전자우편 발송서버의 권한확인 방법 (E-mail Sending-Server Authorization Method using a Distance Estimation Algorithm between IP Addresses for Filtering Spam)

  • 임호성;심재홍;최경희;정기현
    • 정보처리학회논문지C
    • /
    • 제12C권5호
    • /
    • pp.765-772
    • /
    • 2005
  • 본 논문에서는 스팸메일을 차단하기 위해 전자우편 발송서버가 발신자가 소속된 도메인에 등록된 서버인지 또는 그 도메인에 속한 서버인지 판단하는 IP 주소간 거리 측정 알고리즘을 이용하는 전자우편 발송서버 권한확인 방법을 제안한다. 제안 방법은 전자우편을 발송한 서버의 IP 주소와 전자우편의 발신자 도메인의 DNS에 등록된 IP 주소들과의 거리를 이용해 전자우편을 발송한 서버가 전자우편의 발신자 도메인의 네트워크에 존재하는지 확인하여 스팸메일을 차단한다. 일정기간 동안 수집한 전자우편에 대해 제안 알고리즘을 적용하여 IP 주소간 거리를 측정한 결과 정상메일의 경우 $88\%$, 스팸메일의 경우 $10\%$ 정도가 발신자가 소속된 도메인에 속한 전자우편 서버에서 발송되었고, 나머지는 발신자 주소를 도용하였거나 또는 제3의 장소에 존재하는 서버에서 발송하였음을 확인하였다. 제안 알고리즘은 발신자 도메인이 전자우편 발송 권한을 부여하지 않은 서버로부터 수신된 전자우편을 모두 스팸메일로 간주하여 스팸메일을 차단하는데 독립적으로 사용될 수 있으며, 또한 현재 표준화가 진행 중인 전자우편 발송서버 권한확인 프로토콜들이 보편화되어 사용되기 전까지 이들 프로토콜의 보완책으로도 사용될 수 있다.

카이제곱 통계량을 이용한 개선된 베이지안 스팸메일 필터 (An Improved Bayesian Spam Mail Filter based on Ch-square Statistics)

  • 김진상;최상열
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.403-414
    • /
    • 2005
  • 현재까지 개발된 스팸 메일 필터는 주로 베이지안 학습을 이용한 문서분류에 바탕을 두고 있지만, 정확률 향상의 한계라는 문제점과 더불어 일반 메일을 스팸 메일로 오분류하는 치명적인 오류를 극복하지 못하는 문제점을 안고 있다. 본 논문은 카이제곱 통계량을 바탕으로 베이지안 필터의 false positive 에러를 해결하고. 더불어 정확률과 재현율 향상을 동시에기할 수 있는 스팸 메일 필터링 방법을 기술한다. 또한 본 논문에서 사용된 방법은 사용자의 배경 지식을 기계학습 단계에서 파라미터로 반영하여 시스템의 유연성을 높이고 나아가 개인화된 시스템으로 확장시킬 수 있다는 장점도 있다.

  • PDF

Spam Image Detection Model based on Deep Learning for Improving Spam Filter

  • Seong-Guk Nam;Dong-Gun Lee;Yeong-Seok Seo
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.289-301
    • /
    • 2023
  • Due to the development and dissemination of modern technology, anyone can easily communicate using services such as social network service (SNS) through a personal computer (PC) or smartphone. The development of these technologies has caused many beneficial effects. At the same time, bad effects also occurred, one of which was the spam problem. Spam refers to unwanted or rejected information received by unspecified users. The continuous exposure of such information to service users creates inconvenience in the user's use of the service, and if filtering is not performed correctly, the quality of service deteriorates. Recently, spammers are creating more malicious spam by distorting the image of spam text so that optical character recognition (OCR)-based spam filters cannot easily detect it. Fortunately, the level of transformation of image spam circulated on social media is not serious yet. However, in the mail system, spammers (the person who sends spam) showed various modifications to the spam image for neutralizing OCR, and therefore, the same situation can happen with spam images on social media. Spammers have been shown to interfere with OCR reading through geometric transformations such as image distortion, noise addition, and blurring. Various techniques have been studied to filter image spam, but at the same time, methods of interfering with image spam identification using obfuscated images are also continuously developing. In this paper, we propose a deep learning-based spam image detection model to improve the existing OCR-based spam image detection performance and compensate for vulnerabilities. The proposed model extracts text features and image features from the image using four sub-models. First, the OCR-based text model extracts the text-related features, whether the image contains spam words, and the word embedding vector from the input image. Then, the convolution neural network-based image model extracts image obfuscation and image feature vectors from the input image. The extracted feature is determined whether it is a spam image by the final spam image classifier. As a result of evaluating the F1-score of the proposed model, the performance was about 14 points higher than the OCR-based spam image detection performance.

정크메일 차단을 위한 FQDN 확인 시스템의 구현 및 평가 (An Implementation and Evaluation of FQDN Check System to Filter Junk Mail)

  • 김성찬;이상훈;전문석
    • 정보처리학회논문지C
    • /
    • 제12C권3호
    • /
    • pp.361-368
    • /
    • 2005
  • 인터넷 사용의 급격한 증가로 전자우편은 모든 분야에서 가장 보편적인 통신 수단이 되었다. 하지만 전자우편의 사용 급증으로 사용자들의 전자우편 주소가 인터넷상에 노출되고 그 부작용으로 정크 메일, 스팸 메일이라 불리는 수신을 원하지 않는 메일의 수신빈도와 그로 인한 피해가 갈수록 높아져 그 문제가 심각한 수준에 이르게 되었다. 더구나 근래의 스팸, 정크 메일은 단순히 광고성 메시지를 전달하기 보다는 시스템을 공격하기 위한 바이러스나 해킹 도구를 전파하는 수단으로 이용되어 컴퓨터 침해 사고의 심각한 원인으로 지적되고 있다. 따라서 본 논문에서는 이러한 스팸, 정크 메일을 FQDN 확인을 통해 차단할 수 있는 모델을 구현해서 사용해 보고 그 결과를 평가하여 개선 방향을 제시하였다.

개인화된 분류를 위한 웹 메일 필터링 에이전트 (Design and Implementation of Web Mail Filtering Agent for Personalized Classification)

  • 정옥란;조동섭
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.853-862
    • /
    • 2003
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 이메일의 사용자도 기하급수적으로 늘어나고 있다. 또한 일반 사용자나 전자상거래에서 오가는 메일의 양도 갈수록 늘어나고 있다. 편리하다는 점을 이용해서 엄청난 양의 스팸 메일도 매일 같이 쏟아져 나오고 있다. 본 논문에서는 사용자 개인에 맞게 메일을 자동 관리해 주는 즉 개인화된 분류가 가능하고, 또 언제 어디서나 로그인이 가능한 웹 메일 기반인 웹 메일 필터링 에이전트(Web Mail Filtering Agent for Personalized Classification)를 제안한다. 새로운 메일이 오면, 먼저 사용자의 메일 처리과정을 일정 기간 관찰하여 각각 개인에 맞는 룰(Personal rule)을 형성하고, 만들어진 룰을 바탕으로 메시지를 자동 관리 즉 카테고리별 분류ㆍ저장 및 개인에게 불필요한 메일이나 스팸 메일을 삭제 해 주는 것이다. 또한 시스템의 정확도를 높이기 위해 동적 임계치를 이용한 베이지안 알고리즘을 적용하였다.

자동 생성 메일계정 인식을 통한 스팸 필터링 (Spam-Filtering by Identifying Automatically Generated Email Accounts)

  • 이상호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.378-384
    • /
    • 2005
  • 본 논문에서는 기존의 스팸 메일 필터링 시스템의 성능을 향상시키기 위한 새로운 필터링 방법을 설명한다. 대부분의 스팸 필터링 시스템은 메일의 제목이나 혹은 그 문서 안에서 발견되는 단어들의 분포를 조사하여 이루어진다. 한편, 최근의 스팸 발송자들은 메일 서비스 업체가 제공하는 웹메일 계정을 이용하여 스팸을 발송하기 시작하였다 이렇게 웹메일을 통해 발송되는 스팸 메일의 특징을 보면, 그 메일 계정이 자동으로 생성되기 때문에 일반 사용자의 메일 계정과 많은 차이를 보인다. 본 연구에서는 이러한 점에 착안하여, 발송자의 메일 계정이 자동 생성된 메일 계정인지를 예측하고 이를 통해 스팸을 필터링하고자 한다. 메일 계정을 분류하기 위해서는 패턴 인식 문제에서 사용되어 온 결정 트리를 이용하였으며, 메일 서비스 업체로부터 수집된 약 215 만개의 메일 계정에 대해 실험하였다. 실험 결과, $96.3\%$의 정확률을 나타내었으며, 기존 시스템과 연동하여 새로운 형태의 스팸을 필터링할 수 있었다.

스팸메일 필터링을 위한 한글 변칙어 인식 방법 (Recognition Method of Korean Abnormal Language for Spam Mail Filtering)

  • 안희국;한욱표;신승호;양동일;노희영
    • 한국항행학회논문지
    • /
    • 제15권2호
    • /
    • pp.287-297
    • /
    • 2011
  • 전자메일은 사용의 편리성과 정보전달의 신속성 때문에 널리 사용되고 있지만, 광고목적이나 악의성을 갖는 스팸메일의 양도 증가하여 사회적 경제적으로 큰 문제를 야기한다. 스팸메일을 필터링하기 위한 방법은 수용 전 단계와 수용 후 단계로 나누어서 접근할 수 있는데, 수용 후 접근의 경우는 메시지로부터 단어나 문장 단위로 자질을 추출하고 그로부터 학습이나 매칭방법을 통하여 필터링을 하는 과정을 포함한다. 하지만, 필터링을 우회하기위해 스패머는 계속적으로 단어를 변형시켜 메일을 발송시키고 있다. 특히 한국어의 경우는 특성상 한 음절을 이루는 음소의 변화로부터 변형이 가능하기 때문에 그 변칙적 사용이 더 다양하다고 할 수 있다. 따라서, 기존의 정규식이나 학습알고리즘은 대처에 한계를 갖게 된다. 이에 본 논문에서는 한글의 변칙어를 인식할 수 있는 방법을 제안함으로서 스팸메일분류 시스템의 성능을 향상시키고자 한다. 이를 위해, 자소접근방법을 사용하고, Smith-Waterman알고리즘을 적용하였다. 메일서버로부터 추출한 필터키워드와 메일로부터 제안한 방법을 실험한 결과 유사도 수준에 따라 한글 변칙어들을 정확히 인지해 낼 수 있었다. 실험을 통해 소요 공간 및 시간은 허용될 수 있는 수준임을 확인하였다.

사용자 이메일 반응 분포 계산과 사용자 그룹 스팸 메일 필터 필요성 점검 (Checking Spam Mail Filter Need for Each User Group from Computing Distribution of User Email Responses)

  • 김종완;남인길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.47-49
    • /
    • 2009
  • 본 연구에서는 이메일 사용자별로 제공받은 사용자 선호 정보 대상으로 EM 클러스터링을 수행하여 사용자 클러스터를 만든 후, 사용자 클러스터들의 이메일 반응 분포를 계산함으로써 사용자 취향에 따라 동일한 이메일에 대해서도 서로 다른 반응을 가질 수 있다는 사실을 확인하려고 한다. 그 결과로부터 현재의 내용기반 방식과는 다르게 사용자 선호도를 고려한 스팸 메일 필터 구축 방법을 제안한다.

주성분 분석과 동적 분류체계를 사용한 자동 이메일 분류 (Automatic e-mail classification using Dynamic Category Hierarchy and Principal Component Analysis)

  • 박선;김철원;이양원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.576-579
    • /
    • 2009
  • 인터넷 사용의 보편화로 이메일의 양이 급속히 증가하고 있다. 따라서 수신 메일을 효율적이면서 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류는 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 클러스터링을 이용한 다원 분류 방법은 분류의 정확도가 떨어지는 단점이 있다. 본 논문에서는 주성분 분석(PCA, Principal Component Analysis)을 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

  • PDF