• Title/Summary/Keyword: spam-mail filtering

Search Result 54, Processing Time 0.029 seconds

Unsupervised Scheme for Reverse Social Engineering Detection in Online Social Networks (온라인 소셜 네트워크에서 역 사회공학 탐지를 위한 비지도학습 기법)

  • Oh, Hayoung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.4 no.3
    • /
    • pp.129-134
    • /
    • 2015
  • Since automatic social engineering based spam attacks induce for users to click or receive the short message service (SMS), e-mail, site address and make a relationship with an unknown friend, it is very easy for them to active in online social networks. The previous spam detection schemes only apply manual filtering of the system managers or labeling classifications regardless of the features of social networks. In this paper, we propose the spam detection metric after reflecting on a couple of features of social networks followed by analysis of real social network data set, Twitter spam. In addition, we provide the online social networks based unsupervised scheme for automated social engineering spam with self organizing map (SOM). Through the performance evaluation, we show the detection accuracy up to 90% and the possibility of real time training for the spam detection without the manager.

E-Mail Filtering with Co-training Based on Specific Features (특정 속성과 Co-training을 이용한 전자메일 분류)

  • Ryu, Je;Yoon, Sung-Hee;Han, Kwan-Rok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.549-551
    • /
    • 2003
  • 본 논문은 점점 증가되고 있는 SPAM 메일 문제를 해결하기 위한 방법으로써, 특정 속성에 기반을 둔 학습 알고리즘의 co-training을 통한 전자메일 분류 기법을 제안한다. 전자메일 분류는 결국 문서 분류 기술과 다르지 않다. 이미 많은 연구에서 학습 알고리즘을 이용한 문서 분류 기법은 많이 제안되고 검증되었다. 본 논문에서는 이러한 학습 알고리즘들을 co-training을 통하여 해당 메일이 SPAM인지 아닌지 구분하며, 학습의 효율성을 높이기 위하여 전자메일의 특정한 속성들, 예를 들면, 핵심문구나 기타 특정한 문구 및 전자메일의 헤더 정보 등을 학습 기반으로 이용하였다.

  • PDF

Instance Based Learning Revisited: Feature Weighting and its Applications

  • Song Doo-Heon;Lee Chang-Hun
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.6
    • /
    • pp.762-772
    • /
    • 2006
  • Instance based learning algorithm is the best known lazy learner and has been successfully used in many areas such as pattern analysis, medical analysis, bioinformatics and internet applications. However, its feature weighting scheme is too naive that many other extensions are proposed. Our version of IB3 named as eXtended IBL (XIBL) improves feature weighting scheme by backward stepwise regression and its distance function by VDM family that avoids overestimating discrete valued attributes. Also, XIBL adopts leave-one-out as its noise filtering scheme. Experiments with common artificial domains show that XIBL is better than the original IBL in terms of accuracy and noise tolerance. XIBL is applied to two important applications - intrusion detection and spam mail filtering and the results are promising.

  • PDF

Spam-Mail Filtering System by Using Naive Bayesian Classifier and Mail Address Validation Check (나이브 베이지안 분류자와 메일 주소 유효성 검사를 이용한 스팸 메일 필터링 시스템)

  • Lim Jung-Taek;Kim Hyung-Joon;Kang Seung-Shik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.523-525
    • /
    • 2005
  • 본 논문에서는 가중치가 부여된 나이브 베이지안 분류자와 스팸 메일의 특성을 이용한 주소 유효성 검사를 결합하여 필터링하는 방식의 스팸 메일 필터링 시스템을 제안하였다. 주소 유효성 검사를 통해 스팸 메일을 효율적으로 필터링 할 수 있으며, 나이브 베이지안 분류자에 가중치를 부여함으로써 더욱 효과적인 분류를 할 수 있다. 또한, 각 요인의 중요도에 따라 다른 비중을 부여함으로써 메일의 특성을 고려한 필터링 환경을 구현하였다. 실험에서는 제안하는 요인들이 실제로 필터링 성능 향상에 어떤 영향을 미치는지 살펴보고 최적의 시스템 성능을 측정하였다.

  • PDF

An improvement of MDA(Mail Delivery Agent) Filtering method for prevention of spam mail (스팸메일 방지를 위한 MDA의 필터링방법 개선방안)

  • 박은옥;김영현;최은정;유주영;김미애;박유미;김윤정;김명주
    • Proceedings of the Korea Institutes of Information Security and Cryptology Conference
    • /
    • 2003.12a
    • /
    • pp.259-263
    • /
    • 2003
  • 인터넷 이용자가 증가함에 따라 전자메일 사용자도 증가하고 있다. 전자메일 사용으로 통신상의 비용 및 시간이 절약되는 장점이 있지만 소수의 유저들이 상업적 목적으로 많은 유저에게 원하지 않은 메일(스팸메일)을 보냄으로써 물질적, 정신적 피해를 입히고 있다. 따라서 스팸 메일을 방지하기 위한 여러 기법들이 제안되었다. 본 논문에서는 스팸 메일 문제를 해결하기 위해 먼저 전자메일 시스템에 대한 구조를 살펴보고 MTA, MDA를 이용하는 스팸 메일 필터링 도구들을 비교 분석한 연구결과를 제시한다. 그리고 탐지 성능을 개선할 수 있는 새로운 방안을 제시한다. 제안 방법은 공개 배포용 MDA인 procmail에 기반한 것으로, 규칙(rule)을 매칭(matching)시키는 시간을 줄이는 것이다.

  • PDF

Spam Mail Filtering System using Ontology and Semantic Enrichment (온톨로지와 Semantic Enrichment를 이용한 스팸 메일 필터링 시스템)

  • 김현준;김흥남;정재은;조근식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.553-555
    • /
    • 2004
  • 최근 인터넷의 급속한 성장과 더불어 전자메일(I-Mail)은 의사교환의 필수적인 매체로 사용 되어지고 있다. 그러나 편리하고 비용이 들지 앉는 장정을 이용해 엄청난 양의 스맴 메일이 매일같이 솎아져 오고, 이를 해결하기 위한 다양한 연구들이 제시되어져 왔다. 특히. 문서 분류에 널리 쓰이는 베이지안 분류자(Bayesian classifier)가 가장 널리 이용되어지고 있는데, 정확도와 재현율에서 비교적 우수한 성능을 보이고 있다. 그러나 몇 가지 문제점을 갖고 있는데, 첫째, 사전에 사용자에 의해 스팸. 논스팸 메일에 대한 충분한 학습이 선행되어야 하는 정, 둘째, 필터링을 위한 연산시간이 소요되는 점, 셋째, 필터링의 대상이 되는 메일 본문의 내용이 적을 경우 정확한 필터링이 어렵다는 정 등의 문제점이 있다. 본 논문에서는 마지막 문제점으로 지적된 메일 본문의 내용이 적을 경우 즉, 연산을 위한 특징적인 단어들의 부족으로 정확한 분류가 불가능한 경우의 해결방안으로 온틀로지와 Semantic Enrichment 기법을 이용한 스팸 메일 필터링 시스템을 제안한다. 실험 결과, 제안하는 시스템이 베이지안 분류자를 이용한 분류 시스템보다 정확도에서 4.1%, 재현율에서 10.5%. 그리고 F-measure에서 7.64%의 성능향상을 보였다.

  • PDF

A Study on Spam Document Classification Method using Characteristics of Keyword Repetition (단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구)

  • Lee, Seong-Jin;Baik, Jong-Bum;Han, Chung-Seok;Lee, Soo-Won
    • The KIPS Transactions:PartB
    • /
    • v.18B no.5
    • /
    • pp.315-324
    • /
    • 2011
  • In Web environment, a flood of spam causes serious social problems such as personal information leak, monetary loss from fishing and distribution of harmful contents. Moreover, types and techniques of spam distribution which must be controlled are varying as days go by. The learning based spam classification method using Bag-of-Words model is the most widely used method until now. However, this method is vulnerable to anti-spam avoidance techniques, which recent spams commonly have, because it classifies spam documents utilizing only keyword occurrence information from classification model training process. In this paper, we propose a spam document detection method using a characteristic of repeating words occurring in spam documents as a solution of anti-spam avoidance techniques. Recently, most spam documents have a trend of repeating key phrases that are designed to spread, and this trend can be used as a measure in classifying spam documents. In this paper, we define six variables, which represent a characteristic of word repetition, and use those variables as a feature set for constructing a classification model. The effectiveness of proposed method is evaluated by an experiment with blog posts and E-mail data. The result of experiment shows that the proposed method outperforms other approaches.

SPam-mail Filtering Using SVM Classifier (SVM 분류 알고리즘을 이용한 스팸메일 필터링)

  • 민도식;송무희;손기준;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.552-554
    • /
    • 2003
  • 전자우편은 기존 우편 기능을 대체하는 대표적인 정보 전달 수단으로 자리 잡고 있다. 전자매일 사용자의 증가에 따라 망은 기업들은 전자 메일을 통해 광고를 하게 되었다. 이에 따라 전자매일 사용자들은 인터넷 상에 개인 전자메일 주소가 노출됨으로 많은 스팸메일을 수신하게 되는데, 이것은 전자메일 사용자에게 많은 부담이 되고있다. 본 논문은 전자우편 문서내의 단어들을 대상으로 통계적 방법의 SVM을 이용하여 스팸메일을 필터링 하였으며, 학습 단계에서 단어 자질공간의 축소를 위해 DF값 변화에 따른 학습을 통하여 분류의 성능을 비교하였다. SVM의 성능 평가를 위해 확률적 방법의 나이브 베이지안과 벡터 모텔을 이용한 분류기와 성능을 비교함으로써 SVM 방법이 우수한 성능을 보임을 검증하였다.

  • PDF

Weighting based User Behavior Pattern for Filtering Spam Mail (사용자 행동 패턴을 기반으로 가중치를 부여한 스팸 메일 필터링)

  • Han, A-Sung;Kim, Hyun-Jun;Jo, Geun-Sik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.389-394
    • /
    • 2007
  • 스팸 메일의 비율은 지속적으로 증가하여 최근 전체 이메일의 92.6%가 스팸 메일인 것으로 드러났다. 본 논문에서는 시간의 경과에 따른 사용자의 액션 패턴을 기반으로 사용자의 관심에 따른 가중치를 적용하여 스팸 메일 여부를 가리는 방법을 다룬다. 액션간의 관계와 액션 사이의 시간에 따라 가중치를 차별화함으로써 얼마나 높은 필터링 성능을 보일 수 있는 지, 또한 학습 속도 향상에 얼마나 기여할 수 있는지를 측정할 것이다. 실험에서는 실제 메일 데이터를 이용하여 베이지안 분류자, 가중치가 부여된 베이지안 분류자와 본 논문이 제안하는 시스템의 학습 성능의 향상 속도를 비교할 것이다. 또한 제안된 시스템이 Concept Drift와 적응 학습, 그리고 개인화를 어떻게 다룰 지를 보일 것이다.

  • PDF

Designing a Spam Mail Filtering System Using User Reaction and Incremental Machine Learning (사용자의 행동과 점진적 기계학습을 이용한 쓰레기 편지 여과 시스템의 설계)

  • Kim, Kang-Min;Park, Eun-Jin;Kim, Jae-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.775-778
    • /
    • 2005
  • 본 논문은 쓰레기 편지를 여과하기 위해 대상 편지에 따른 사용자들의 행동(reaction)을 묵시적(implicitly)으로 수집한 후 이를 점진적(incrementally) 기계학습기의 자질(feature)로 사용하여 편지 여과 작업의 증거가 되는 단어들을 지속적으로 학습하면서 최적의 편지 여과 결과를 제공하는 기법과 시스템 구조를 제안한다. 사용자 개인의 컴퓨터에 행동 정보와 학습 데이터를 저장하도록 설계하여 묵시적 정보 수집에서 자주 제기되는 개인 프라이버시 문제를 해결하였으며, 점진적 기계학습 기법을 사용하여 개인 정보를 포함하는 대량의 편지 학습 데이터를 모으기 힘들다는 문제를 해결하였다. 또 향후 제안하는 시스템을 이용하여 여러 종류의 기계학습 기법 중 쓰레기 편지 여과 작업을 가장 효과적으로 수행할 수 있는 기법을 선택하는 작업을 수행할 계획이다.

  • PDF