DOI QR코드

DOI QR Code

A Study on Spam Document Classification Method using Characteristics of Keyword Repetition

단어 반복 특징을 이용한 스팸 문서 분류 방법에 관한 연구

  • Received : 2011.05.02
  • Accepted : 2011.07.08
  • Published : 2011.10.31

Abstract

In Web environment, a flood of spam causes serious social problems such as personal information leak, monetary loss from fishing and distribution of harmful contents. Moreover, types and techniques of spam distribution which must be controlled are varying as days go by. The learning based spam classification method using Bag-of-Words model is the most widely used method until now. However, this method is vulnerable to anti-spam avoidance techniques, which recent spams commonly have, because it classifies spam documents utilizing only keyword occurrence information from classification model training process. In this paper, we propose a spam document detection method using a characteristic of repeating words occurring in spam documents as a solution of anti-spam avoidance techniques. Recently, most spam documents have a trend of repeating key phrases that are designed to spread, and this trend can be used as a measure in classifying spam documents. In this paper, we define six variables, which represent a characteristic of word repetition, and use those variables as a feature set for constructing a classification model. The effectiveness of proposed method is evaluated by an experiment with blog posts and E-mail data. The result of experiment shows that the proposed method outperforms other approaches.

인터넷 환경에서 스팸의 범람은 개인 정보의 유출, 피싱에 의한 금전적 손해, 무분별한 유해 콘텐츠의 유통 등 심각한 사회 문제를 야기하고 있다. 또한 사회적 통제를 필요로 하는 유해 정보를 무차별적으로 유통시키는 스팸의 형태와 기술이 갈수록 다양해지고 있다. Bag-of-Words 모델을 이용한 학습 기반 스팸 분류 방법은 현재까지의 연구 중에서 가장 일반적으로 사용되는 방법이다. 그러나 이 방법은 분류 모델 학습 과정에서 사용된 키워드의 출현 정보만으로 스팸 문서를 분류하기 때문에 최근 흔히 발견할 수 있는 스팸 차단 회피 방법에 대한 대처 능력이 부족하다. 본 논문에서는 이러한 문제를 해결하기 위해 문서에서 등장하는 반복 단어의 특징을 이용한 스팸 문서 탐지 방법을 제안한다. 최근 대부분의 스팸 문서에서는 노출하고자 하는 스팸 문구를 반복하는 경향이 있으며, 이는 스팸 문서를 판별하는 기준으로 사용될 수 있다. 본 논문에서는 단어 반복의 특징을 표현할 수 있는 6개의 변수를 정의하고 이를 분류 모델 생성을 위한 속성으로 사용한다. 본 논문에서 제안하는 스팸 탐지 방법의 성능 평가를 위해 블로그 포스트 데이터와 이메일 데이터를 이용하여 기존 방법들과의 비교 실험을 진행하였고, 결과 분석을 통해 제안 방법이 우수함을 확인하였다.

Keywords

References

  1. "2010년 인터넷이용실태조사", 방송통신위원회,한국인터넷진흥원, 2010. 9.
  2. "2008 불법스팸방지 가이드라인", 방송통신위원회, 한국정보보호진흥원, 2008. 11.
  3. Zoltan Gyongyi, Hector Garcia-Molina, "Web Spam Taxonomy", Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web, 2005.
  4. Hassan Najadat1, Ismail Hmeidi, "Web Spam Detection Using Machine Learning in Specific Domain Features", Journal of Information Assurance and Security 3 (2008) 220-229, 2009.
  5. Jon M. Kleinberg, "Authoritative Sources in a Hyperlinked Environment", Journal of ACM, 1999.
  6. Amy Langville and Carl Meyer. "Deeper inside PageRank", Technical report, North Carolina State University, 2003.
  7. Enrico Blanzieri and Anton Bryl, "A survey of Learning-based Techniques of Email Spam Filtering", Artificial Intelligence Review, Springer, 2008.
  8. Pantel P and Lin D, "Spamcop:a spam classification & organization program", In AAAI'98 Workshop, Learning for Text Categorization, 1998.
  9. Sahami M, Dumais S, Heckerman D and Horvitz E, "A bayesian approach to filtering junk e-mail", In AAAI'98 Workshop, Learning for Text Categorization, 1998.
  10. Li K and Zhong Z, "Fast statistical spam filter by approximate classifications", In SIGMETRICS 2006, 2006.
  11. Androutsopoulos I, Paliouras G, Karkaletsis V, Sakkis G, Spyropoulos C and Stamatopoulos P, "Learning to filter spam e-mail: a comparison of a naive bayesian and a memory-based approach". In workshop on machine learning and textual information access, 4th European conference on principles and practice of knowledge discovery in databases, PKDD 2000, 2000.
  12. Drucker H, Wu D and Vapnik V, "Support vector machines for spam categorization", IEEE Transactions on Neural Networks, Vol.10, No.5, pp.1048-1054, 1999. https://doi.org/10.1109/72.788645
  13. 이신영, 길아라, 김명원, "링크구조분석을 이용한 스팸 메일 분류", 정보과학회논문지:소프트웨어 및 응용 제34권 제1호, 2007. 01.
  14. 이호섭, 조재익, 정만현, 문종섭, "비정상 문자로 조합으로 구성 된 스팸 메일 탐지 방법", 정보보호학회논문지, 제18권 제6(A) 호, 2008. 12.
  15. Archana Bhattarai, Vasile Rus, Dipankar Dasgupta, "Characterizing Comment Spam in the Blogsphere through Content Analysis", ACM Transactions on the Web, Vol.2, No.1, Article 2, 2009
  16. Yitong Wang, Xiaofei Chen and Xiaojun Feng, "Combating Link Spam by Noisy Link Analysis", Advanced Data Mining and Applications:Lecture Notes in Computer Science, Vol.6440/2010, pp.453-464, 2010.
  17. Luca Becchetti, Carlos Castillo, Debora Donato, Ricardo Baeza-YATES, Stefano Leonardi, "Link Analysis for Web Spam Detection", Journal of ACM Transactions on the Web, Vol.2, No.1, 2008.
  18. BAEZA-YATES R, BOLDI P, AND CASTILLO C, "Generalizing pagerank:Damping functions for link-based ranking algorithms", In Proceedings of ACM SIGIR, 2006