DOI QR코드

DOI QR Code

From Computing Distribution of Email Responses for Each User Cluster To Construct User Preference based Anti-spam Mail System

사용자 클러스터별 이메일 반응 분포 계산 및 사용자 선호 스팸 메일 대응 시스템 구축

  • Kim, Jong-Wan (School of Computer and Information Technology, Daegu University)
  • 김종완 (대구대학교 컴퓨터.IT공학부)
  • Received : 2009.02.27
  • Accepted : 2009.06.04
  • Published : 2009.06.25

Abstract

In this paper, it would be shown that individuals can have different responses to the same email based on their preferences through computing the distributions of user clusters' email responses from clustering results based on email users' preference information. This paper presents an approach that incorporates user preferences to construct an anti-spam mail system, which is different from the conventional content-based ones. We consider email category information derived from the email content as well as user preference information. We also build a user preference ontology to formally represent the important concepts and rules derived from a data mining process and then apply a rule optimization procedure to exclude unnecessary rules. Experimental results show that our user preference based system achieves good performance in terms of accuracy, the rules derived from the system and human comprehensibility.

본 논문은 전자메일 사용자별로 제공받은 사용자 선호 정보를 클러스터링하여 사용자 클러스터를 만든 후, 사용자 클러스터들의 전자메일 반응 분포를 계산함으로써 사용자 취향에 따라 동일한 전자메일에 대해서도 다른 반응을 가질 수 있다는 사실을 보이려고 한다. 본 논문에서는 사용자 선호도를 채용하여 보통의 내용기반 방식과는 다른 스팸 메일 대응 시스템을 구축하는 접근법을 제안한다. 제안된 방법은 전자메일 내용으로부터 유도된 전자메일 카테고리 정보뿐만 아니라 사용자 선호 정보도 고려한다. 데이터마이닝 프로세스로부터 유도된 중요한 개념과 규칙들을 정형적으로 표현하기 위하여 사용자 온톨로지를 구축하고, 규칙 최적화 방법을 적용하여 불필요한 규칙들을 제거한다. 실험결과는 제시된 사용자 선호 기반 시스템이 정확률과 시스템이 유도한 규칙, 사용자 이해도 면에서 좋은 결과를 제시한다.

Keywords

References

  1. P. Wolfe, C. Scott, and M. Erwin, Anti-Spam Tool Kit, McGraw Hill, 2004
  2. M. Sahami, S. Dumais, D. Heckerman, and E. Horvitz, 'A bayesian approach to filtering junk e-mail.' Proc. of AAAI Workshop on Learning for Text Categorization, pp.55-62, 1998
  3. H. Drucker, D. Wu, and V. Vapnik, 'Support Vector Machines for Spam Categorization,' IEEE Trans. on Neural Networks, Vol.10, No.5, pp.1048-1054, 1999 https://doi.org/10.1109/72.788645
  4. G. Cormack and T. Lynam, 'On-line Supervised Spam Filter Evaluation,' ACM Trans. on Information Systems, Vol.25, No.3, article 11, 2007
  5. A. Gray and M. Haahr, 'Personalized, Collaborative Spam Filtering,' Proc. of the First Conf. on Email and Anti-Spam, http://www.ceas.cc/papers-2004/, 2004
  6. J. Ravi, W. Shi, and C. Xu, 'Personalized Email Management at Network Edges,' IEEE Internet Computing, Vol.9, No.2, pp.54-60, 2005 https://doi.org/10.1109/MIC.2005.44
  7. Anti-Spam Firewall, http://www.barracudanetworks.com/ns/products/anti_spam_tech.php
  8. 김종완, 김희재, 강신재, '데이터 마이닝 기술을 적용한 사용자 선호 스팸 대응 온톨로지 구축,' 한국퍼지및지능시스템학회논문지, Vol.17, No.2, pp.160-166, 2007
  9. R. Segal, 'Combining Global and Personal Anti-Spam Filtering,' Proc. of the 4th Conf. on Email and Anti-Spam, http://www.ceas.cc/papers-2007/, 2007
  10. I. Witten and E. Frank, Data Mining: practical machine learning tools and techniques 2nd ed. Morgan Kaufmann, 2005
  11. D. Dou, V. McDermott, and P. Qi, 'Ontology translation on the semantic web,' J ournal of Data Semantics, Vol.2, pp.35-57, 2004
  12. A. Dempster, N. Laird, and D. Rubin, 'Maximum likelihood from incomplete data via the EM algorithm,' Journal of the Royal Statistical Society, Series B, Vol.39, No.1, pp.1-38, 1977
  13. T. Sasao, Switching Theory for Logic Synthesis, Kluwer Academic Publishers, 1999
  14. A. Chan and A. Freitas, 'A New Classification-Rule Pruning Procedure for an Ant Colony Algorithm,' Proc. of Artificial Evolution, pp.25-36, 2005