DOI QR코드

DOI QR Code

효과적인 이메일 분류를 위한 빈발 항목집합 기반 최적 이메일 폴더 추천 기법

A proper folder recommendation technique using frequent itemsets for efficient e-mail classification

  • 문종필 (KT 이노츠 연구개발본부) ;
  • 이원석 (연세대학교 컴퓨터과학과) ;
  • 장중혁 (대구대학교 컴퓨터IT공학부)
  • 투고 : 2010.09.30
  • 심사 : 2010.12.13
  • 발행 : 2011.02.28

초록

이메일이 중요한 정보 전달과 의사소통의 수단으로 널리 활용된 이래 사람들은 이메일을 내용에 따라 적절하게 분류하는 작업에 많은 노력을 기울려 왔다. 이메일은 문서의 길이나 문체가 다양하며 사용되는 단어들이 비정규적이다. 또한 이메일 분류 기준은 일반적으로 해당 이메일 사용자의 주관에 따라 정의된다. 따라서 기존의 일반적인 문서분류 기법으로는 이메일을 효율적으로 분류하는데 어려움이 있다. 상업용 이메일 프로그램에서 제공되는 분류 기능은 메일 클라이언트에서 지원하는 텍스트 필터링을 이용한다. 한편 이메일의 자동 분류에 관한 연구는 확률 기반의 나이브 베이지안 기법을 응용하여 정확도를 높일 수 있는 연구가 주로 진행되어 왔으며, 대부분 영문 이메일에 대한 연구이다. 본 논문에서는 빈발 패턴 마이닝 기법을 적용하여 한글 이메일에 대한 개인 맞춤형 폴더 추천기법을 제시한다. 이메일의 맞춤형 폴더 추천 기법은 이메일에 대한 전처리 과정과 빈발 항목집합을 이용한 메일 폴더의 프로파일 생성과정으로 구성된다. 생성된 프로파일은 분류 대상이 되는 각 메일이 개인별 맞춤형 기준에 따라 가장 적합한 이메일 폴더로 효과적으로 분류되는데 활용된다. 또한 제안된 기법을 적용한 이메일 분류 시스템을 구현한다.

Since an e-mail has been an important mean of communication and information sharing, there have been much effort to classify e-mails efficiently by their contents. An e-mail has various forms in length and style, and words used in an e-mail are usually irregular. In addition, the criteria of an e-mail classification are subjective. As a result, it is quite difficult for the conventional text classification technique to be adapted to an e-mail classification efficiently. An e-mail classification technique in a commercial e-mail program uses a simple text filtering technique in an e-mail client. In the previous studies on automatic classification of an e-mail, the Naive Bayesian technique based on the probability has been used to improve the classification accuracy, and most of them are on an e-mail in English. This paper proposes the personalized recommendation technique of an email in Korean using a data mining technique of frequent patterns. The proposed technique consists of two phases such as the pre-processing of e-mails in an e-mail folder and the generating a profile for the e-mail folder. The generated profile is used for an e-mail to be classified into the most appropriate e-mail folder by the subjective criteria. The e-mail classification system is also implemented, which adapts the proposed technique.

키워드

참고문헌

  1. O.-R. Jeong, D.-S. Cho, "A Three-Step Preprocessing Algorithm for Enhanced Classification of E-Mail Recommendation System," The Transactions of The Korean Institute of Electrical Engineers, Vol. 54D, No. 4, pp. 251-258, 2005.
  2. K. P. Kim, Y. S. Kwon, "Performance Comparison of Naive Bayesian Learning and Centroid-Based Classification for e-Mail Classification," IE Interface, Vol. 18, No. 1. pp. 10-21, 2005.
  3. O.-R. Jeong, D.-S. Cho, "A Recommendation Agent System for E-mail Classification," The Proc. of the KISS Spring Conference, pp. 94-96, 2003.
  4. J.M. Lee, "An Improvement of Accuracy for NaiveBayes by Using Large Word Sets," Journal of Korean Society for Internet Information, Vol. 7, No. 3, pp. 169-178, 2006.
  5. S.J. Ko and J.H. Lee, "Weighted Bayesian Automatic Document Categorization Based on Association Word Knowledge Base by Apriori Algorithm," Journal of Korea Multimedia Society, Vol. 4, No. 2, pp. 171-181, 2001.
  6. S.J. Ko and J.H. Lee, "Bayesian Automatic Document Categorization Using Apriori - Genetic Algorithm," Journal of the KIPS, Vol. 8, No. 3, pp. 251-260, 2001.
  7. M. Ryu, J.S. Park, and J.K. Kim, "A Knowledge-based Folder Recommendation Procedure for e-mail Classification," The Proc. of the KIISS Fall Conference, pp. 349-357, 2004.
  8. Diao, Y., H. Lu, and D. Wu, "A Comparative Study of Classification Based Personal E-mail Filtering," in Proceedings of the 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Current Issues and New Applications, pp. 408-419, 2000.
  9. H.-J. Kim, J. J. Jeong, and G.-S. Jo, "Spam-Mail Filtering System Using Weighted Bayesian Classifier," Journal of the KISS: Software and Applications, Vol. 31, No. 8, pp. 1092-1100, 2004.
  10. Yin, X., J. Han, "CPAR: Classification based on Predictive Association Rules," in Proceedings of the third SIAM International Conference on Data Mining, pp. 331-334, 2003.
  11. Liu, B., W. Hsu, Y. Ma, "Integrating classification and association rule mining," in Proceedings of the fourth International Conference on Knowledge Discovery and Data Mining, pp. 80-86, 1998.
  12. Tan, P.-N., Introduction to Data Mining. INFINITY BOOKS, 2007.
  13. Wood, D., Internet Email Programming. Hanbit Media, 2000.
  14. HAM, http://nlp.kookmin.ac.kr/HAM/kor/index.html.
  15. Apriori program, http://www.borgelt.net/apriori.html.

피인용 문헌

  1. 단어 군집 기반 모바일 애플리케이션 범주화 vol.19, pp.3, 2014, https://doi.org/10.9708/jksci.2014.19.3.017