Automatic e-mail Hierarchy Classification using Dynamic Category Hierarchy and Principal Component Analysis

PCA와 동적 분류체계를 사용한 자동 이메일 계층 분류

  • Park, Sun (Department of Computer Engineering, Honam Uinveristy)
  • 박선 (호남대학교 컴퓨터공학과)
  • Received : 2009.03.12
  • Accepted : 2009.06.30
  • Published : 2009.06.30

Abstract

The amount of incoming e-mails is increasing rapidly due to the wide usage of Internet. Therefore, it is more required to classify incoming e-mails efficiently and accurately. Currently, the e-mail classification techniques are focused on two way classification to filter spam mails from normal ones based mainly on Bayesian and Rule. The clustering method has been used for the multi-way classification of e-mails. But it has a disadvantage of low accuracy of classification and no category labels. The classification methods have a disadvantage of training and setting of category labels by user. In this paper, we propose a novel multi-way e-mail hierarchy classification method that uses PCA for automatic category generation and dynamic category hierarchy for high accuracy of classification. It classifies a huge amount of incoming e-mails automatically, efficiently, and accurately.

인터넷 사용의 보편화로 인해 이메일의 양이 급속히 증가하고 있다. 이에 따라서 수신된 메일을 효율적이고 정확하게 분류할 필요성이 점차 증가하고 있다. 현재의 이메일 분류 기술들은 베이지안, 규칙 기반 등을 이용하여 스팸 메일을 필터링하기 위한 이원 분류가 주를 이루고 있다. 이메일의 다원분류 방법중 군집(clustering)을 이용한 분류 방법은 분류의 정확도가 떨어지고 분류 레이블이 없는 단점이 있으며, 분류(classification)를 이용한 방법은 미리 분류 레이블을 사용자가 지정해야 하며 학습시켜야 하는 단점을 갖는다. 본 논문에서는 PCA (Principal Component Analysis)를 기반으로 한 자동 카테고리 생성 방법과 동적 분류 체계 방법을 결합한 새로운 자동 이메일 계층 분류 방법을 제안한다. 이 방법은 수신되는 이메일을 자동으로 분류하여 대량의 메일을 효율적으로 관리할 수 있으며, 메일을 동적으로 재분류 하여 분류 정확률을 높일 수 있다.

Keywords

References

  1. I. Androutsopoulos .... An Evaluation of Naive Bayesian Anti-Spam Filtering. In Proc. Workshop on Machine Learning in the New Information Age, 2000.
  2. G. Sakkis et al. Stacking classifiers for anti-spam filtering of e-mail. In Proc. 6thConf. On Empirical Methods in Natural Language Processing, 2001.
  3. W.W. Cohen. Learning Rules that classify e-mail. In Proc. AAAI Spring Symposium in Information Access 1999.
  4. G. Manco, E. Masciari, A Framework for Adaptive Mail Classification. In Proceedings of the 14th IEEE International Conference on Tools with Artificial Intelligence, 2002.
  5. K Mock. Dynamic Email Organization via Relevance Categories. In Proceedings of the International Conference on Tools with Artificial Intelligence 1999. Chicago IL, Nov. 1999.
  6. S. Park, C. H. Park, J. C. Lee, J. H. Lee, E-mail Clssification Agent using Category Generation and Dynamic Category Hierarchy, LNCS 3397, 207-214, 2004.
  7. 변영철, 홍영보, “신경망을 이용한 사용자 질의 전자 메일 분류”, 멀티미디어학회논문지, 제7권 제3호, pp438-449, 2004.
  8. Richard A. Johnson, Dean W. Wichern, Applied Multivariate Statistical Analysis 4th ed., Prentice hall, 1998
  9. 이창범,김민수,이기호,이귀상,박혁로, ‘주성분 분석을 이용한 문서 주제어 추출“, 정보과학회논문지 : 소프트웨어 및 응용 제 29권 제 10호, 2002.
  10. B.G. Choi J. H. Lee, S. Park, Dynamic Construction of Category Hierarchy Using Fuzzy Relational Products. IDEAL 2003, pp.296-302, 2003.
  11. 최범기, 박선, 이주홍, “웹 검색 환경에서 범주의 동적인 분류”, 정보과학회 논문지 제33권, 제7호, 646-654, 2006.
  12. D. R. Radev, H. Jing, and M. Stys-Budzikowska, Summarization of multiple documents: clustering sentence extraction, and evaluation, In proceddings of ANLPNAACL Workshop on Automatic Summarization. 2000.
  13. W. Sandler and L. "Kohout. Semantics of Implication Operators and Fuzzy Relational Products". International Journal of Man-Machine Studies. Vol. 12, pp.89-1l6, 1980. https://doi.org/10.1016/S0020-7373(80)80055-1
  14. S.S. Kang. Korean Information Retrieval and Morpheme analysis. HongReung Science Publishing Co., 2002.