FP-Tree를 이용한 문서 분류 방법

Text Document Categorization using FP-Tree

  • 박용기 (경북대학교 컴퓨터과학과) ;
  • 김황수 (경북대학교 컴퓨터과학과)
  • 발행 : 2007.11.15

초록

전자 문서의 급속한 증가로 인하여 자동 문서 분류의 필요성도 증가하고 있다. 기존의 문서 분류 방법들은 대개 문서를 단어의 집합으로 간주하여 기계 학습의 방법을 그대로 적용하거나 악간의 변형을 가한 방법들이 대부분이다. 본 논문에서는 데이타 마이닝 분야에서 사용되는 FP-Tree 구조를 이용하여 문서내의 문장들의 패턴을 저장하고 이를 사용하여 문서를 분류하는 방법(FPTC)을 제시한다. 또한 FP-Tree를 이용한 방법에 상호 정보량과 문장별 엔트로피를 적용하여 분류 정확도를 높이는 방법 그리고 각각의 실험 결과와 함께 다른 문서 분류 알고리즘과 비교 분석한 결과를 살펴보기로 한다.

As the amount of electronic documents increases explosively, automatic text categorization methods are needed to identify those of interest. Most methods use machine learning techniques based on a word set. This paper introduces a new method, called FPTC (FP-Tree based Text Classifier). FP-Tree is a data structure used in data-mining. In this paper, a method of storing text sentence patterns in the FP-Tree structure and classifying text using the patterns is presented. In the experiments conducted, we use our algorithm with a #Mutual Information and Entropy# approach to improve performance. We also present an analysis of the algorithm via an ordinary differential categorization method.

키워드

참고문헌

  1. D.D.Lewis, An evaluation of phrasal and clustered representations on a text categorization task, In Proceedings of SIGIR-92, pages 37-50, 1992
  2. W.Lam, C.Y.Ho, Using a generalized instance set for automatic text categorization, In Proceedings of SIGIR-98, pages 81-89, 1998
  3. R.E.Schapire, Y.Singer, BoosTexter: a boosting-based system for text categorization, Mach. Learn. 39 2000
  4. T.Joachims, Text categorization with support vector machines: learning with many relevant features, In Proceedings of ECML-98, pages 137-142, 1998
  5. Jiawei Han, Jian Pet, Yiwen Yin Runying Mao, Mining Frequent Patterns without Candidate Generation, Data Mining and Knowledge Discovery 2004
  6. Gerard Salton, Chris Buckley, 571 stopword list for the experimental SMART information retrieval system at Cornell University http://www.lextek.com/manuals/onix/stopwords2.html
  7. G.A. Miller, WordNet: A Dictionary Browser, 1st Int'l Conf. Information in data 1985
  8. David J.C. Mackay, Information Theory, Inference, and Learning Algorithm. Cambridge University Press 2003
  9. Yiming Yang and J. O. Pedersen, A Comparative Study on Feature Selection in Text Categorization, Proceedings of the 14th International Conference on Machine Learning pages 412-420 1997
  10. D.D.Lewis 'Reuters-21578' http://www.research.att.com/~lewis
  11. S. T. Dumais, J. Platt, D. Heckerman, M. Sahami, Inductive learning algorithms and representations for text categorization. Proceedings of ACM CIKM98 pages 148-155, 1998