Feature Extraction of Web Document using Association Word Mining

연관 단어 마이닝을 사용한 웹문서의 특징 추출

  • 고수정 (인하대학교 대학원 전자계산공학과) ;
  • 최준혁 (김포대학 컴퓨터계열) ;
  • 이정현 (인하대학교 전자계산공학과)
  • Published : 2003.08.01

Abstract

The previous studies to extract features for document through word association have the problems of updating profiles periodically, dealing with noun phrases, and calculating the probability for indices. We propose more effective feature extraction method which is using association word mining. The association word mining method, by using Apriori algorithm, represents a feature for document as not single words but association-word-vectors. Association words extracted from document by Apriori algorithm depend on confidence, support, and the number of composed words. This paper proposes an effective method to determine confidence, support, and the number of words composing association words. Since the feature extraction method using association word mining does not use the profile, it need not update the profile, and automatically generates noun phrase by using confidence and support at Apriori algorithm without calculating the probability for index. We apply the proposed method to document classification using Naive Bayes classifier, and compare it with methods of information gain and TFㆍIDF. Besides, we compare the method proposed in this paper with document classification methods using index association and word association based on the model of probability, respectively.

단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

Keywords

References

  1. D. D. Lewis, Representation and Learning in Information Retrieval, PhD thesis(Technical Report, Computer Science Dept., Univ. of Massachussetts at Amherst, 1992
  2. T. Michael, Maching Learning, McGraw Hill, pp. 154 200, 1997
  3. I. Moulinier and G. Raskinis and J. Ganascia, 'Text categorization: a symbolic approach,' Proceedings of Fifth Annual Symposium on Document Analysis and Information Retrieval, 1996
  4. E. Wiener and J. O. Pederson and A. S. Weigend, 'A neural network approach to topic spotting,' Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval, 1995
  5. D. Mladenic, 'Feature subset selection in text learning,' Proceedings of the 10th European Conference on Machine Learning, pp. 95 100, 1998
  6. Y. Yang and J. O. Pedersen, 'A Comparative Study on Feature Selection in Text Categorization,' Proceedings of the Fourteenth International Conference on Machine Learning, pp. 412 420, 1997
  7. 신집섭, 이창훈, '단어의 연관성을 이용한 문서의 자동분류', 한국정보처리학회 논문지, 제6권 제9호, pp. 2422 2430, 1999
  8. D. Mladenic and M. Grobelnik, 'Feature selection for classification based on text hierarchy,' Proceedings of the Workshop on Learning from Text and the Web, 1998
  9. 인하대학교, 사용자 중심의 지능형 정보 검색 시스템, 최종 연구 개발 보고서, 정보통신부, 1997
  10. 임형근, 장덕성, '색인어 연관성을 이용한 의료정보문서 분류에 관한 연구', 한국정보처리학회 논문지, 제8 B권 제5호, 2001
  11. Y. H. Li and A. K. Jain, 'Classification of Text Documents,' Computer Journal, Vol. 41, No. 8, pp. 537 546, 1998 https://doi.org/10.1093/comjnl/41.8.537
  12. M. Pazzani, D. Billsus, Learning and Revising User Profiles: The Identification of interesting Web Sites, Machine Learning 27, Kluwer Academic Publishers, pp. 313-331, 1997 https://doi.org/10.1023/A:1007369909943
  13. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994
  14. 고영근외, 표준국어문법론, 탑출판사, 1994
  15. Cognitive Science Laboratory, Princeton University, 'WordNet a Lexical Database forEnglish,' http://www.cogsci.princeton.edu/~wn/
  16. 정영미, 정보검색론, 구미무역(주) 출판부, 1993
  17. V. Hatzivassiloglou and K. McKeown, 'Towards the automatic identification of adjectival scales: Clustering adjectives according to meaning,' Proceedings of the 31st Annual Meeting of the ACI, pp. 172 182, 1993 https://doi.org/10.3115/981574.981597