A Hybrid Document Clustering for a Web Agent

웹 에이전트를 위한 통합방식 문서 클러스터링

  • Published : 2001.05.01

Abstract

웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심 정보를 학습하고 사용자가 필요로 하는 웹 상의 정보를 자동 제공하는 지능형 시스템이다. 웹 에이전트가 사용자의 선호도를 학습하기 위해서는 귀납적 기계학습을 수행하는데, 이때 학습의 효율을 높이기 위해서는 사용자가 관심있어하는 문서들을 유사한 문서들로 클러스터링하여 학습 시스템에 제공하여야 한다. 본 논문에서는 웹 에이전트의 학습 시스템에 입력되는 학습대상 문서들을 보다 정확하고 효율적으로 클러스터링하여 제공하기 위해서 Top-down 방식과 Bottom-up 방식을 통합 적용한 통합방식 문서 클러스터링과 초기 클러스터 생성을 위한 평가함수를 제시한다. Top-down 방식으로는 개념적 클러스터링 알고리즘인 COBWEB을 적용하고, Bottom-up 방식으로는 교차기반(Intersection-based) 클러스터링 방식인 Etzioni의 클러스터링 알고리즘을 적용하였다.

Keywords

References

  1. J. Ross Quinlan, 'Induction of Decision Tree,' Machine Learning, 1:81-106, 1986
  2. J. Ross Quinlan, 'C4.5 Programs for Machine Learning,' Morgan Kaufmann, San Mateo, CA, 1992
  3. Oren Zamir, Oren Etzioni, 'Grouper: A Dynamic Clustering Interface to Web Search Results,' WWW8
  4. D. Boley, M. Gini, R. Gross, E.-H. (Sam) Han, K. Hastings, G. Karypis, V. Kumar, B. Mobasher, J. Moore, 'Document Categorization and query Generation on the World Wide Web Using WebACE,' AI Review, 1999
  5. Doug Fisher, 'Interative Optimization and Simplification of Hierarchical Clusterings,' AI Access Foundation and Morgan Kaufmann Publishers, 1996
  6. Fisher, D. H., & Langley, P., 'Methods of conceptual clustering and their relation to numerical taxonomy,' In W. Gale(Ed.), Artificial intelligence and statistics, Reading MA: Addison Wesley, 1986
  7. Michalski, R. S., & Stepp, R., Learning from observation: Conceptual clustering. In R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), Machine learning: An artificial intelligence approach. San Mateo, CA: Morgan Kaufmann, 1983
  8. Gluck, M. & Corter, J., 'Information, uncertainty and the utility of categories,' Proceedings of the Seventh Annual Conference of the Cognitive Science Society, pp. 283-287, Irvine, CA:Lawrence Erlbaum, 1985
  9. Gennari, J.H., Langley, P. & Fisher, D. H., 'Models of incremental concept formation,' Artificial Intelligence, 40, pp. 11-61, 1989 https://doi.org/10.1016/0004-3702(89)90046-5
  10. Oren Zamir, Oren Etzioni, Omid Madani and Richard M. Karp, 'Fast and Intuitive Clustering of Web Documents,' KDD'97