A Learning Agent for Automatic Bookmark Classification

북 마크 자동 분류를 위한 학습 에이전트

  • 김인철 (경기대학교 정보과학부 전자계산학) ;
  • 조수선 (한국전자통신연구원 컴퓨터 소프트웨어연구소)
  • Published : 2001.10.01

Abstract

The World Wide Web has become one of the major services provided through Internet. When searching the vast web space, users use bookmarking facilities to record the sites of interests encountered during the course of navigation. One of the typical problems arising from bookmarking is that the list of bookmarks lose coherent organization when the the becomes too lengthy, thus ceasing to function as a practical finding aid. In order to maintain the bookmark file in an efficient, organized manner, the user has to classify all the bookmarks newly added to the file, and update the folders. This paper introduces our learning agent called BClassifier that automatically classifies bookmarks by analyzing the contents of the corresponding web documents. The chief source for the training examples are the bookmarks already classified into several bookmark folders according to their subject by the user. Additionally, the web pages found under top categories of Yahoo site are collected and included in the training examples for diversifying the subject categories to be represented, and the training examples for these categories as well. Our agent employs naive Bayesian learning method that is a well-tested, probability-based categorizing technique. In this paper, the outcome of some experimentation is also outlined and evaluated. A comparison of naive Bayesian learning method alongside other learning methods such as k-Nearest Neighbor and TFIDF is also presented.

웹은 이제 인터넷의 중요한 서비스중의 하나가 되었다. 웹 공간을 탐색할 때 사용자들은 항해하는 동한 만나는 흥미 있는 사이트들을 기록하기 위해 북 마크 기능을 이용한다. 북 마크 기능을 이용할때 겪는 문제중의 하나가 거듭된 새로운 북 마크의 추가로 인해 북 마크 리스트의 길이가 길어지면 북 마크 리스트가 일관성 있는 구성을 잃어버리게 되어 실제적인 도움을 주기 어렵다는 것이다. 사용자가 북 마크 파일을 효율적이고 체계적으로 유지하기 위해서는 북 마크 파일에 추가되는 새로운 북 마크들을 카테고리별로 분류하여 신규 폴더를 찾아 삽입해주어야 한다. 본 논문에서는 대응되는 웹 문서들을 다운 받아 내용을 분서함으로써 자동으로 북 마크를 분류하는 BClassifier라 불리는 학습에이전트를 소개한다. BClassifier 에이전트를 위한 훈련 예의 주된 공급원은 바로 사용자가 명시적으로 이미 주제에 따라 몇 개의 북 마크 폴더들로 분류해놓은 북 마크들이다. 여기에 주제 카테고리들을 확대하고 이들에 대한 훈련 문서들을 확보하기 위해 추가적으로 Yahoo 사이트의 최상휘 카테고리들로부터 웹 문서들을 수집하여 훈련 예에 포함시킨다. BClassifier 에이전트는 잘 알여진 확률기반의 분류 기술이나 나이브 베이지안 학습 방법을 채용하고 있다. 본 논문에서는 BClassifier 에이전트에 관한 몇 가지 실험 결과를 소개하고 평가한다. 나이브 베이지안 방법과 k-최근접 이웃 방법, TFIDF 등과 같은 서로 다른 학습 방법들과 비교 실험 결과도 제시한다.

Keywords

References

  1. Tom Mitchell, 'Machine Learning', McGraw Hill International Edition, 1995
  2. D. D. Lewis and M. Ringuette, 'A Comparison of Two Learning Algorithm for Text Categorization,' Proceeding of the 3rd Annual Symposium on Document Analysis and Information Retrieval, pp.81-93, 1994
  3. Y. Yang and X. Liu, 'A Re-Examination of Text Categorization Methods,' Proceedings of SIGIR-99, 1999 https://doi.org/10.1145/312624.312647
  4. Mehran Sahami, Susan Dumains, David Heckerman, and Eric Horvitz. 'A Bayesian Approach to Filtering Junk E-Mail,' Proceedings of AAAI-98 Workshop on Learning for Text Categorization, 1998
  5. A. McCallum and K. Nigam, 'A Comparison of Event Models for Naive Bayes Text Classification,' Proceedings of AAAI-98 Workshop on Learning for Text Categorization, 1998
  6. T. Joachims, 'A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization,' Proceedings of the 14th International Conference on Machine Learning ICML97, pp.143-151, 1997
  7. Jeffrey M. Bradshaw, 'Software Agent', AAAI Press/The MIT Press, 1997
  8. Stuart Russell and Peter Norvig, 'Artificial Intelligence : A Modern Approach', Prentice Hall, 1995
  9. D. Mladenic, 'Personal WebWatcher : Design and Implementation,' Technical Report IJS-DP-7472, School of Computer Science, Carnegie-Mellon University, Pittsburgh, USA, October, 1996
  10. B. Krulwich and C. Burkey, 'The InfoFinder agent : Learning user interests through heuristic phrase extraction,' IEEE Experts, Vol.2, No.5 pp.22-27, 1997 https://doi.org/10.1109/64.621224
  11. M. Pazzani and D. Billsus, 'Learning and Revising User Profiles : The Identification of Interesting Web Sites,' Journal of Machine Learning, Vol.27, No.3, pp.313-331, 1997 https://doi.org/10.1023/A:1007369909943
  12. L. Chen and K. Sycara, 'WebMate : A Personal Agent for Browsing and Searching,' Proceedings of the 2nd International Conference on Autonomous Agents and Munlti-Agent Systems, pp.132-139, 1998 https://doi.org/10.1145/280765.280789
  13. P. Maes, 'Agents That Reduce Work and Information Overload,' Communications of the ACM, Vol.37, No.7, pp.30-40, 1994 https://doi.org/10.1145/176789.176792
  14. B. Sheth and P. Maes, 'Evolving Agents for Personalized Information Filtering,' Proceedings of the 9th IEEE Conference on AI for Applications, 1993 https://doi.org/10.1109/CAIA.1993.366590
  15. D. D. Lewis, 'Feature Selection and Feature Extraction for Text Categorization,' Proceedings of Speech and Natural Language Wokshop, pp.212-217, 1992 https://doi.org/10.3115/1075527.1075574
  16. Y. Yang and J. O. Pederson, 'A Comparative Study on Feature Selection in Text Categorization,' Proceedings of the 14th International Conference on Machine Learning, pp.412-420, 1997