DOI QR코드

DOI QR Code

An Automatic Web Page Classification System Using Meta-Tag

메타 태그를 이용한 자동 웹페이지 분류 시스템

  • 김상일 (광운대학교 전자통신공학과) ;
  • 김화성 (광운대학교 전자통신공학과)
  • Received : 2012.04.23
  • Accepted : 2013.03.15
  • Published : 2013.04.30

Abstract

Recently, the amount of web pages, which include various information, has been drastically increased according to the explosive increase of WWW usage. Therefore, the need for web page classification arose in order to make it easier to access web pages and to make it possible to search the web pages through the grouping. Web page classification means the classification of various web pages that are scattered on the web according to the similarity of documents or the keywords contained in the documents. Web page classification method can be applied to various areas such as web page searching, group searching and e-mail filtering. However, it is impossible to handle the tremendous amount of web pages on the web by using the manual classification. Also, the automatic web page classification has the accuracy problem in that it fails to distinguish the different web pages written in different forms without classification errors. In this paper, we propose the automatic web page classification system using meta-tag that can be obtained from the web pages in order to solve the inaccurate web page retrieval problem.

최근 월드 와이드 웹(World Wide Web)의 사용이 폭발적으로 증가함에 따라 다양한 정보를 포함하고 있는 웹 페이지들의 양도 엄청나게 증가 하였다. 따라서 웹상에 존재 하고 있는 웹페이지들에 대한 접근을 용이하게 하고, 그룹화를 통한 검색을 가능하게 하기 위해 웹 페이지 분류의 필요성이 대두 되고 있다. 웹 페이지 분류는 기존의 웹 상에 산재 되어 있는 웹페이지들을 비슷한 문서 유형 또는 같은 키워드를 사용하는 문서들의 묶음으로 구분하는 작업을 의미하며, 웹 페이지 분류 기술은 웹페이지 검색, 그룹 검색, 메일 필터링 등의 분야에 응용될 수 있는 기술이다. 하지만 웹상에 존재하는 웹페이지들을 사람이 수동적으로 분류하는 방법으로는 현재 월드 와이드 웹에 존재하는 엄청난 양의 웹페이지들을 처리할 수 없으며, 자동적인 분류 방법 역시 서로 다른 형태로 작성된 웹페이지들을 정확하게 분류할 수 없다는 문제로 인해 한계를 보이고 있다. 본 논문에서는 서로 다른 형태로 작성된 웹 문서들에 대한 부정확한 분류 문제를 해결하기위해 웹페이지에 존재하는 메타 정보를 획득하여 자동적으로 분류하는 메타 태그기반의 자동화된 웹페이지 분류 시스템을 제안하였다.

Keywords

References

  1. dmoz web pages [open directory project], from http://www.dmoz.org.
  2. J. D. M. Rennie and D. R. Karger, "Tackling the poor assumptions of naive bayes textclassifiers", in Proc. 20th Int. Conf. Mach. Learning, pp. 616-623, Washington DC, U.S.A., Aug. 2003
  3. J.-U. Kim, H.-J. Kim, and S.-G. Lee, "A study on incremental learning model for naive bayes text classifier," in Proc. Int. Conf. Korea Database Soc., pp. 331-341, Seoul, Korea, June 2001.
  4. X. Qi and B. D. Davison. "Web page classification: features and algorithms," J. ACM Computing Surveys, vol. 41, no. 2, Article No. 12, Feb. 2009.
  5. D. Shen, J.-T. Sun, Q. Yang, and Z. Chen, "A comparison of implicit and explicit links for web page classification", in Proc. 15th Int. Conf. World Wide Web (WWW 2006), pp. 643-650, Edinburgh, U.K., May 2006.
  6. I. Charalampopoulos, "A comparable study employing WEKA clustering/classification algorithms for web page classification", in Proc. 15th Panhellenic Conf. Inform. (PCI), pp. 235-239, Kastoria, Greece, Oct. 2011.
  7. weka web page, Weka 3: Data Mining Sofrware in Java [Online], from http://www.cs.waikato.ac.nz/ml/weka/.
  8. I. H. Witten and F. Eibe, Data Mining: Practical Machine Learning Tools and Techniques, 2nd Ed., Morgan Kaufmann, 2000
  9. Toby Segaran, Programming collective intelligence, O'Reilly Media, 2007
  10. X. Qi and B. D. Davison, "Classifiers without borders: incorporating fielded text from neighboring web pages," in Proc. 31st Annu. Int. ACM SIGIR Conf., pp. 643-650, Singapore, July 2008.
  11. G. Xu, C. Xiang, X. Zhao, and G. Yang, "Tibetan web page classification based on column navigator", in Proc. 2012 2nd Int. Conf. Intell. Syst. Design Eng. Applicat. (ISDEA), pp. 610-612, Hainan, China, Jan. 2012.