DOI QR코드

DOI QR Code

A Method of Efficient Web Crawling Using URL Pattern Scripts

URL 패턴 스크립트를 이용한 효율적인 웹문서 수집 방안

  • 장문수 (서경대학교 소프트웨어학과) ;
  • 정준영 (서경대학교 소프트웨어학과)
  • Published : 2007.12.25

Abstract

It is difficult that we collect only target documents from the Innumerable Web documents. One of solution to the problem is that we select target documents on the Web site which services many documents of target domain. In this paper, we will propose an intelligent crawling method collecting needed documents based on URL pattern script defined by XML. Proposed crawling method will efficiently apply to the sites which service structuralized information of a piece with database. In this paper, we collected 50 thousand Web documents using our crawling method.

수많은 웹문서 중에서 원하는 문서만을 수집하는 것은 쉽지 않다. 이것을 해결하는 한 방법은 원하는 분야의 정보를 많이 제공하는 사이트에서 원하는 부분만 골라서 수집하는 것이다. 본 논문에서는 웹사이트의 URL 패턴을 XML 기반의 스크립트로 정의하여, 필요한 웹 문서만을 지능적으로 수집하는 방안을 제안한다. 제안하는 수집 방안은 데이터베이스와 같은 구조화된 자료를 정보로 제공하는 사이트에 대해서 매우 빠르고 효율적으로 적용될 수 있다. 본 논문에서는 제안하는 방법을 적용하여 5만개 이상의 웹 문서를 수집하였다.

Keywords

References

  1. Tim Bemers-Lee, 'Enabling Standards & Technologies,' (http://www.w3.org/2002/Talks/04-sweb/slide12-0.html)
  2. 김성진, 이상호, '웹 로봇 구현 및 한국 웹 통계보고,' 한국정보처리학회논문지, 제10권, 4호, pp. 509-518. 2003
  3. 강문수, 최영식, '대용량 분산 웹 크롤러', 한국인터넷정보학회 학술발표대회 논문집, 제6권 1호, pp. 185-188, 2005
  4. J. Cho, 'Efficient Crawling through URL ordering,' Computer Networks and ISDN Systems, Vol.30, pp. 161-172, 1998 https://doi.org/10.1016/S0169-7552(98)00108-1
  5. 장문수, 강선미, '도메인지식의 계층화를 통한 온톨로지 인스턴스의 속성정보 추출', 퍼지및지능시스템학회 논문지, 17권 3호, pp. 291-296, 2007.6 https://doi.org/10.5391/JKIIS.2007.17.3.291
  6. 'The Web Robots FAQ', http://www.robotstxt.org/faq.html