Design of a High-Performance Web Crawler Considering the Round Trip Time

왕복시간(Round Trip Time)을 고려한 고성능 웹크롤러 설계

  • Jeong, Chun-Ho (Dept. of Computer Science, Pusan National University) ;
  • Cho, Hyun-Tae (Dept. of Computer Engineering, Pusan National University) ;
  • Beak, Yun-Ju (Dept. of Computer Engineering, Pusan National University)
  • 정춘호 (부산대학교 전자계산학과) ;
  • 조현태 (부산대학교 컴퓨터공학과) ;
  • 백윤주 (부산대학교 컴퓨터공학과)
  • Published : 2004.05.14

Abstract

인터넷과 정보기술의 급속적인 발전으로 수천 또는 수억에 달하는 방대하고 다양한 정보들이 웹 상에서 존재하게 되었다. 이러한 다양한 정보들 중에서 이용자가 원하는 정보를 제공하기 위해 다양한 검색시스템들이 개발되었다. 웹 크롤러는 검색시스템의 중요한 부분 중의 하나로, 웹 서버를 순회하며 각 페이지에 있는 수많은 정보를 수집하는 프로그램이다. 본 논문에서는 웹 크롤러의 기본요건 중의 하나인 빠른 수집속도를 보장하기 위해 RTT(Round Trip Time) Scheduling 기법을 적용한 URL 스케줄러를 제시하고, 이러한 RTT Scheduling 기법을 이용한 웹 크롤러를 설계한다.

Keywords