Performance Analysis of Web-Crawler in Multi-thread Environment

다중 쓰레드 환경에서 웹 크롤러의 성능 분석

  • Park, Jung-Woo (Dept. of Computer Science & Engineering, Hanyang University) ;
  • Kim, Jun-Ho (Dept. of Computer Science & Engineering, Hanyang University) ;
  • Lee, Won-Joo (Dept. of Computer Science, Inha Technical College) ;
  • Jeon, Chang-Ho (Dept. of Computer Science & Engineering, Hanyang University)
  • 박정우 (한양대학교 컴퓨터공학과) ;
  • 김준호 (한양대학교 컴퓨터공학과) ;
  • 이원주 (인하공업전문대학 컴퓨터정보과) ;
  • 전창호 (한양대학교 컴퓨터공학과)
  • Published : 2009.01.08

Abstract

본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

Keywords