Browse > Article
http://dx.doi.org/10.5392/JKCA.2013.13.06.030

Refresh Cycle Optimization for Web Crawlers  

Cho, Wan-Sup (충북대학교 경영정보학과/대학원비즈니스데이터융합학과)
Lee, Jeong-Eun (충북대학교 비즈니스데이터융합학과)
Choi, Chi-Hwan (충북대학교 바이오정보기술학과)
Publication Information
Abstract
Web crawler should maintain fresh data with minimum server overhead for large amount of data in the web sites. The overhead in the server increases rapidly as the amount of data is exploding as in the big data era. The amount of web information is increasing rapidly with advanced wireless networks and emergence of diverse smart devices. Furthermore, the information is continuously being produced and updated in anywhere and anytime by means of easy web platforms, and smart devices. Now, it is becoming a hot issue how frequently updated web data has to be refreshed in data collection and integration. In this paper, we propose dynamic web-data crawling methods, which include sensitive checking of web site changes, and dynamic retrieving of web pages from target web sites based on historical update patterns. Furthermore, we implemented a Java-based web crawling application and compared efficiency between conventional static approaches and our dynamic one. Our experiment results showed 46.2% overhead benefits with more fresh data compared to the static crawling methods.
Keywords
Web Crawling Cycle; Crawler; Web Sites; Dynamic Collection;
Citations & Related Records
Times Cited By KSCI : 5  (Citation Analysis)
연도 인용수 순위
1 S. Chakrabarti, M. van den Berg, and B. Dom, "Focused Crawling: A new Approach to Topic-Specific Web Resource Discovery," Computer Networks, Vol.31, No.11-16, pp.1623-1640, 1999.   DOI   ScienceOn
2 TeraStream 제품소개서, (주)데이터스트림즈 (www.datastreams.co.kr), 2008.
3 Z. Guan, C. Wang, C. Chen, J. Bu, and J. Wang, "Guide Focused Crawler Efficiently and Effectively Using On-line Topical Importance Estimation," In Proc. of ACM SIGIR Conference on Research and Development in Infoprmation Retrieval, pp.757-758, 2008.
4 B. He, C. Li, D. Killian, M. Patel, Y. Tseng, and K. C. C. Chang, "A Structure-Driven Yield-Aware Web Form Crawler: Building a Database of Online Databases," UIUC Technical Report, 2006.
5 J. Y. Yang, T. H. Kim, and J. M. Choi, "An Interface Agent for Wrapper-based Information Extraction," In Proc. Intl. Conf. on Principles of Practice in Multi-agent Systems(PRIMA '04), pp.291-302, 2004.
6 Karthikeyan Anbarasan, SQL Integration Services (SSIS) - Step by Step Tutorial, in A SSIS eBook (www.f5Debug.net), 2011.
7 Liu, Bing, Web data mining: exploring hyperlinks, contents, and usage data, Springer Verlag, 2007.
8 G. Pant, P. Srinivasna, and F. Menczer, "Crawling the web," In Web Dynamics, pp.153-177, 2004.
9 M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "GoGetIt!: a tool for generating structure-driven web crawlers," In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006.
10 김성진, 이상호, "웹 문서 변화에 관한 실험적 연구", 정보과학회논문지 : 데이터베이스, 제32권, 제2호, pp.151-160, 2005.   과학기술학회마을
11 http://bric.postech.ac.kr/myboard/list.php?Board=exp_qna
12 http://news.nate.com/recent?cate=col&mid=n0108&type=t
13 강한훈, 유성준, 한동일, "다양한 계층 트리구조를 갖는 쇼핑몰 상에서의 상품평 수집을 위한 웹크롤러 래퍼의 설계 및 구현", 한국지능시스템학회논문지, 제20권, 제3호, pp.318-325, 2010.
14 김성진, "웹 정보탐색행위 모형의 비교분석 연구", 정보처리학회지, 제21권, 제2호, pp.211-233, 2004.
15 권성호, 이영탁, 김영준, 이용두, "고성능 웹크롤러의 설계 및 구현", 한국산업정보학회논문지, 제8권, 제4호, pp.64-72, 2003.   과학기술학회마을
16 고일석, 최우진, 나윤지, 류승렬, "효율적인 웹문서 처리를 위한 HTTP 지연 개선에 관한 연구", 한국콘텐츠학회논문지, 제2권, 제2호, pp.47-52, 2002.   과학기술학회마을
17 김광영, 이원구, 이민호, "웹 자원 아카이빙을 위한 웹 크롤러 연구 개발", 한국콘텐츠학회논문지, 제11권, 제9호, pp.9-16, 2011.   과학기술학회마을   DOI   ScienceOn
18 김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 충북대학교 경영대학원 석사논문, 2011.
19 장문수, 정준영, "URL 패턴 스크립트를 이용한 효율적인 웹문서 수집방안", 퍼지 및 지능시스템학회 논문지, 제17권, 제6호, pp.849-854, 2007.
20 황인수, "웹의 연결구조와 웹문서의 적합도를 이용한 효율적인 인터넷 정보추출", 정보기술과 데이타베이스 저널, 제11권, 제4호, pp.49-60, 2004.   과학기술학회마을
21 C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications," In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008.
22 J. H. Cho, Crawling the Web: Discovery and maintenance of Large-Scale Web Data, Ph. D. Dissertation, Stanford University, 2001.