DOI QR코드

DOI QR Code

Distribute Parallel Crawler Design and Implementation

분산형 병렬 크롤러 설계 및 구현

  • 장현호 (숭실대학교/IT정책경영학) ;
  • 전경식 (숭실대학교/IT정책경영학) ;
  • 이후기 (건양대학교/사이버보안공학과)
  • Received : 2019.02.28
  • Accepted : 2019.03.28
  • Published : 2019.09.30

Abstract

As the number of websites managed by organizations or organizations increases, so does the number of web application servers and containers. In checking the status of the web service of the web application server and the container, it is very difficult for the person to check the status of the web service after accessing the physical server at the remote site through the terminal or using other accessible software It. Previous research on crawler-related research is hard to find any reference to the processing of data from crawling. Data loss occurs when the crawler accesses the database and stores the data. In this paper, we propose a method to store the inspection data according to crawl - based web application server management without losing data.

기관이나 단체에서 관리하는 홈페이지 수가 증가하면서 그에 따른 웹 어플리케이션 서버나 컨테이너도 그에 상응하게 증가한다. 웹 어플리케이션 서버와 컨테이너의 웹 서비스 상태를 점검하는데 있어서 사람이 일일이 원격지에 있는 물리적인 서버에 터미널을 통해 접근하거나 다른 접근 가능한 소프트웨어를 사용하여 접근한 뒤 웹 서비스의 상태를 점검하는 것은 매일 반복하기에는 매우 번거로운 일이다. 이전에 연구되었던 크롤러관련 연구에는 크롤링에 따른 발생 데이터 처리에 관한 언급이 찾아보기 힘들다. 크롤러에서 데이터베이스에 접근하여 데이터를 저장하는데 있어서 데이터 손실이 발생한다. 본 연구에서는 크롤링 기반의 웹 어플리케이션 서버 관리에 따른 점검 데이터를 손실 없이 데이터화 하여 저장하는 방안을 제시하였다.

Keywords

References

  1. http://www.tta.or.kr
  2. Berners-Lee, Tim. "HyperText Transfer Protocol". World Wide Web Consortium. Retrieved 31 August 2010.
  3. Curbera Francisco et al., "Unraveling the Web Services Web:An Introduction to SOAP, SDL, and UDDI," IEEE Internet computing, Vol.6 No.2, pp.86-93, 2002. https://doi.org/10.1109/4236.991449
  4. Castillo, C., "Effective Web Crawling," ACM SIGIR Forum 55, Vol.39, No.1, pp. 55-56, June 2005. https://doi.org/10.1145/1067268.1067287
  5. "HTTP/1.1". Webcom.com Glossary entry. Archived from the original on 2001-11-21. Retrieved 2009-05-29.
  6. Heydon, A. and Najork, M., "Mercator: A Scalable, Extensible Web Crawler," In Proc. 2nd Int'l Conf. on World Wide Web, pp.219-229, Dec. 1999.
  7. Tim Berners-Lee. "The Original HTTP as defined in 1991". World Wide Web Consortium. Retrieved 24 July 2010.
  8. V. Shkapenyukn, T. Suel, "Design and Implementation of a High-performance Distributed Web Crawler," In Processings of the 18th International Conference on Data Engineering, San Jose, California, 2002.
  9. 신은정, 김이론, 허준석, 황규영, "오디세우스 용량 검색 엔진을 한 병렬 웹 크롤러의 구현" 정보과학회 논문지 : 컴퓨팅의 실제 및 레터, Vol. 14, No 6, 2008년 8월