DOI QR코드

DOI QR Code

Comparison of Web Crawler Performance for Web Record Management

원격수집 방식의 웹기록물 관리를 위한 웹수집기 성능 비교 연구

  • 장진호 (이씨플라자 지식서비스본부) ;
  • 권혁상 (이씨플라자 지식서비스본부) ;
  • 이규모 (이씨플라자 지식서비스본부) ;
  • 최동준 (한국무역정보통신 전자문서실)
  • Received : 2022.09.30
  • Accepted : 2022.10.22
  • Published : 2022.10.31

Abstract

As of 2022, the number of Internet sites for public institutions registered on the 'Government 24' website (www.gov.kr) of the Ministry of the Interior and Safety is 17,000. The direct transfer takes a lot of human and material resources and time between the records-producing institution and the records-management institution that manages websites as records. In addition, it is practically difficult for records management institutions to migrate and operate various software and application technologies required to run each website. A method of automatically collecting websites from a remote location using web crawler software is used domestically and abroad to overcome these practical limitations. This study compared the performance of the web crawler required to collect and manage public Internet websites as records remotely. The most suitable web crawler was selected through a step-by-step review of several web crawlers from previous studies and other literature. Several public agency websites were applied to compare the actual performance of the crawlers in the evaluation process. The study provides empirical and specific performance comparison information for organizations that need to choose a web crawler.

2022년 현재 행정안전부 정부24 웹사이트에 등록된 공공부문 인터넷 웹사이트는 1만 7천여 개이다. 이처럼 많은 웹사이트를 기록으로 관리하기 위해 기록물 생산기관과 기록물관리기관이 상호 간 직접 이관하는 방식은 많은 인적·물적자원을 필요로 한다. 각 웹사이트 구동에 필요한 운영 소프트웨어와 응용소프트웨어 기술을 기록물관리기관이 보유하고 운영하는 것도 현실적으로 어렵다. 이러한 현실적 한계를 극복하기 위해 웹수집 소프트웨어를 이용하여 원격지에서 웹사이트를 자동으로 수집하는 방식이 국내외에서 사용되고 있다. 이 연구는 공공부문 인터넷 웹사이트를 원격으로 수집하여 기록으로 관리할 때 필요한 웹수집기의 성능을 비교하였다. 선행연구 및 문헌조사 등에서 검토한 다수의 웹수집 소프트웨어에 대하여 단계별 검토를 거쳐 가장 적합한 웹수집기를 선정하였다. 성능 평가 과정에는 일부 공공기관 웹사이트를 대상으로 실제 원격 수집 성능을 비교하였다. 이 연구 결과는 웹기록 관리를 위해 웹수집기 선택이 필요한 기관에 실증적이고 구체적인 성능 비교 정보를 제공한다.

Keywords

Acknowledgement

본 논문은 국가기록원 2022년 국가기록관리 활용기술 연구개발 사업에 의하여 연구되었음.

References

  1. 김명목, 리상용 (2010). 전자기록물의 장기보존을 위한 기능요소 연구, 한국기록관리학회지. 2010. 10. 101-126 https://doi.org/10.14404/JKSARM.2010.10.2.101
  2. 김희정 (2010), 웹 아카이빙 인터페이스 유형 및 특성 분석, 한국기록관리학회지, 1(2). 147-170
  3. 박병주, 차승준, 이규철 (2010). 웹기록물 보존을 위한 전자기록물 장기보존포맷 확장 설계, 한국전자거래학회지, 2010, 15. 33-47
  4. 이경용 (2022). 참여정부 대통령기록 연구 : 대통령 행사기록을 중심으로. 기록학연구, (71), 131-167 https://doi.org/10.20923/KJAS.2022.71.131
  5. 이승억, 설문원 (2021). 디지털 정보기술 환경에서 보존기록 평가론의 전환, 기록학연구, (67), 157-97
  6. 이영남 (2018). 국가기록혁신과 기록담론, 기록학연구, (56), 49-80 https://doi.org/10.20923/KJAS.2018.56.049
  7. 이지은 (2006). 공공기관의 웹기록 관리방안 연구, 한국외국어대학교 정보기록관리학과, 석사학위논문
  8. 오상훈, 최영선 (2009). ISO14721 OASIS 참조모형을 활용한 웹아카이빙 메타데이터 구조 및 요소 정의. 정보처리학회논문지. 2009. 128(16). 651-660
  9. 차승준, 최윤정, 이규철 (2009). 공공기관 심층 웹기록물 아카이빙을 위한 매타데이터 설계, 한국전자거래학회지, 2009, 14(4). 181-193
  10. 한국무역정보통신 (2018). 디지털 기반 대통령 기록관리 모델 재설계
  11. 한상효 (2018). 영국(TNA)의 웹아카이브 동향조사. 기록인, 2018 Winter. 45. 24-29
  12. 행정안전부 (2021). 웹사이트 발주자.관리자를 위한 행정.공공기관 웹사이트 구축.운영 가이드
  13. 공공기록물 관리에 관한 법률. [법률 제18740호, 2022. 1. 11., 일부개정]
  14. 공공기록물 관리에 관한 법률 시행령. [대통령령 제31380호, 2021. 1. 5., 타법개정]
  15. 도서관법 시행령. [대통령령 제31772호, 2021. 6. 15., 일부개정]
  16. Arcive-it.org, Frequently Asked Questions, website(www.archive-it.org). https://archive-it.org/blog/products-and-services/archive-it-faqs/
  17. Jillian Lohndorf (2017), Archive-It-Crawling-Technology, Archive-It Help Center Website https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology
  18. Wanda Archy (2018), Shedding Light on the Dark Web, ISACA BLOG. https://www.isaca.org/resources/news-and-trends/isaca-now-blog/2018/shedding-light-on-the-dark-web