• 제목/요약/키워드: Heritrix

검색결과 3건 처리시간 0.017초

웹 아카이빙 도구에 관한 연구 (A Study on Web Archiving Tools)

  • 이성숙
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.185-193
    • /
    • 2005
  • 이 연구에서는 웹 아카이빙의 활성화를 위한 기초자료를 제공하기 위하여, 웹 아카이빙 관련 프로젝트에서 사용한 도구들을 살펴보았고, 웹 아카이빙 전용 SW 중에서 하비스팅 도구인 NEDLIB Harvester와 Heritrix, 접근도구인 Wayback Machine과 NWA Toolset을 중심으로 특징과 주요 기능을 검토하였다.

  • PDF

웹아카이빙 도구 비교분석 연구 (Comparative Analysis of Web Archiving Tools)

  • 김희정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2011년도 제18회 학술대회 논문집
    • /
    • pp.95-98
    • /
    • 2011
  • 디지털 자원의 장기보존을 위한 기법과 전략은 지속적인 관심 속에서 개발되어 오고 있다. 특히, 웹 자원에 대한 의존도가 증폭될수록 웹 아카이빙에 대한 중요성이 커지고 있다. 본 연구에서는 IIPC에서 제시하는 웹 아카이빙 체인의 네 단계에 해당하는 각 단계별 웹 아카이빙 툴과 그 특성을 살펴보았다. 대상이 되는 웹 아카이빙 도구는 총 9개로서, Heritrix, DeepArc, Web Curator Tool, NetarchiveSuite, BnFArcTools, Wayback, NutchWAX, WERA 그리고 Xinq 등이다.

  • PDF

원격수집 방식의 웹기록물 관리를 위한 웹수집기 성능 비교 연구 (Comparison of Web Crawler Performance for Web Record Management)

  • 장진호;권혁상;이규모;최동준
    • 기록학연구
    • /
    • 제74호
    • /
    • pp.155-186
    • /
    • 2022
  • 2022년 현재 행정안전부 정부24 웹사이트에 등록된 공공부문 인터넷 웹사이트는 1만 7천여 개이다. 이처럼 많은 웹사이트를 기록으로 관리하기 위해 기록물 생산기관과 기록물관리기관이 상호 간 직접 이관하는 방식은 많은 인적·물적자원을 필요로 한다. 각 웹사이트 구동에 필요한 운영 소프트웨어와 응용소프트웨어 기술을 기록물관리기관이 보유하고 운영하는 것도 현실적으로 어렵다. 이러한 현실적 한계를 극복하기 위해 웹수집 소프트웨어를 이용하여 원격지에서 웹사이트를 자동으로 수집하는 방식이 국내외에서 사용되고 있다. 이 연구는 공공부문 인터넷 웹사이트를 원격으로 수집하여 기록으로 관리할 때 필요한 웹수집기의 성능을 비교하였다. 선행연구 및 문헌조사 등에서 검토한 다수의 웹수집 소프트웨어에 대하여 단계별 검토를 거쳐 가장 적합한 웹수집기를 선정하였다. 성능 평가 과정에는 일부 공공기관 웹사이트를 대상으로 실제 원격 수집 성능을 비교하였다. 이 연구 결과는 웹기록 관리를 위해 웹수집기 선택이 필요한 기관에 실증적이고 구체적인 성능 비교 정보를 제공한다.