• 제목/요약/키워드: Web Crawler Performance Comparison

검색결과 3건 처리시간 0.019초

원격수집 방식의 웹기록물 관리를 위한 웹수집기 성능 비교 연구 (Comparison of Web Crawler Performance for Web Record Management)

  • 장진호;권혁상;이규모;최동준
    • 기록학연구
    • /
    • 제74호
    • /
    • pp.155-186
    • /
    • 2022
  • 2022년 현재 행정안전부 정부24 웹사이트에 등록된 공공부문 인터넷 웹사이트는 1만 7천여 개이다. 이처럼 많은 웹사이트를 기록으로 관리하기 위해 기록물 생산기관과 기록물관리기관이 상호 간 직접 이관하는 방식은 많은 인적·물적자원을 필요로 한다. 각 웹사이트 구동에 필요한 운영 소프트웨어와 응용소프트웨어 기술을 기록물관리기관이 보유하고 운영하는 것도 현실적으로 어렵다. 이러한 현실적 한계를 극복하기 위해 웹수집 소프트웨어를 이용하여 원격지에서 웹사이트를 자동으로 수집하는 방식이 국내외에서 사용되고 있다. 이 연구는 공공부문 인터넷 웹사이트를 원격으로 수집하여 기록으로 관리할 때 필요한 웹수집기의 성능을 비교하였다. 선행연구 및 문헌조사 등에서 검토한 다수의 웹수집 소프트웨어에 대하여 단계별 검토를 거쳐 가장 적합한 웹수집기를 선정하였다. 성능 평가 과정에는 일부 공공기관 웹사이트를 대상으로 실제 원격 수집 성능을 비교하였다. 이 연구 결과는 웹기록 관리를 위해 웹수집기 선택이 필요한 기관에 실증적이고 구체적인 성능 비교 정보를 제공한다.

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

RSS를 이용한 실시간 상품정보 수집시스템의 설계 (System Design for Collecting Real-Time Product Information Using RSS)

  • 뭉크자야;고선우
    • 산업경영시스템학회지
    • /
    • 제35권1호
    • /
    • pp.1-9
    • /
    • 2012
  • It is well known that internet shoppers are very sensitive to sale prices. They visit the various shopping malls and collect the product information including purchase conditions for goods purchase decision-making. Recently the necessity of information support is increasing because of increase of information amount which is necessary and complexity of goods purchase decision-making process. The comparison shopping agent systems have provided price comparison information which is collected from various shopping malls to satisfy internet shoppers information craving. But the frequent price change caused by keen price competition is becoming the primary reason of information quality decline among price comparison sites. RSS which is a family of web feed formats used to publish frequently updated is applied even in on-line shopping malls. This paper develops a RSS product information collection system to get real-time product information. The proposed product information system consists of (1) web crawler module for searching RSS feed shopping malls automatically, (2) RSS reader module for parsing product information from RSS feed file, (3) product DB and (4) product searching module. Performance of the proposed system is higher than the comparison shopping agent systems when it is defined with the volume of collecting product information per unit time.