• 제목/요약/키워드: 웹크롤러

검색결과 14건 처리시간 0.025초

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 김희철;채수환
    • 디지털콘텐츠학회 논문지
    • /
    • 제4권2호
    • /
    • pp.127-137
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이라. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안한다. 본 논문에서는 동적 스케줄링 지원 기능을 갖는 웹크롤러의 설계 및 구현에 대하여 기술한다.

  • PDF

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 권성호;이영탁;김영준;이용두
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.64-72
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이다. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안하고 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 이러한 분석 결과를 기반으로 향후 웹 크롤러의 성능향상을 위한 설계 방향을 제시한다.

  • PDF

웹크롤러의 서버 오버헤드 최적화 시스템 설계 (Web crawler designed utilizing server overhead optimization system)

  • 이종원;김민지;김아용;반태학;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.582-584
    • /
    • 2014
  • 기존의 웹크롤러들은 서버의 오버헤드 부담을 줄이면서 데이터의 무결성을 보장하기 위해 최적화 방안에 대해 지속적으로 발전해왔다. 기하급수적으로 빠르게 늘어가는 데이터의 양과 그 데이터들 중에서 필요한 데이터를 수집해서 사용해야 하는 현대인들에게 웹크롤러는 필수불가결의 존재이다. 본 논문에서는 기존의 웹크롤러 방식과 제안된 웹크롤러 방식의 효율성을 비교 및 분석하였다. 또한, 비교된 결과를 바탕으로 최적화된 기법을 제안하고, 웹크롤러의 데이터 수집 주기를 동적으로 조절하여 서버 오버헤드를 감소시키는 시스템에 대해 설계하였다. 이는 웹크롤러 방식을 사용하는 검색 시스템 분야에 활용될 것이다.

  • PDF

웹크롤러의 비표준 링크에 관한 링크 추출 방안 (A Method of Link Extraction on Non-standard Links in Web Crawling)

  • 정준영;장문수;강선미
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2008년도 춘계학술대회 학술발표회 논문집
    • /
    • pp.79-82
    • /
    • 2008
  • 웹크롤러는 웹페이지 내의 URL링크를 추적하여 다른 문서를 수집한다. 국내의 상당수 웹사이트는 웹 표준에 맞지 않는 링크방식으로 웹문서를 연결하고 있다. 일반적인 웹크롤러는 링크의 비표준적인 사용을 가정하지 않기 때문에 이러한 문서는 수집할 수 없다. 비표준적인 링크가 가능한 것은 사용자의 실수에 강인한 마크업 언어인 HTML에 자바스크립트 기능이 추가되면서 자바스크립트의 변칙적인 사용이 허용되었기 때문이다. 본 논문에서는 230여개의 웹사이트를 조사하여 기존 웹크롤러에서 해결하지 못한 링크 추출 문제를 찾아내고, 이를 수집하기 위한 알고리즘을 제안한다. 또한 자바스크립트 문제 해결을 위한 무거운 자바스크립트 엔진을 대신하여 필요한 기능만으로 구성된 모듈을 사용함으로써 효율적인 문서 수집기 모델을 제안한다.

  • PDF

웹크롤러의 수집주기 최적화 (Refresh Cycle Optimization for Web Crawlers)

  • 조완섭;이정은;최치환
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.30-39
    • /
    • 2013
  • 웹 크롤러는 서버의 부담을 최소화하면서도 최신의 데이터를 웹사이트로부터 수집하고 유지해야 한다. 빅데이터 시대와 같이 데이터가 폭발적으로 증가하는 시대에 데이터 소스로부터 자주 모든 데이터를 추출하는 것은 서버에 심각한 부담을 주게 된다. 무선통신 기술과 다양한 스마트 기기들의 확산으로 정보가 급속도로 생성되고 있으며, 어디에서나 어느 시간이나 지속적으로 생성 및 변경되고 있다. 웹크롤러는 이러한 상황을 감안하여 최신의 정보를 적은 오버헤드로 유지해 나가는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 웹사이트의 변경사항을 체크할 수 있는 효과적인 방안과 웹사이트의 수집 주기를 동적으로 변경함으로써 적은 비용으로 최신성을 유지할 수 있는 방안을 제시한다. 핵심 아이디어는 과거 히스토리로부터 웹사이트 변경이 집중되는 시간을 파악하여 웹수집 주기를 결정하는데 반영한다는 점이다. 논문에서는 특정 웹사이트의 데이터를 추출하는 Java 크롤러를 개발하고, 제안된 방식과 기존 방식의 유용성을 비교하였다. 제안된 기법을 사용하면 정적인 방식보다 서버 오버헤드를 절반정도(46.2%)로 줄이면서도 최신성을 더욱 높게 보장할 수 있게 된다.

데이터셋 생성을 위한 이미지 URI 및 메타데이터 수집 크롤러 (For creating a Dataset Image URI and Metadata Collection Web Crawler)

  • 박준홍;김석진;정연욱;이동욱;정영주;서동만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1082-1084
    • /
    • 2019
  • 인공지능 학습에 대한 관심이 증가하면서 학습에 필요한 데이터셋 구축에 필요한 많은 양의 데이터가 필요하다. 데이터셋 구축에 필요한 데이터들을 효과적으로 수집하기 위한 키워드 기반 웹크롤러를 제안한다. 구글 검색 API 를 기반으로 웹 크롤러를 설계하였으며 사용자가 입력한 키워드를 바탕으로 이미지의 URI 와 메타데이터를 지속적으로 수집하는 크롤러이다. 수집한 URI 와 메타데이터는 데이터베이스를 통해 관리한다. 향후 다른 검색 API 에서도 동작하고 다중 쓰레드를 활용하여 크롤링하는 속도를 높일 예정이다.

왕복시간(Round Trip Time)을 고려한 고성능 웹크롤러 설계 (Design of a High-Performance Web Crawler Considering the Round Trip Time)

  • 정춘호;조현태;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.601-604
    • /
    • 2004
  • 인터넷과 정보기술의 급속적인 발전으로 수천 또는 수억에 달하는 방대하고 다양한 정보들이 웹 상에서 존재하게 되었다. 이러한 다양한 정보들 중에서 이용자가 원하는 정보를 제공하기 위해 다양한 검색시스템들이 개발되었다. 웹 크롤러는 검색시스템의 중요한 부분 중의 하나로, 웹 서버를 순회하며 각 페이지에 있는 수많은 정보를 수집하는 프로그램이다. 본 논문에서는 웹 크롤러의 기본요건 중의 하나인 빠른 수집속도를 보장하기 위해 RTT(Round Trip Time) Scheduling 기법을 적용한 URL 스케줄러를 제시하고, 이러한 RTT Scheduling 기법을 이용한 웹 크롤러를 설계한다.

  • PDF

빅데이터 기반 항공 수요예측 통합 플랫폼 설계 및 실증 (P-TAF: A Big Data-based Platform for Total Air Traffic Forecast)

  • 정주익;손석현;차희준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.281-282
    • /
    • 2021
  • 본 논문에서는 항공 수요예측을 위한 빅데이터 기반 플랫폼의 설계 및 실증 결과를 제시한다. 항공 수요예측 통합 플랫폼은 항공산업 관련 데이터를 Open API, RSS Feed, 웹크롤러(Web Crawler) 등을 이용하여 수집 및 분석하여 자체 개발한 항공 수요예측 알고리즘을 기반으로 결과를 시각화하여 보여주도록 구현되어 있다. 또한, 제안하는 플랫폼의 사용자 인터페이스를 통해 변수 설정을 하여 단위별(Global, National 등), 기간별(단기, 중장기 등), 유형별(여객, 화물 등) 예측 통계 자료를 도출할 수 있다. 플랫폼의 성능 검증을 위해 정형화된 데이터를 비롯하여 소셜네트워크서비스(SNS), 검색엔진 등에서 수집한 비정형 데이터까지 활용하여 특정 키워드의 빈도와 특정 노선에 대한 항공 수요간 상관관계를 분석하였다. 개발한 통합 플랫폼의 지능형 항공 수요예측 알고리즘을 통해 전반적인 공항 운영 및 공항 운영 정책 수립에 기여할 것으로 예상한다.

  • PDF

다양한 계층 트리 구조를 갖는 쇼핑몰 상에서의 상품평 수집을 위한 웹 크롤러 래퍼의 설계 및 구현 (Design and Implementation of Web Crawler Wrappers to Collect User Reviews on Shopping Mall with Various Hierarchical Tree Structure)

  • 강한훈;유성준;한동일
    • 한국지능시스템학회논문지
    • /
    • 제20권3호
    • /
    • pp.318-325
    • /
    • 2010
  • 본 논문에서는 다 계층 구조와 다양한 웹 언어로 구성된 한국내 쇼핑몰로부터 상품평 수집을 위한 래퍼 데이터베이스 기술 언어 및 모델을 제안한다. 기존에 제안된 래퍼 기반 웹 크롤러는 HTML 문서를 수집할 수 있고, 수집 대상으로 하는 문서의 계층 구조는 2~3계층이다. 그러나 한국형 쇼핑몰 사이트는 HTML 문서뿐만 아니라 다양한 웹 언어(JavaScript, Flash, AJAX)로 구성되어 있고, 그 계층 또한 5계층으로 이루어졌다. 웹크롤러가 이 5 계층 사이트에 있는 상품평만을 수집하려고 하면 상품평이 있는 위치를 정확히 알고 있으면 된다. 우리가 제안하는 래퍼에는 이러한 정보를 포함하고 있도록 하였고, 이러한 정보를 기술하기 위해 필요한 래퍼 데이터 기술 문법도 제안한다.

신뢰성 유지를 위한 이벤트 기반 실시간 웹크롤러의 설계 및 구현 (Design and Implementation of Event-driven Real-time Web Crawler to Maintain Reliability)

  • 안용학
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-6
    • /
    • 2022
  • 웹 크롤링 데이터를 이용한 실시간 시스템은 원격지의 데이터와 동일한 데이터베이스의 데이터를 사용자에게 제공해야 하며, 이를 위해서 웹 크롤러는 원격지 데이터의 변경 여부를 확인하기 위해 원격 서버에 반복적인 HTTP(HyperText Transfer Protocol) 요청을 수행해야 한다. 이 과정은 크롤링 서버와 원격 서버의 네트워크 부하를 일으키며 과도한 트래픽 발생 등의 문제의 원인이 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 사용자 이벤트를 기반으로 크롤링 서버의 데이터와 다중 원격지 데이터와의 동일성을 유지하는 신뢰성을 확보함과 동시에 네트워크의 과부하를 줄일 수 있는 실시간 웹 크롤링 기법을 제안한다. 제안된 방법은 단위 데이터와 목록 데이터를 요청하는 이벤트를 기반으로 크롤링 프로세스를 수행한다. 실험 결과, 제안된 방법은 기존 웹 크롤러에서의 네크워크 트래픽 과부하를 줄이면서 데이터의 신뢰성을 확보할 수 있음을 확인하였다. 향후에는 이벤트 기반 크롤링과 시간 기반 크롤링에 대한 융합에 대한 연구가 필요하다.