• 제목/요약/키워드: 웹 크롤링

검색결과 114건 처리시간 0.025초

그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들 (Effective Web Crawling Orderings from Graph Search Techniques)

  • 김진일;권유진;김진욱;김성렬;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.27-34
    • /
    • 2010
  • 웹 크롤러는 웹에서 링크를 따라다니며 웹 페이지들을 자동으로 다운로드하는 프로그램으로 주로 웹 환경을 연구하거나 검색 엔진을 만들기 위해 사용된다. 기존의 연구들에서는 웹 크롤러가 인기 있는 웹 페이지들을 먼저 크롤링 할 수 있도록 몇 가지 방법들이 제안되었으나 그래프 이론 분야에서 연구되어 온 몇몇 그래프 탐색 기법들은 아직 웹 크롤링 방법으로 고려되지 않았다. 이 논문에서는 잘 알려진 너비 우선 탐색, 깊이 우선 탐색 뿐 아니라 사전식 너비 우선 탐색, 사전식 깊이 우선 탐색 및 최대 크기 탐색을 웹 크롤링 방법으로 고려하여 이 중에서 선형적인 시간복잡도를 가지면서도 인기 있는 웹 페이지를 효율적으로 수집할 수 있는 웹 크롤링 방법을 찾는다. 특히 선형 구현이 단순하지 않은 최대 크기 탐색과 사전식 너비 우선 탐색에 대해서는 분할 정제 방법을 이용한 선형 시간 웹 크롤링 방법을 제시한다. 실험 결과는 최대 크기 탐색이 다른 그래프 탐색 방법에 비해 시간 복잡도 및 크롤링 된 페이지들의 질에 있어서 바람직한 성질을 가짐을 보여준다.

최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안 (A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms)

  • 나철원;온병원
    • 인터넷정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.43-59
    • /
    • 2019
  • 오늘날 스마트폰의 보급과 SNS의 발달로 정형/비정형 빅데이터는 기하급수적으로 증가하였다. 이러한 빅데이터를 잘 분석한다면 미래 예측도 가능할 만큼 훌륭한 정보를 얻을 수 있다. 빅데이터를 분석하기 위해서는 먼저 대용량의 데이터 수집이 필요하다. 이러한 데이터가 가장 많이 저장되어 있는 곳은 바로 웹 페이지다. 하지만 데이터의 양이 방대하기 때문에 유용한 정보를 가진 데이터가 많은 만큼 필요하지 않은 정보를 가진 데이터도 많이 존재한다. 그렇기 때문에 필요하지 않은 정보를 가진 데이터는 거르고 유용한 정보를 가진 데이터만을 수집하는 효율적인 데이터 수집의 중요성이 대두되었다. 웹 크롤러는 네트워크 대역폭, 시간적인 문제, 하드웨어적인 저장소 등의 제약으로 인해 모든 페이지를 다운로드 할 수 없다. 그렇기 때문에 원하는 내용과 관련 없는 많은 페이지들의 방문은 피하며 가능한 빠른 시간 내에 중요한 페이지만을 다운로드해야한다. 이 논문은 위와 같은 이슈의 해결을 돕고자한다. 먼저 기본적인 웹 크롤링 알고리즘들을 소개한다. 각 알고리즘마다 시간복잡도와 장단점을 설명하며 비교 및 분석한다. 다음으로 기본적인 웹 크롤링 알고리즘의 단점을 개선한 최신 웹 크롤링 알고리즘들을 소개한다. 더불어 최근 연구 흐름을 보면 감성어휘 수집과 같은 특수한 목적을 가진 웹 크롤링 알고리즘의 대한 연구가 활발히 이루어지고 있다. 특수 목적을 가진 웹 크롤링 알고리즘에 대한 연구로써 선제적인 웹 크롤링 기법으로 감성 반응 웹 크롤링(Sentiment-aware Web Crawling) 기법을 소개한다. 실험결과 데이터의 크기가 커질수록 기존방안보다 높은 성능을 보였고 데이터베이스의 저장 공간도 절약되었다.

웹페이지에서의 상품 데이터 추출을 위한 동적, 정적 크롤링 비교 및 활용 (Comparison and Application of Dynamic and Static Crawling for Extracting Product Data from Web Pages)

  • 김상혁;김정훈;이승대
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1277-1284
    • /
    • 2023
  • 본 논문에서는 소비자들이 편의점에서 진행 중인 행사상품에 대해 접근하기 쉬운 웹페이지를 제작하였다. 제작하는 과정에서 행사상품의 데이터를 추출하는 두 가지 크롤링 방식인 정적 크롤링과 동적 크롤링을 비교 및 활용하였다. 정적 크롤링은 홈페이지에서 정적인 데이터를 수집하는 추출 방식이고 동적 크롤링은 웹 페이지에서 동적으로 생성되는 페이지의 데이터를 수집하는 추출하는 방식이다. 두 크롤링에 대한 비교를 통해 행사상품 데이터를 추출하는 데에 있어 어떤 크롤링 방식이 더 효과적인 방식인지에 대해 연구하였다. 그 중 효과적인 정적 크롤링을 이용해 웹 페이지를 제작하였으며, 소비자들이 더 손쉽게 확인할 수 있도록 1+1, 2+1 상품들을 카테고리화 하였고 검색기능을 넣어 웹페이지를 제작하였다.

웹 크롤링 기반 SNS웹사이트 설계 및 구현 (Designing and implementing web crawling-based SNS web site)

  • 윤경섭;김연홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.21-24
    • /
    • 2018
  • 기존 Facebook 페이지의 경우에는 수많은 제보 글이 올라와 사용자가 원하는 글을 찾기 어렵다는 문제점이 발생하고 있다. 본 논문에서는 이를 위해 다양한 Facebook 페이지 내용을 크롤링하여 사용자가 원하는 Facebook 페이지 내용을 검색하여 사용자에게 제공할 수 있도록 데이터베이스 서버에 저장 한 후 크롤링 된 Facebook 페이지 내용을 제공할 수 있는 웹사이트를 설계하고 구현한다.

  • PDF

신뢰성 유지를 위한 이벤트 기반 실시간 웹크롤러의 설계 및 구현 (Design and Implementation of Event-driven Real-time Web Crawler to Maintain Reliability)

  • 안용학
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.1-6
    • /
    • 2022
  • 웹 크롤링 데이터를 이용한 실시간 시스템은 원격지의 데이터와 동일한 데이터베이스의 데이터를 사용자에게 제공해야 하며, 이를 위해서 웹 크롤러는 원격지 데이터의 변경 여부를 확인하기 위해 원격 서버에 반복적인 HTTP(HyperText Transfer Protocol) 요청을 수행해야 한다. 이 과정은 크롤링 서버와 원격 서버의 네트워크 부하를 일으키며 과도한 트래픽 발생 등의 문제의 원인이 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 사용자 이벤트를 기반으로 크롤링 서버의 데이터와 다중 원격지 데이터와의 동일성을 유지하는 신뢰성을 확보함과 동시에 네트워크의 과부하를 줄일 수 있는 실시간 웹 크롤링 기법을 제안한다. 제안된 방법은 단위 데이터와 목록 데이터를 요청하는 이벤트를 기반으로 크롤링 프로세스를 수행한다. 실험 결과, 제안된 방법은 기존 웹 크롤러에서의 네크워크 트래픽 과부하를 줄이면서 데이터의 신뢰성을 확보할 수 있음을 확인하였다. 향후에는 이벤트 기반 크롤링과 시간 기반 크롤링에 대한 융합에 대한 연구가 필요하다.

악성코드 탐지 시스템 Web-Anti-Malware (Web-Anti-MalWare Malware Detection System)

  • 정승일;김현우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제50차 하계학술대회논문집 22권2호
    • /
    • pp.365-367
    • /
    • 2014
  • 최근 웹 서비스의 증가와 악성코드는 그 수를 판단 할 수 없을 정도로 빠르게 늘어나고 있다. 매년 늘어나는 악성코드는 금전적 이윤 추구가 악성코드의 주된 동기가 되고 있으며 이는 공공기관 및 보안 업체에서도 악성코드를 탐지하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 실시간으로 패킷을 분석할수 있는 필터링과 웹 크롤링을 통해 도메인 및 하위 URL까지 자동적으로 탐지할 수 있는 악성코드 탐지 시스템을 제안한다.

  • PDF

빅데이터 분석 기반의 정보 검색을 위한 웹 크롤러 서비스 구현 (Web Crawler Service Implementation for Information Retrieval based on Big Data Analysis)

  • 김희숙;한나;임숙자
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권5호
    • /
    • pp.933-942
    • /
    • 2017
  • 본 논문에서는 대학생 및 취업준비생의 대외활동, 공모전, 장학금에 대한 효율적인 정보 수집을 위한 웹 크롤러 서비스 방식을 제안한다. 제안된 웹 크롤러 서비스는 빠른 속도로 크롤링하면서 중복해서 크롤링되는 문제를 회피하기 위하여 Jsoup 트리 분석과 Json 형식의 데이터 전송 방식을 이용하였다. 24시간 동안 관련 정보를 수집한 결과 100%의 정확도로 웹 크롤러 서비스가 실행되고 있음을 확인할 수 있었다. 향후 제안된 웹 크롤러 서비스를 적용할 수 있는 웹 페이지 범위를 확대하여 다양한 웹 사이트에 동시에 적용할 수 있도록 개선하면 웹 크롤러 서비스의 양적 내용을 보충할 수 있을 것으로 기대한다.

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

웹 크롤링과 이미지 색상 추출 인공지능을 이용한 향수 추천 서비스 구현 (Implementation of perfume recommendation service using web crawling and image color extraction artificial intelligence)

  • 김유진;이예림;정성윤;조유진;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.758-759
    • /
    • 2023
  • 이 논문에서는 웹 크롤링과 인공지능의 색상 추출 기능을 사용하여 사용자에게 맞는 향수를 추천해주는 서비스를 구현한다. 웹 사이트 제작에 용이한 Java 와 웹 크롤링과 인공지능 구현에 용이한 Python 을 기반으로 구현하였다.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.295-296
    • /
    • 2023
  • 본 논문에서는 웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션에 관해 연구하였다. 본 서비스는 Java의 Jsoup 라이브러리를 이용해서 웹 크롤링(Web Crawling)한 데이터를 MySQL에 저장한다. 이를 통해 사용자가 지정한 키워드를 필터링하여 사용자에게 정보를 제공한다. 예를 들어 사용자가 지정한 키워드 관련 공지 사항이 업데이트되면 구현한 앱 내에서 확인 가능하며, KakaoTalk 알림톡을 통해서도 업데이트된 정보를 실시간으로 전송받는 서비스를 구현하였다.