• 제목/요약/키워드: 웹크롤링기술

검색결과 33건 처리시간 0.032초

웹 크롤링 기반 SNS웹사이트 설계 및 구현 (Designing and implementing web crawling-based SNS web site)

  • 윤경섭;김연홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제57차 동계학술대회논문집 26권1호
    • /
    • pp.21-24
    • /
    • 2018
  • 기존 Facebook 페이지의 경우에는 수많은 제보 글이 올라와 사용자가 원하는 글을 찾기 어렵다는 문제점이 발생하고 있다. 본 논문에서는 이를 위해 다양한 Facebook 페이지 내용을 크롤링하여 사용자가 원하는 Facebook 페이지 내용을 검색하여 사용자에게 제공할 수 있도록 데이터베이스 서버에 저장 한 후 크롤링 된 Facebook 페이지 내용을 제공할 수 있는 웹사이트를 설계하고 구현한다.

  • PDF

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

크롤링을 이용한 자동매칭 게임톡 웹 서비스 (Automatic Matching Voice Chat Web Service Using Crawling)

  • 반영태;한상욱;이도경;윤건일;이화민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1169-1172
    • /
    • 2019
  • 최근 많은 이용자들이 음성채팅을 이용하여 게임을 즐긴다. 하지만 많은 사람들이 게임 내에서 지원하는 음성 채팅을 사용하지 않고 별도의 음성 프로그램을 사용하고 있다. 현재 게임 내 음성채팅과 외부 음성채팅 모두 편의 기능이 많이 부족하며, 가장 큰 문제점으로는 사용자 본인이 직접 음성 채팅에 참여하는 유저를 구해야 한다는 것이다. 본 논문에서는 이러한 불편한 상황을 없애기 위하여 자동으로 음성 채팅이 가능한 사람을 모집하여 좀 더 편안한 게임 환경을 제공할 수 있는 음성 채팅 웹 서비스를 개발 하였다. 웹 크롤링 기술을 이용하여 외부 커뮤니티등의 구인 글을 크롤링 하여 설정한 조건과 구인 조건이 일치하면 사이트 사용자 뿐 만 아니라 미사용자 간의 매칭도 빠르게 지원 하도록 개발하였다.

링크 분석을 통한 비동기 웹 페이지 크롤링 알고리즘 (Asynchronous Web Crawling Algorithm)

  • 원동현;박혁규;강윤정;이민혜
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.364-366
    • /
    • 2022
  • 웹은 처리 속도가 다른 다양한 정보들을 함께 제공하기 위해 비동기식 웹 기술을 이용한다. 비동기 방식에서는 작업 완료 전에도 다른 이벤트에 응답할 수 있다는 장점이 있으나 일반적인 크롤러는 웹페이지의 방문 시점 정보를 수집함으로 비동기 방식으로 제공되는 정보를 수집하는 데 어려움이 있다. 또한 비동기식 웹 페이지는 페이지 내용이 변경되어도 웹 주소가 변하지 않는 경우도 많아 크롤링하는 데 어려움이 있다. 본 논문에서는 웹의 링크를 분석하여 비동기 방식 페이지 이동을 고려한 웹 크롤링 알고리즘을 제안한다. 제안한 알고리즘으로 비동기 방식으로 정보를 제공하는 TTA의 정보통신용어사전 정보를 수집할 수 있었다.

  • PDF

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 사물인터넷융복합논문지
    • /
    • 제10권1호
    • /
    • pp.21-27
    • /
    • 2024
  • 본 논문에서는 필터링(Filtering)과 웹 크롤링(Web Crawling) 기술을 이용하여 개인 맞춤형 실시간 정보제공 애플리케이션을 구현하였다. 구현한 애플리케이션은 사용자가 설정한 키워드를 웹페이지 내에서 사용자가 선택한 키워드를 기준으로 Jsoup 라이브러리를 통해 웹 크롤링을 수행하고, MySQL 데이터베이스에 저장한다. 저장한 데이터는 Flutter를 이용해 구현한 애플리케이션으로 사용자에게 제공한다. 또한 FCM(Firebase Cloud Messaging)을 이용하여 모바일 푸시 알람을 제공한다. 이를 통해 사용자는 원하는 정보를 빠르고 효율적으로 얻을 수 있다. 또한 빅데이터가 생성되는 사물인터넷(Internet of things)에도 적용하여 사용자에게 필요한 정보만 제공할 수 있을 것으로 기대한다.

심층 웹 문서 수집을 위한 크롤링 알고리즘 설계 (Crawling Algorithm Design for Deep Web Document Collection)

  • 원동현;강윤정;박혁규
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.367-369
    • /
    • 2022
  • 웹 기술이 발전함에 따라 웹은 사용자의 요구에 맞는 맞춤 정보들을 제공하게 된다. 클릭 이벤트나 사용자의 질의어에 따라 정보가 제공되며 검색엔진으로는 검색이 어려운 정보가 제공되는 웹 서비스를 심층웹이라 한다. 이러한 심층웹은 표면웹보다 많은 정보를 포함하고 있지만, 방문 당시의 정보를 수집하는 일반적인 크롤링으로는 정보 수집이 어렵다. 심층웹은 javascript와 같은 스크립트언어를 브라우저에서 실행함으로 서버의 정보를 사용자에게 제공한다. 본 논문에서는 심층웹 수집을 위해 스크립트를 분석하여 동적으로 변화되는 웹사이트의 탐색 및 정보 수집이 가능한 알고리즘을 제안한다. 본 논문에서는 실험을 위해 질병관리청의 게시판의 스크립트를 분석하였다.

  • PDF

웹 크롤링을 사용한 자동화된 이미지 분류 모델 (Automated Image Classification Model Using Web Crawling)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.719-722
    • /
    • 2021
  • 최근 딥러닝은 이미지 인식, 음성 인식 등 여러 분야에서 고려되고 있는 기술이다. 그러나 딥러닝 기술을 이용하기 위해서는 대형데이터 세트가 필요하나 이를 구축하기 힘들고 많은 시간이 필요하다는 문제점이 있다. 이에, 본 논문에서는 웹 크롤링을 통해 사용자가 원하는 카테고리의 이미지 데이터 세트를 수집하고 수집한 데이터들을 전처리 과정을 통해 딥러닝 모델에 입력할 수 있는 데이터 세트의 구축을 자동화하며, 전이학습을 통해서 적은 훈련 시간과 높은 정확도를 얻을 수 있는 이미지 분류모델을 제안한다.

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 권성호;이영탁;김영준;이용두
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.64-72
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이다. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안하고 웹 로봇의 수행동작에 대한 분석 결과를 제공한다. 이러한 분석 결과를 기반으로 향후 웹 크롤러의 성능향상을 위한 설계 방향을 제시한다.

  • PDF

고성능 웹크롤러의 설계 및 구현 (Design and Implementation of a High Performance Web Crawler)

  • 김희철;채수환
    • 디지털콘텐츠학회 논문지
    • /
    • 제4권2호
    • /
    • pp.127-137
    • /
    • 2003
  • 웹크롤러는 인터넷 검색엔진을 포함한 다양한 웹 응용프로그램에 활용되는 중요한 인터넷 소프트웨어 기술이다. 인터넷의 급격한 성장에 따라 고성능 웹크롤러의 구현이 시급히 요구되고 있다. 이를 위해서는 웹크롤러에 대한 성능확장성에 초점을 둔 연구가 수행되어야 한다. 본 논문에서는 병렬 프로세스 기반 웹크롤러(Crawler)의 성능향상에 필수적인 동적 스케줄링의 구현 기법을 제안한다. 웹크롤러는 웹문서의 수집 성능요구를 만족시키기 위하여 일반적으로 다중 프로세스 기반으로 설계되고 있다. 이러한 다중 프로세스 기반의 설계에서 프로세스 별로 문서수집 대상을 적정하게 선택하여 할당하는 크롤 스케줄링(Crawl Scheduling)은 시스템의 성능향상에 매우 중요한 요소이라. 본 논문에서는 먼저 크롤 스케줄링에 있어 중요한 문제점들에 대한 연구 결과를 제시한 후 공유메모리 기반 동적 스케줄링 지원 기법을 고안, 이를 구현하는 웹 크롤러 시스템 구조(Architecture)를 제안한다. 본 논문에서는 동적 스케줄링 지원 기능을 갖는 웹크롤러의 설계 및 구현에 대하여 기술한다.

  • PDF

다크웹 아동 음란물 추적을 위한 연관규칙 기반 키워드 수집체계 (Keyword Collection System based on Association Rules to Track Pornography of Children on Dark Webs)

  • 김진경;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.207-208
    • /
    • 2023
  • 다크웹을 통한 마약, 금융거래, 해킹 등 사이버 범죄가 증가하면서 다크웹 상의 범죄 추적을 위한 사이버 수사 필요성이 증대되고 있다. Tor와 같은 다크웹 접속 브라우저는 강력한 익명성을 제공하기 때문에 주로 다크웹 운영상의 취약점 분석, 악성코드를 활용한 함정수사 기법이 실효성 높은 다크웹 수사 기술로 간주된다. 그러나 사이트 개설 및 폐쇄가 빈번하게 발생하는 다크웹의 특성상 최신 범죄 정보를 수집하기 위해서는 방대한 다크웹 정보를 실시간 수집하고, 능동적으로 검색 키워드를 확장할 수 있는 고도화된 크롤러 기술 개발이 필요하다. 본 논문은 다양한 다크웹 사이트 중, 아동 음란물 사이트를 크롤링을 통해 수집하고, 수집된 텍스트의 연관 분석을 통해 검색 키워드를 확장하는 수집 체계를 제안한다.

  • PDF