• 제목/요약/키워드: Crawler

검색결과 199건 처리시간 0.026초

딥러닝 전이학습을 이용한 경량 트렌드 분석 시스템 설계 및 구현 (Design and implementation of trend analysis system through deep learning transfer learning)

  • 신종호;안수빈;박태영;방승철;노기섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.87-89
    • /
    • 2022
  • 최근 코로나로 인해 집에 있는 시간이 많아진 소비자들이 증가함에 따라 비대면으로 쉽게 사용 할 수 있는 SNS와 OTT등 디지털 소비를 하는 시간이 자연스럽게 늘어났다. 코로나가 발생한 2019년 이후 디지털 소비는 44%에서 82%로 두 배가량 증가하였고 트렌드가 빠르게 변화하는 디지털 특성상 소비자들의 감성을 분석하여 트렌드를 신속, 정확하게 파악하여 적용하는 것은 중요하다. 그러나 대기업 수준의 시스템이 아닌 소규모 시스템에서 감성분석을 활용한 서비스를 실제로 구현하기에는 제약 사항이 있으며 실제 서비스 되는 경우도 많지 않다. 하지만 소규모 시스템이라도 간편하게 소비자들 트렌드 분석을 할 수 있다면 빠르게 변화하는 현대사회에 도움이 될 것이다. 본 논문에서는 BERT Model의 Transfer Learning(Fine Tuning)을 통해 학습 네트워크를 구축하고, 실시간 데이터 수집을 위한 Crawler를 연동하는 경량 트렌드 분석 시스템을 제안한다.

  • PDF

웹 자원 아카이빙을 위한 웹 크롤러 연구 개발 (Development of Web Crawler for Archiving Web Resources)

  • 김광영;이원구;이민호;윤화묵;신성호
    • 한국콘텐츠학회논문지
    • /
    • 제11권9호
    • /
    • pp.9-16
    • /
    • 2011
  • 웹 자원은 아직 수집, 보존, 활용에 대한 방안이 없어서 일정 기간의 서비스가 끝나면 사라져 버리는 문제점이 있다. 이런 웹 자원들은 중요성에 관계없이 주기적 또는 비주기적으로 갱신되거나 소멸된다. 따라서 웹 자원을 수집하고 보존하기위한 웹 아카이빙 시스템이 요구되고 있다. 이러한 웹 자원들을 주기적으로 수집하기 위해서는 웹 아카이빙 전용 크롤러의 개발이 필요하다. 따라서 본 연구에서는 웹 자원의 아카이빙 수집을 위해서 사용되는 기존의 웹 크롤러의 장단점을 분석하고 이것을 이용하여 웹 정보자원을 수집하기 위한 가장 적합한 수집 도구 시스템을 연구하고 개발하였다.

중량물 설치 시 이동식 크레인 기종선정에 관한 연구 (HA Study on the Selection of Mobile Crane Model for Heavy Equipments Installation)

  • 정재복;유호선
    • 플랜트 저널
    • /
    • 제8권2호
    • /
    • pp.59-69
    • /
    • 2012
  • This study focuses on avoiding the failures from the wrong selections by experiences as simulation programs is not available, and suggests the methods which effectively select the alternatives when the selected model is not appropriate for the original plan. First, CC8800-1K of DEMAG has the longest boom whose length is 216 m at the maximum. The combination of the boom is feasible to second level except for MANITIWOC M 2250 (M-1200 RINGER) which is possible to third level. Second, the angle of boom is from 20 degrees to 82 degrees. Suitable angle to work is in the 55-78 degrees. The working load of crawler type and hydraulic one to be applied is 75-85% in the critical loads capacity. As increasing operating radius, crawler type is a favorable position over hydraulic one. Lastly, related problems were verified through examination by suggestions for the design of the selection methods for the case analysis. The major problems are stemming from the selection based on its experiences, unreasonable demand for the existing facility and repeated selections by the designer who accumulates his experiences via same or similar projects.

  • PDF

온라인 소셜네트워크를 통한 한국인의 정치성향 예측 기법의 연구 (A Study on Political Attitude Estimation of Korean OSN Users)

  • 무하마드 에카 위자야;안희준
    • 한국산업정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.1-11
    • /
    • 2016
  • 본 연구는 Facebook 사용자들의 Like활동 정보를 사용하여 정치성향을 예측하기 위한 분석 모델과 프로그램를 개발하였다. Facebook의 Ajax사용 특성 을 반영한 Facebook 크로울러를 개발하였으며, 이를 사용하여 수집된 성기고 방대한 데이터의 상관 매트릭스 정보를 효과적의 축소하기 위한 카테고리 레벨 필터링 기법을 개발하였다. 대한민국 사용자들을 대상으로 LCA (Latent class analysis) 분석한 결과 28 개의 기준 (전체 대상페이지의 3% 미만) 으로 사용자의 정치적인 극성을 상당히 정확하게 (AUC of 0.82) 예측할 수 있음을 확인하였다.

동시성으로 작성하는 파이썬 크롤러 (Modern Concurrent Programming for Multicode Environment)

  • 김남규;강영진;이훈재
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.430-433
    • /
    • 2017
  • 동시성을 보장하는 프로그래밍은 개발자에게 있어서 필수적이다. 이를 사용하지 않는다면 하드웨어 자체의 기술 발전이 있지 않는 한 프로그램의 속도 향상을 기대하기 힘들다. 뛰어난 동시성 코드를 지원하는 프로그래밍 언어로 go, elixir, scala 등이 있다. 수많은 유용한 라이브러리를 지원하는 파이썬 역시 asyncio나 coroutine과 같은 동시성 프로그래밍을 지원하고 있다. 본 지에서는 동시성과 병렬성의 개념을 정의하며, 파이썬에서 동시성 프로그래밍을 작성할 시에 유의해야 할 점에 대해 설명한다. 웹 데이터를 수집하는 크롤러를 동시성 코드로 작성하여 순차, 멀티스레딩 코드로 작성된 프로그램과 성능을 비교한다.

  • PDF

Design and Implementation of Web Crawler utilizing Unstructured data

  • Tanvir, Ahmed Md.;Chung, Mokdong
    • 한국멀티미디어학회논문지
    • /
    • 제22권3호
    • /
    • pp.374-385
    • /
    • 2019
  • A Web Crawler is a program, which is commonly used by search engines to find the new brainchild on the internet. The use of crawlers has made the web easier for users. In this paper, we have used unstructured data by structuralization to collect data from the web pages. Our system is able to choose the word near our keyword in more than one document using unstructured way. Neighbor data were collected on the keyword through word2vec. The system goal is filtered at the data acquisition level and for a large taxonomy. The main problem in text taxonomy is how to improve the classification accuracy. In order to improve the accuracy, we propose a new weighting method of TF-IDF. In this paper, we modified TF-algorithm to calculate the accuracy of unstructured data. Finally, our system proposes a competent web pages search crawling algorithm, which is derived from TF-IDF and RL Web search algorithm to enhance the searching efficiency of the relevant information. In this paper, an attempt has been made to research and examine the work nature of crawlers and crawling algorithms in search engines for efficient information retrieval.

링크 분석을 통한 비동기 웹 페이지 크롤링 알고리즘 (Asynchronous Web Crawling Algorithm)

  • 원동현;박혁규;강윤정;이민혜
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.364-366
    • /
    • 2022
  • 웹은 처리 속도가 다른 다양한 정보들을 함께 제공하기 위해 비동기식 웹 기술을 이용한다. 비동기 방식에서는 작업 완료 전에도 다른 이벤트에 응답할 수 있다는 장점이 있으나 일반적인 크롤러는 웹페이지의 방문 시점 정보를 수집함으로 비동기 방식으로 제공되는 정보를 수집하는 데 어려움이 있다. 또한 비동기식 웹 페이지는 페이지 내용이 변경되어도 웹 주소가 변하지 않는 경우도 많아 크롤링하는 데 어려움이 있다. 본 논문에서는 웹의 링크를 분석하여 비동기 방식 페이지 이동을 고려한 웹 크롤링 알고리즘을 제안한다. 제안한 알고리즘으로 비동기 방식으로 정보를 제공하는 TTA의 정보통신용어사전 정보를 수집할 수 있었다.

  • PDF

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.