• Title/Summary/Keyword: 크롤링

Search Result 220, Processing Time 0.024 seconds

Comparison and Application of Dynamic and Static Crawling for Extracting Product Data from Web Pages (웹페이지에서의 상품 데이터 추출을 위한 동적, 정적 크롤링 비교 및 활용)

  • Sang-Hyuk Kim;Jeong-Hoon Kim;Seung-Dae Lee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.6
    • /
    • pp.1277-1284
    • /
    • 2023
  • In this paper, a web page that is easy for consumers to access event products in progress at convenience stores was created. In the production process, static crawling and dynamic crawling, two crawling methods for extracting data from event products, were compared and used. Static crawling is an extraction method of collecting static data from a homepage, and dynamic crawling is a method of collecting data from pages dynamically generated from a web page. Through the comparison of the two crawlings, we studied which crawl method is more effective in extracting event product data. Among them, a web page was created using effective static crawling, and 1+1 and 2+1 products were categorized and a search function was added to create a web page.

Designing and implementing web crawling-based SNS web site (웹 크롤링 기반 SNS웹사이트 설계 및 구현)

  • Yoon, Kyung Seob;Kim, Yeon Hong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.21-24
    • /
    • 2018
  • 기존 Facebook 페이지의 경우에는 수많은 제보 글이 올라와 사용자가 원하는 글을 찾기 어렵다는 문제점이 발생하고 있다. 본 논문에서는 이를 위해 다양한 Facebook 페이지 내용을 크롤링하여 사용자가 원하는 Facebook 페이지 내용을 검색하여 사용자에게 제공할 수 있도록 데이터베이스 서버에 저장 한 후 크롤링 된 Facebook 페이지 내용을 제공할 수 있는 웹사이트를 설계하고 구현한다.

  • PDF

A proposal on a proactive crawling approach with analysis of state-of-the-art web crawling algorithms (최신 웹 크롤링 알고리즘 분석 및 선제적인 크롤링 기법 제안)

  • Na, Chul-Won;On, Byung-Won
    • Journal of Internet Computing and Services
    • /
    • v.20 no.3
    • /
    • pp.43-59
    • /
    • 2019
  • Today, with the spread of smartphones and the development of social networking services, structured and unstructured big data have stored exponentially. If we analyze them well, we will get useful information to be able to predict data for the future. Large amounts of data need to be collected first in order to analyze big data. The web is repository where these data are most stored. However, because the data size is large, there are also many data that have information that is not needed as much as there are data that have useful information. This has made it important to collect data efficiently, where data with unnecessary information is filtered and only collected data with useful information. Web crawlers cannot download all pages due to some constraints such as network bandwidth, operational time, and data storage. This is why we should avoid visiting many pages that are not relevant to what we want and download only important pages as soon as possible. This paper seeks to help resolve the above issues. First, We introduce basic web-crawling algorithms. For each algorithm, the time-complexity and pros and cons are described, and compared and analyzed. Next, we introduce the state-of-the-art web crawling algorithms that have improved the shortcomings of the basic web crawling algorithms. In addition, recent research trends show that the web crawling algorithms with special purposes such as collecting sentiment words are actively studied. We will one of the introduce Sentiment-aware web crawling techniques that is a proactive web crawling technique as a study of web crawling algorithms with special purpose. The result showed that the larger the data are, the higher the performance is and the more space is saved.

Effective Web Crawling Orderings from Graph Search Techniques (그래프 탐색 기법을 이용한 효율적인 웹 크롤링 방법들)

  • Kim, Jin-Il;Kwon, Yoo-Jin;Kim, Jin-Wook;Kim, Sung-Ryul;Park, Kun-Soo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.37 no.1
    • /
    • pp.27-34
    • /
    • 2010
  • Web crawlers are fundamental programs which iteratively download web pages by following links of web pages starting from a small set of initial URLs. Previously several web crawling orderings have been proposed to crawl popular web pages in preference to other pages, but some graph search techniques whose characteristics and efficient implementations had been studied in graph theory community have not been applied yet for web crawling orderings. In this paper we consider various graph search techniques including lexicographic breadth-first search, lexicographic depth-first search and maximum cardinality search as well as well-known breadth-first search and depth-first search, and then choose effective web crawling orderings which have linear time complexity and crawl popular pages early. Especially, for maximum cardinality search and lexicographic breadth-first search whose implementations are non-trivial, we propose linear-time web crawling orderings by applying the partition refinement method. Experimental results show that maximum cardinality search has desirable properties in both time complexity and the quality of crawled pages.

Design and Implementation of Event-driven Real-time Web Crawler to Maintain Reliability (신뢰성 유지를 위한 이벤트 기반 실시간 웹크롤러의 설계 및 구현)

  • Ahn, Yong-Hak
    • Journal of the Korea Convergence Society
    • /
    • v.13 no.4
    • /
    • pp.1-6
    • /
    • 2022
  • Real-time systems using web cralwing data must provide users with data from the same database as remote data. To do this, the web crawler repeatedly sends HTTP(HtypeText Transfer Protocol) requests to the remote server to see if the remote data has changed. This process causes network load on the crawling server and remote server, causing problems such as excessive traffic generation. To solve this problem, in this paper, based on user events, we propose a real-time web crawling technique that can reduce the overload of the network while securing the reliability of maintaining the sameness between the data of the crawling server and data from multiple remote locations. The proposed method performs a crawling process based on an event that requests unit data and list data. The results show that the proposed method can reduce the overhead of network traffic in existing web crawlers and secure data reliability. In the future, research on the convergence of event-based crawling and time-based crawling is required.

Subject oriented crawlling method (주제 중심의 크롤링 방법)

  • Lee, Won-Seob;Shin, Jea-Moon;Lim, Ji-Ho;Kim, Dan-I;Cho, Kyung-Ill
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.371-373
    • /
    • 2017
  • 크롤링을 통해서 주제와 관련된 데이터를 판단한다. 주제와 관련성을 위해서 가중치를 사용하고 정확도와 크롤링 속도를 위해 응집력과 중복성 검사 등을 사용한다.

A Design and Implementation of Disaster Text Crawling and Visualization Application (재난 문자 크롤링 및 시각화 애플리케이션 설계 및 구현)

  • Lee, Won Joo;Park, Bong Kyun;Park, Mun Kyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.89-90
    • /
    • 2021
  • 본 논문에서는 Python과 Selenium 라이브러리 기반의 재난 문자 크롤링 및 데이터 시각화 애플리케이션을 설계하고 구현한다. 이 애플리케이션의 특징은 웹상에서 재난 문자 데이터를 크롤링(Crawling)하여 그 빈도수에 따라 시각화하는 것이다. 이 애플리케이션을 활용하여 국민재난안전포털에 접속하여 재난 문자 데이터를 크롤링하고, 그 데이터를 Word Cloud를 활용하여 지역별 재난 문자 빈도수를 시각화한다. 지역별 재난 문자 빈도수를 한눈에 보기 쉽게 시각화함으로써 재난문자를 잘 확인하지 않는 사람들에게 해당 지역의 재난 정보를 쉽게 전달하는 기능을 제공한다.

  • PDF

Information-providing Application Based on Web Crawling (웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션)

  • Ju-Hyeon Kim;Jeong-Eun Choi;U-Gyeong Shin;Min-Jun Piao;Tae-Kook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.295-296
    • /
    • 2023
  • 본 논문에서는 웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션에 관해 연구하였다. 본 서비스는 Java의 Jsoup 라이브러리를 이용해서 웹 크롤링(Web Crawling)한 데이터를 MySQL에 저장한다. 이를 통해 사용자가 지정한 키워드를 필터링하여 사용자에게 정보를 제공한다. 예를 들어 사용자가 지정한 키워드 관련 공지 사항이 업데이트되면 구현한 앱 내에서 확인 가능하며, KakaoTalk 알림톡을 통해서도 업데이트된 정보를 실시간으로 전송받는 서비스를 구현하였다.

A Study on Twitter Crawling Techniques for Tracking Digital Sexual Crimes (디지털 성범죄 추적을 위한 트위터 크롤링 기법 연구)

  • Hyeon-Woo Lee;Su-Bin Lee;Dong-Hwi An;Jiyeon Kim;Chang-Hoon Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.203-205
    • /
    • 2023
  • 소셜미디어 사용이 증가하면서 성 착취물, 불법 촬영물과 같은 디지털 성범죄 또한 확산되는 추세이다. 소셜미디어에서 검색어 차단 정책 등을 통해 디지털 성범죄를 제재하기 위한 노력이 이루어지고 있으나, 은어 및 다양한 변형어를 사용한 우회 검색을 모두 차단하는 것이 어려울 뿐 아니라, 단시간에도 방대한 양의 데이터가 생성되는 소셜미디어 특성상 범죄 관련 게시글을 모두 식별해 내는 것이 현실적으로 불가능하다. 따라서 능동적이고 고도화된 크롤링 기술 개발을 통해 소셜미디어상의 범죄를 실시간 탐지하는 연구가 필요하다. 본 논문에서는 디지털 성범죄 관련 데이터가 빈번하게 관찰되는 트위터를 대상으로 성 착취물 및 불법 촬영물 정보를 수집하기 위한 검색 키워드를 정의하고, 실제 트위터 크롤링을 수행하여 텔레그램, 디스코드, 라인 등과 같은 다른 소셜미디어에 성범죄물이 유포되는 정황을 URL, 코드, 해시태그 추출을 통해 확보하는 수사 기술을 개발한다.

  • PDF

Web-Anti-MalWare Malware Detection System (악성코드 탐지 시스템 Web-Anti-Malware)

  • Jung, Seung-il;Kim, Hyun-Woo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.365-367
    • /
    • 2014
  • 최근 웹 서비스의 증가와 악성코드는 그 수를 판단 할 수 없을 정도로 빠르게 늘어나고 있다. 매년 늘어나는 악성코드는 금전적 이윤 추구가 악성코드의 주된 동기가 되고 있으며 이는 공공기관 및 보안 업체에서도 악성코드를 탐지하기 위한 연구가 활발히 진행되고 있다. 본 논문에서는 실시간으로 패킷을 분석할수 있는 필터링과 웹 크롤링을 통해 도메인 및 하위 URL까지 자동적으로 탐지할 수 있는 악성코드 탐지 시스템을 제안한다.

  • PDF