• Title/Summary/Keyword: 웹 크롤링

Search Result 115, Processing Time 0.025 seconds

Asynchronous Web Crawling Algorithm (링크 분석을 통한 비동기 웹 페이지 크롤링 알고리즘)

  • Won, Dong-Hyun;Park, Hyuk-Gyu;Kang, Yun-Jeong;Lee, Min-Hye
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.364-366
    • /
    • 2022
  • The web uses an asynchronous web method to provide various information having different processing speeds together. The asynchronous method has the advantage of being able to respond to other events even before the task is completed, but a typical crawler has difficulty collecting information provided asynchronously by collecting point-of-visit information on a web page. In addition, asynchronous web pages often do not change their web address even if the page content is changed, making it difficult to crawl. In this paper, we propose a web crawling algorithm considering asynchronous page movement by analyzing links in the web. With the proposed algorithm, it was possible to collect dictionary information on TTA terms that provide information asynchronously.

  • PDF

Automatic Matching Voice Chat Web Service Using Crawling (크롤링을 이용한 자동매칭 게임톡 웹 서비스)

  • Ban, Yeong-Tae;Han, Sang-Wook;Lee, Doou-Kyung;Yun, Geon-Il;Lee, Hwa-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1169-1172
    • /
    • 2019
  • 최근 많은 이용자들이 음성채팅을 이용하여 게임을 즐긴다. 하지만 많은 사람들이 게임 내에서 지원하는 음성 채팅을 사용하지 않고 별도의 음성 프로그램을 사용하고 있다. 현재 게임 내 음성채팅과 외부 음성채팅 모두 편의 기능이 많이 부족하며, 가장 큰 문제점으로는 사용자 본인이 직접 음성 채팅에 참여하는 유저를 구해야 한다는 것이다. 본 논문에서는 이러한 불편한 상황을 없애기 위하여 자동으로 음성 채팅이 가능한 사람을 모집하여 좀 더 편안한 게임 환경을 제공할 수 있는 음성 채팅 웹 서비스를 개발 하였다. 웹 크롤링 기술을 이용하여 외부 커뮤니티등의 구인 글을 크롤링 하여 설정한 조건과 구인 조건이 일치하면 사이트 사용자 뿐 만 아니라 미사용자 간의 매칭도 빠르게 지원 하도록 개발하였다.

Information-providing Application Based on Web Crawling (웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션)

  • Ju-Hyeon Kim;Jeong-Eun Choi;U-Gyeong Shin;Min-Jun Piao;Tae-Kook Kim
    • Journal of Internet of Things and Convergence
    • /
    • v.10 no.1
    • /
    • pp.21-27
    • /
    • 2024
  • This paper presents the implementation of a personalized real-time information-providing application utilizing filtering and web crawling technologies. The implemented application performs web crawling based on the user-set keywords within web pages, using the Jsoup library as a basis for the selected keywords. The crawled data is then stored in a MySQL database. The stored data is presented to the user through an application implemented using Flutter. Additionally, mobile push notifications are provided using Firebase Cloud Messaging (FCM). Through these methods, users can efficiently obtain the desired information quickly. Furthermore, there is an expectation that this approach can be applied to the Internet of Things (IoT) where big data is generated, allowing users to receive only the information they need.

Performance Analysis of Web-Crawler in Multi-thread Environment (다중 쓰레드 환경에서 웹 크롤러의 성능 분석)

  • Park, Jung-Woo;Kim, Jun-Ho;Lee, Won-Joo;Jeon, Chang-Ho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.473-476
    • /
    • 2009
  • 본 논문에서는 다중 쓰레드 환경에서 동작하는 웹 크롤러를 구현하고 성능을 분석한다. 이 웹 크롤러의 특징은 검색시간을 단축하기 위하여 크롤링, 파싱 및 페이지랭킹, DB 저장 모듈을 서로 독립적으로 다른 작업을 수행하도록 구현한 것이다. 크롤링 모듈은 웹상의 데이터를 수집하는 기능을 제공한다. 그리고 파싱 및 페이지랭크 모듈은 수집한 데이터를 파싱하고, 웹 페이지의 상대적인 중요도를 수치로 계산하여 페이지랭크를 지정한다. DB 연동 모듈은 페이지랭크 모듈에서 구한 페이지랭크를 데이터베이스에 저장한다. 성능평가에서는 다중 쓰레드 환경에서 쓰레드 수와 웹 페이지의 수에 따른 검색 시간을 측정하여 그 결과를 비교 평가한다.

  • PDF

Study of Travel Demand and Air Route Strategy : Web Crawling-based Analysis Technology (여행 수용 파악 및 항공 노선 전략 연구 : 웹 크롤링 기반 분석 기법)

  • Cho, Chang-Hyeon;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.378-381
    • /
    • 2020
  • 항공/여행 상품은 타 산업보다 불확실성에 취약하며 시간의 절대적인 종속성으로 인해 정확한 수요 파악 및 예측을 하지 못할 경우 가치가 0으로 수렴한다. 이에 본 논문은 웹 크롤링을 기반으로 잠재여행 욕구를 파악하고, 향후 성장할 것으로 예상되는 항공 노선 및 취항지를 예측 및 분석하는 기법을 제안하고자 한다.

Crawling Algorithm Design for Deep Web Document Collection (심층 웹 문서 수집을 위한 크롤링 알고리즘 설계)

  • Won, Dong-Hyun;Kang, Yun-Jeong;Park, Hyuk-Gyu
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.10a
    • /
    • pp.367-369
    • /
    • 2022
  • With the development of web technology, the web provides customized information that meets the needs of users. Information is provided according to the input form and the user's query, and a web service that provides information that is difficult to search with a search engine is called an in-depth web. These deep webs contain more information than surface webs, but it is difficult to collect information with general crawling, which collects information at the time of the visit. The deep web provides users with information on the server by running script languages such as javascript in their browsers. In this paper, we propose an algorithm capable of exploring dynamically changing websites and collecting information by analyzing scripts for deep web collection. In this paper, the script of the bulletin board of the Korea Centers for Disease Control and Prevention was analyzed for experiments.

  • PDF

Development of a Collection System of Bait Links to Social Media on Dark Web to Track Drug Crimes (마약 범죄 추적을 위한 다크웹 상의 소셜미디어 유인 링크 수집체계 개발)

  • Sol-Kyu Park;Jiyeon Kim;Chang-Hoon Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.123-125
    • /
    • 2024
  • 다크웹(Dark Web)은 마약, 불법 촬영물, 해킹, 무기 등 불법 콘텐츠의 공유 및 거래가 이루어지는 인터넷 영역으로서 최근에는 소셜미디어와 연계된 형태로 범죄 양상이 변화하고 있다. 본 논문에서는 최근 국내 외 사회 문제로 대두되고 있는 마약 범죄를 추적하기 위한 다크웹 수사 기술로서 다크웹 사용자를 소셜미디어로 유인하는 마약 정보 수집체계를 개발한다. 먼저 미국 마약단속국에서 공개한 대표적인 마약 용어 3개의 표준어 및 은어를 검색 키워드로 사용하여 마약 관련 다크웹을 수집하고, 수집된 다크웹을 크롤링하여 소셜미디어 계정 링크를 추출한다. 본 논문에서는 다양한 소셜미디어 중, 트위터 및 텔레그램 접속 링크를 수집하였으며 실험 결과, 접속 가능한 총 54개 다크웹 도메인의 9,046개 웹 페이지에서 트위터 유인 링크 567개, 텔레그램 유인 링크 118개를 추출하였다.

  • PDF

A Bloom filter-based Sentiment-aware Web Crawling Algorithm (블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘)

  • Na, Chul-Won;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

Web crawler Improvement and Dynamic process Design and Implementation for Effective Data Collection (효과적인 데이터 수집을 위한 웹 크롤러 개선 및 동적 프로세스 설계 및 구현)

  • Wang, Tae-su;Song, JaeBaek;Son, Dayeon;Kim, Minyoung;Choi, Donggyu;Jang, Jongwook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.11
    • /
    • pp.1729-1740
    • /
    • 2022
  • Recently, a lot of data has been generated according to the diversity and utilization of information, and the importance of big data analysis to collect, store, process and predict data has increased, and the ability to collect only necessary information is required. More than half of the web space consists of text, and a lot of data is generated through the organic interaction of users. There is a crawling technique as a representative method for collecting text data, but many crawlers are being developed that do not consider web servers or administrators because they focus on methods that can obtain data. In this paper, we design and implement an improved dynamic web crawler that can efficiently fetch data by examining problems that may occur during the crawling process and precautions to be considered. The crawler, which improved the problems of the existing crawler, was designed as a multi-process, and the work time was reduced by 4 times on average.

Distribute Parallel Crawler Design and Implementation (분산형 병렬 크롤러 설계 및 구현)

  • Jang, Hyun Ho;jeon, kyung-sik;Lee, HooKi
    • Convergence Security Journal
    • /
    • v.19 no.3
    • /
    • pp.21-28
    • /
    • 2019
  • As the number of websites managed by organizations or organizations increases, so does the number of web application servers and containers. In checking the status of the web service of the web application server and the container, it is very difficult for the person to check the status of the web service after accessing the physical server at the remote site through the terminal or using other accessible software It. Previous research on crawler-related research is hard to find any reference to the processing of data from crawling. Data loss occurs when the crawler accesses the database and stores the data. In this paper, we propose a method to store the inspection data according to crawl - based web application server management without losing data.