• 제목/요약/키워드: Web Scraping

검색결과 25건 처리시간 0.026초

A Brief Survey into the Field of Automatic Image Dataset Generation through Web Scraping and Query Expansion

  • Bart Dikmans;Dongwann Kang
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.602-613
    • /
    • 2023
  • High-quality image datasets are in high demand for various applications. With many online sources providing manually collected datasets, a persisting challenge is to fully automate the dataset collection process. In this study, we surveyed an automatic image dataset generation field through analyzing a collection of existing studies. Moreover, we examined fields that are closely related to automated dataset generation, such as query expansion, web scraping, and dataset quality. We assess how both noise and regional search engine differences can be addressed using an automated search query expansion focused on hypernyms, allowing for user-specific manual query expansion. Combining these aspects provides an outline of how a modern web scraping application can produce large-scale image datasets.

An Implementation and Performance Evaluation of Fast Web Crawler with Python

  • Kim, Cheong Ghil
    • 반도체디스플레이기술학회지
    • /
    • 제18권3호
    • /
    • pp.140-143
    • /
    • 2019
  • The Internet has been expanded constantly and greatly such that we are having vast number of web pages with dynamic changes. Especially, the fast development of wireless communication technology and the wide spread of various smart devices enable information being created at speed and changed anywhere, anytime. In this situation, web crawling, also known as web scraping, which is an organized, automated computer system for systematically navigating web pages residing on the web and for automatically searching and indexing information, has been inevitably used broadly in many fields today. This paper aims to implement a prototype web crawler with Python and to improve the execution speed using threads on multicore CPU. The results of the implementation confirmed the operation with crawling reference web sites and the performance improvement by evaluating the execution speed on the different thread configurations on multicore CPU.

파이썬을 이용한 프레임내 웹 페이지 스크래핑 기법 (A Scraping Method of In-Frame Web Sources Using Python)

  • 윤수진;승리;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.271-274
    • /
    • 2019
  • 이 논문에서는 일반적인 웹 접근 방법으로 접근하기 어려운 프레임 내 웹 페이지의 데이터를 프로그램에 의해 자동으로 수집하기 위한 세부 주소 확보 기법을 제안하였다. 제안한 세부 주소 확보 기법과 HTML 실렉터를 활용할 수 있는 Python 언어와 Beautiful Soup 라이브러리를 이용하여 여러 페이지로 작성되어 있는 게시판 텍스트 데이터를 자동으로 모두 수집할 수 있었다. 제안한 기법을 활용하여 어떠한 형태의 주소 형식으로 되어 있는 웹 페이지들에 대해서도 Python 웹스크래핑 프로그램에 의해 자동으로 대량의 데이터를 수집할 수 있으며, 이를 통해 빅데이터 분석에 활용될 수 있을 것으로 예상한다.

  • PDF

웹 스크래핑과 텍스트마이닝을 이용한 공공 및 민간공사의 사고유형 분석 (A Study on the Analysis of Accident Types in Public and Private Construction Using Web Scraping and Text Mining)

  • 윤영근;오태근
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.729-734
    • /
    • 2022
  • 건설업의 사고원인 파악을 위해 사고사례를 이용한 다양한 연구가 진행되고 있지만, 공공 및 민간공사의 차이점에 대한 연구는 미미한 실정이다. 본 연구에서는 발주 유형별 사고원인 분석을 위해 웹 스크래핑과 텍스트 마이닝 기술을 적용하였다. 수집된 10,000건 이상의 정형 및 비정형 데이터에 대한 통계분석과 워드클라우드 분석을 통해 공공 및 민간공사의 사고유형과 사고원인에 대한 차이가 확인되었다. 또한, 주요 사고원인들의 상관관계를 파악함으로써 향후 안전관리 대책 수립에 기여할 수 있다.

웹 스크래핑 및 텍스트마이닝에 기반한 중소규모 건설현장 사고유형 분석 (Analysis of accident types at small and medium-sized construction sites based on web scraping and text mining)

  • 윤영근
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.609-615
    • /
    • 2024
  • 건설업의 사고사망자 수는 402명으로 전체 산업의 약 46%이다. 이 중 50억원 미만의 건설현장이 약 69%를 차지하고 있어 중소규모 건설현장의 안전관리 강화가 요구된다. 본 연구에서는 웹 스크래핑을 이용하여 19,511건의 사고조사자료를 수집하였다. 수집된 정형 데이터에 대한 통계분석, 비정형 데이터에 대한 텍스트마이닝 분석을 통해 50억원 미만의 현장의 공사금액별 사고유형과 사고원인 분석을 진행하였다. 그 결과 공사금액별로 사고유형과 원인에 차이가 있음이 확인되었다. 본 연구의 결과가 중소규모 건설현장 맞춤형 안전관리에 활용되기를 기대한다.

반응 위험성분석 및 사고방지를 위한 스마트 합성경로 탐색시스템 (Smart Synthetic Path Search System for Prevention of Hazardous Chemical Accidents and Analysis of Reaction Risk)

  • 정준수;김창완;곽동호;신동일
    • Korean Chemical Engineering Research
    • /
    • 제57권6호
    • /
    • pp.781-789
    • /
    • 2019
  • 연구실 실험, 파일럿 플랜트 및 반응기 운전 중 화학물질에 의한 안전사고가 발생하고 있다. 합성 실험을 시작하기전 사고예방을 위해 관련 정보들을 찾아볼 필요가 있으며, 공정설계 단계에서도 반응 폭주 예방을 위한 반응정보의 확보는 필수적이다. 합성반응 관련 정보는 인터넷을 포함해 다양한 source가 존재하지만, 검색에 오랜 시간이 걸리고, 합성법마다 사용되는 물질도 달라 적정경로 선택의 어려움이 있다. 연구자들의 합성경로 검색시간단축과 합성 시 존재할 수 있는 위험성 및 중간생성물질들의 확인에 도움을 주고자 본 연구는 스마트 합성경로 탐색시스템을 제안하였다. 제안한 탐색시스템은 Python 패키지인 Selenium을 사용한 Web scraping 및 Web crawling을 통해 인터넷에 존재하는 정보를 수집하여 DB를 자동으로 갱신한다. 경로 탐색 알고리즘은 depth-first search에 기반하여 목표 물질을 기준으로 탐색을 진행하고, 유해화학물질 등급, 수율 등을 구분하여, 제한된 경로 단계 수치내에 있는 모든 합성 경로를 제안한다. 또한 각자의 연구 목적에 맞게 연구원들이 가진 비공개 데이터를 형식을 맞춰 DB에 등록하여 확장할 수 있다. 시스템은 차후에 무료 사용이 가능하도록 open source로 공개할 예정이다. 개발 시스템은 연구자들이 제안된 경로를 참고하여 더 안전한 반응 방법을 찾고, 사고의 예방에도 도움을 줄 것으로 기대된다.

R기반의 data분석을 통한 사용자 편의성 증진을 위한 웹사이트 설계 및 구현 (Design and implement Web sites for greater user convenience through R based data analysis)

  • 윤경섭;김연홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.307-310
    • /
    • 2018
  • 우리 사회는 데이터를 기반으로 진화 하고 있어 데이터분석을 할 수 있는 통계패키지가 오늘날 상용화 되고 있다. 상용화되고 있는 통계패키지를 이용해 본 논문에서는 통계패키지 R을 Model1구조가 아닌 Model2 MVC구조로 적용하여, 웹사이트의 유지보수와 코드 효율성을 증진시키고자 한다. 이를 이용하여 웹 스크래핑을 통한 데이터를 수집 후 데이터 분석을 토대로 사용자가 분석내용을 쉽게 이해할 수 있도록, 편의성을 증진시키고 검색 할 수 있는 웹사이트를 설계 및 구현 하고자 한다.

  • PDF

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

Mash-up 기술을 이용한 4D Wall-Map 구성체계 (A Study on the 4D Traffic Condition Board based on a Mash-up Technology)

  • 김주환;양승묵;남두희
    • 한국ITS학회 논문지
    • /
    • 제8권3호
    • /
    • pp.27-33
    • /
    • 2009
  • 기존의 교통상황판운영에 사용하는 지도는 2D를 기본으로 하는 전자지도를 중심으로 표준노드링크의 속성을 반영하는 형태이다. 2D형태의 교통전자지도는 그래픽형식에 운영자에게 실시간으로 교통상황을 직관적으로 판단하는데 도움을 제공하였으나 2D형식이라는 한계가 존재할 수밖에 없었다. 점차적으로 IT기술의 고도화, 하드웨어, 통신기술의 발달 등으로 과거에 다룰수 없었던 대용량데이터처리가 원활해지고, 다양한 도로이용자의 고급화된 교통수요에 대응하기 위해서는 점차적으로 교통관리자나 운영자들이 교통정보관련 장비들이나 운영시나리오에 대해 다각적으로 분석을 할 수 있는 방안이 강구되어야 한다. 기존의 교통상황판은 점, 선, 면 형식의 2D전자지도를 기반으로 그 위에 교통소통상황 등의 부가정보를 표현하였으나, 본 연구에서는 구글어스의 API를 활용하도록 한다. 구글어스는 고해상도의 위성사진과 이를 이용한 3D화면을 표출서비스를 제공하며, 이를 기반으로 교통소통정보, 버스노선 및 정류장 제보, 3D 객체 표현 등의 콘텐츠와 야후 POI(야후 거기)를 Mash-Up하여 보다 현실적인 교통상황정보를 제공하고자 한다.

  • PDF

텍스트마이닝을 활용한 보건의료산업학회지의 토픽 모델링 및 토픽트렌드 분석 (Analysis on Topic Trends and Topic Modeling of KSHSM Journal Papers using Text Mining)

  • 조경원;배성권;우영운
    • 보건의료산업학회지
    • /
    • 제11권4호
    • /
    • pp.213-224
    • /
    • 2017
  • Objectives : The purpose of this study was to analyze representative topics and topic trends of papers in Korean Society and Health Service Management(KSHSM) Journal. Methods : We collected English abstracts and key words of 516 papers in KSHSM Journal from 2007 to 2017. We utilized Python web scraping programs for collecting the papers from Korea Citation Index web site, and RStudio software for topic analysis based on latent Dirichlet allocation algorithm. Results : 9 topics were decided as the best number of topics by perplexity analysis and the resultant 9 topics for all the papers were extracted using Gibbs sampling method. We could refine 9 topics to 5 topics by deep consideration of meanings of each topics and analysis of intertopic distance map. In topic trends analysis from 2007 to 2017, we could verify 'Health Management' and 'Hospital Service' were two representative topics, and 'Hospital Service' was prevalent topic by 2011, but the ratio of the two topics became to be similar from 2012. Conclusions : We discovered 5 topics were the best number of topics and the topic trends reflected the main issues of KSHSM Journal, such as name revision of the society in 2012.