• 제목/요약/키워드: Web Crawling(Scraping)

검색결과 4건 처리시간 0.017초

An Implementation and Performance Evaluation of Fast Web Crawler with Python

  • Kim, Cheong Ghil
    • 반도체디스플레이기술학회지
    • /
    • 제18권3호
    • /
    • pp.140-143
    • /
    • 2019
  • The Internet has been expanded constantly and greatly such that we are having vast number of web pages with dynamic changes. Especially, the fast development of wireless communication technology and the wide spread of various smart devices enable information being created at speed and changed anywhere, anytime. In this situation, web crawling, also known as web scraping, which is an organized, automated computer system for systematically navigating web pages residing on the web and for automatically searching and indexing information, has been inevitably used broadly in many fields today. This paper aims to implement a prototype web crawler with Python and to improve the execution speed using threads on multicore CPU. The results of the implementation confirmed the operation with crawling reference web sites and the performance improvement by evaluating the execution speed on the different thread configurations on multicore CPU.

반응 위험성분석 및 사고방지를 위한 스마트 합성경로 탐색시스템 (Smart Synthetic Path Search System for Prevention of Hazardous Chemical Accidents and Analysis of Reaction Risk)

  • 정준수;김창완;곽동호;신동일
    • Korean Chemical Engineering Research
    • /
    • 제57권6호
    • /
    • pp.781-789
    • /
    • 2019
  • 연구실 실험, 파일럿 플랜트 및 반응기 운전 중 화학물질에 의한 안전사고가 발생하고 있다. 합성 실험을 시작하기전 사고예방을 위해 관련 정보들을 찾아볼 필요가 있으며, 공정설계 단계에서도 반응 폭주 예방을 위한 반응정보의 확보는 필수적이다. 합성반응 관련 정보는 인터넷을 포함해 다양한 source가 존재하지만, 검색에 오랜 시간이 걸리고, 합성법마다 사용되는 물질도 달라 적정경로 선택의 어려움이 있다. 연구자들의 합성경로 검색시간단축과 합성 시 존재할 수 있는 위험성 및 중간생성물질들의 확인에 도움을 주고자 본 연구는 스마트 합성경로 탐색시스템을 제안하였다. 제안한 탐색시스템은 Python 패키지인 Selenium을 사용한 Web scraping 및 Web crawling을 통해 인터넷에 존재하는 정보를 수집하여 DB를 자동으로 갱신한다. 경로 탐색 알고리즘은 depth-first search에 기반하여 목표 물질을 기준으로 탐색을 진행하고, 유해화학물질 등급, 수율 등을 구분하여, 제한된 경로 단계 수치내에 있는 모든 합성 경로를 제안한다. 또한 각자의 연구 목적에 맞게 연구원들이 가진 비공개 데이터를 형식을 맞춰 DB에 등록하여 확장할 수 있다. 시스템은 차후에 무료 사용이 가능하도록 open source로 공개할 예정이다. 개발 시스템은 연구자들이 제안된 경로를 참고하여 더 안전한 반응 방법을 찾고, 사고의 예방에도 도움을 줄 것으로 기대된다.

실험실정보관리시스템의 확장을 위한 오픈 소스 기반의 빅데이터 처리 기술에 관한 연구 (A Study on Big Data Processing Technology Based on Open Source for Expansion of LIMS)

  • 김순곤
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.161-167
    • /
    • 2021
  • 실험실정보관리시스템(LIMS, Laboratory Information Management System)은 실험실 데이터를 저장, 가공, 검색 그리고 분석하기 위한 중앙화된 데이터베이스로서 검사, 분석, 시험 업무를 수행하는 실험실을 위해 특별히 고안된 컴퓨터 시스템 또는 시스템을 의미한다. 특히 LIMS는 실험실의 운영을 지원하는 기능을 갖추고 있으며, 워크플로우 관리나 데이터 추적지원 등이 필요하다. 본 논문에서는 실험실의 운영을 위하여 빅데이터 자동화 수집 기술의 하나인 크롤링 기술을 활용하여 웹사이트 및 다양한 채널에 존재하는 데이터를 수집한다. 수집된 시험 방법 및 내용 중 시험자가 활용할 수 있는 유용한 시험 방법 및 내용을 추천한다. 그리고 이에 대한 피드백을 관리하여 수집 채널의 검증이 가능한 상호보완적인 LIMS 플랫폼을 구현한다.

A Study on Artificial Intelligence Education Design for Business Major Students

  • PARK, So-Hyun;SUH, Eung-Kyo
    • 산경연구논집
    • /
    • 제12권8호
    • /
    • pp.21-32
    • /
    • 2021
  • Purpose: With the advent of the era of the 4th industrial revolution, called a new technological revolution, the necessity of fostering future talents equipped with AI utilization capabilities is emerging. However, there is a lack of research on AI education design and competency-based education curriculum as education for business major. The purpose of this study is to design AI education to cultivate competency-oriented AI literacy for business major in universities. Research design, data and methodology: For the design of AI basic education in business major, three expert Delphi surveys were conducted, and a demand analysis and specialization strategy were established, and the reliability of the derived design contents was verified by reflecting the results. Results: As a result, the main competencies for cultivating AI literacy were data literacy, AI understanding and utilization, and the main detailed areas derived from this were data structure understanding and processing, visualization, web scraping, web crawling, public data utilization, and concept of machine learning and application. Conclusions: The educational design content derived through this study is expected to help establish the direction of competency-centered AI education in the future and increase the necessity and value of AI education by utilizing it based on the major field.