• 제목/요약/키워드: 스크래핑

검색결과 19건 처리시간 0.03초

웹 스크래핑과 텍스트마이닝을 이용한 공공 및 민간공사의 사고유형 분석 (A Study on the Analysis of Accident Types in Public and Private Construction Using Web Scraping and Text Mining)

  • 윤영근;오태근
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.729-734
    • /
    • 2022
  • 건설업의 사고원인 파악을 위해 사고사례를 이용한 다양한 연구가 진행되고 있지만, 공공 및 민간공사의 차이점에 대한 연구는 미미한 실정이다. 본 연구에서는 발주 유형별 사고원인 분석을 위해 웹 스크래핑과 텍스트 마이닝 기술을 적용하였다. 수집된 10,000건 이상의 정형 및 비정형 데이터에 대한 통계분석과 워드클라우드 분석을 통해 공공 및 민간공사의 사고유형과 사고원인에 대한 차이가 확인되었다. 또한, 주요 사고원인들의 상관관계를 파악함으로써 향후 안전관리 대책 수립에 기여할 수 있다.

R기반의 data분석을 통한 사용자 편의성 증진을 위한 웹사이트 설계 및 구현 (Design and implement Web sites for greater user convenience through R based data analysis)

  • 윤경섭;김연홍
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.307-310
    • /
    • 2018
  • 우리 사회는 데이터를 기반으로 진화 하고 있어 데이터분석을 할 수 있는 통계패키지가 오늘날 상용화 되고 있다. 상용화되고 있는 통계패키지를 이용해 본 논문에서는 통계패키지 R을 Model1구조가 아닌 Model2 MVC구조로 적용하여, 웹사이트의 유지보수와 코드 효율성을 증진시키고자 한다. 이를 이용하여 웹 스크래핑을 통한 데이터를 수집 후 데이터 분석을 토대로 사용자가 분석내용을 쉽게 이해할 수 있도록, 편의성을 증진시키고 검색 할 수 있는 웹사이트를 설계 및 구현 하고자 한다.

  • PDF

웹 스크래핑 및 텍스트마이닝에 기반한 중소규모 건설현장 사고유형 분석 (Analysis of accident types at small and medium-sized construction sites based on web scraping and text mining)

  • 윤영근
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.609-615
    • /
    • 2024
  • 건설업의 사고사망자 수는 402명으로 전체 산업의 약 46%이다. 이 중 50억원 미만의 건설현장이 약 69%를 차지하고 있어 중소규모 건설현장의 안전관리 강화가 요구된다. 본 연구에서는 웹 스크래핑을 이용하여 19,511건의 사고조사자료를 수집하였다. 수집된 정형 데이터에 대한 통계분석, 비정형 데이터에 대한 텍스트마이닝 분석을 통해 50억원 미만의 현장의 공사금액별 사고유형과 사고원인 분석을 진행하였다. 그 결과 공사금액별로 사고유형과 원인에 차이가 있음이 확인되었다. 본 연구의 결과가 중소규모 건설현장 맞춤형 안전관리에 활용되기를 기대한다.

컨소시엄 기반 전자저널 이용통계 수집 및 분석 개선 방안 (Improving Efficiency of Usage Statistics Collection and Analysis in E-Journal Consortia)

  • 정영임;김정환
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.7-25
    • /
    • 2012
  • 전자저널의 활용이 급속히 증가하면서 도서관에서는 자관에서 구입되는 전자저널이 얼마나, 어떻게 활용되고 있는지에 대한 관심이 증가하였다. 또한 전자정보 컨소시엄 주관기관에서도 컨소시엄 내에서 유통되는 학술자원의 이용통계에 대한 분석을 통해 국가 차원의 전자학술저널의 유통 현황 파악 및 수요자 중심의 정보수집 정책 개발이 필수적이다. 그러나 기존의 수작업에 의존한 이용통계 수집과 출판사에서 제공하는 저널 이용통계 보고서만으로는 이용에 대한 포괄적이고 심층적인 분석이 불가능하다. 이에 본 연구에서는 대용량 이용통계 수집 및 분석의 기반 마련을 위해 스크린 스크래핑과 SUSHI 프로토콜을 적용한 전자저널 이용통계 자동수집 시스템을 구현하였다. 또 저널 서지정보 및 컨소시엄 계약 데이터베이스를 연동하여 심층적인 이용통계 분석정보를 생성할 수 있는 방안을 제안하였다.

텍스트 마이닝을 이용한 한국정보통신학회 논문지의 주제 분석 (Topic Analysis of Papers of JKIICE Using Text Mining)

  • 우영운;조경원;이광의
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.74-75
    • /
    • 2017
  • 이 논문에서는 2007년부터 2016년까지 한국정보통신학회 논문지(JKIICE)에 게재된 3,668편의 논문들의 연구 주제 분야를 파악하기 위해 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 자료수집을 위하여 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 연구 결과, 2016년까지 JKIICE의 투고 분야는 19개였으나 실제 최근 10년 동안 게재된 전체 논문들의 연구 주제는 크게 9가지로 대표됨을 알 수 있었다.

  • PDF

무형상품 오픈마켓 통합관리 시스템 (The Integrated management system of Online marketplace for Intangible goods)

  • 김우찬;곽호영;김상혁
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.401-402
    • /
    • 2018
  • 최근 다양한 인터넷 쇼핑 서비스가 등장하고 보편화 되었다. 제주도는 국제자유도시로서 관광업에 관련된 서비스 업종이 많이 발달해 있다. 따라서 많은 수의 사업장이 무형상품을 제공하고 있다. 많은 소비자가 인터넷을 통한 구매를 진행하기 때문에 많은 사업장에서 인터넷을 통한 판매를 진행하고 있다. 이 과정에서 많은 사업장에서 오픈 마켓 관리에 어려움을 겪고 있다. 이 문제를 해결하기 위해 무형상품을 위한 오픈 마켓 통합관리 시스템을 구현하였다.

  • PDF

테이블 구조 정보를 활용한 헤더 텍스트 생성 (Header Text Generation based on Structural Information of Table)

  • 정해민;심묘섭;민경구;최주영;박민준;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.415-418
    • /
    • 2023
  • 테이블 데이터는 일반적으로 헤더와 데이터로 구성되며, 헤더는 데이터의 구조와 내용을 이해하는데 중요한 역할을 한다. 하지만 웹 스크래핑 등을 통해 얻은 데이터와 같이 다양한 상황에서 헤더 정보가 누락될 수 있다. 수동으로 헤더를 생성하는 것은 시간이 많이 걸리고 비효율적이기 때문에, 본 논문에서는 자동으로 헤더를 생성하는 태스크를 정의하고 이를 해결하기 위한 모델을 제안한다. 이 모델은 BART를 기반으로 각 열을 구성하는 텍스트와 열 간의 관계를 분석하여 헤더 텍스트를 생성한다. 이 과정을 통해 테이블 데이터의 구성요소 간의 관계에 대해 이해하고, 테이블 데이터의 헤더를 생성하여 다양한 애플리케이션에서의 활용할 수 있다. 실험을 통해 그 성능을 평가한 결과, 테이블 구조 정보를 종합적으로 활용하는 것이 더 높은 성능을 보임을 확인하였다.

  • PDF

GAN을 활용한 사용자 입력 기반의 대량 이미지 생성 및 거래 플랫폼 'GANerate' ('GANerate', A Mass Image Creation and TradingPlatform based on User Input using GAN)

  • 최필환;한종원;최연아;박정민;유상오
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.922-923
    • /
    • 2023
  • 인터넷에는 많은 이미지 데이터가 존재하지만, 대규모 이미지를 효과적으로 수집하는 것은 어려운 실정이다. 본 논문은 GAN을 통해 사용자가 지정한 개수만큼 원하는 이미지를 생성하는 웹 플랫폼을 제안한다. 기존의 단일 이미지다운, 크롤링, 웹 스크래핑을 통한 이미지 데이터 수집 방법보다 다량 이미지 데이터를 안전하게 수집할 수 있을 것으로 기대된다.

GRU 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템 (A Fuzzy-AHP-based Movie Recommendation System using the GRU Language Model)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제19권8호
    • /
    • pp.319-325
    • /
    • 2021
  • 무선 기술의 고도화 및 이동통신 기술의 인프라가 빠르게 성장함에 따라 AI 기반 플랫폼을 적용한 시스템이 사용자의 주목을 받고 있다. 특히 사용자의 취향이나 관심사 등을 이해하고, 선호하는 아이템을 추천해주는 시스템은 고도화된 전자상거래 맞춤형 서비스 및 스마트 홈 등에 적용되고 있다. 그러나 이러한 추천 시스템은 다양한 사용자들의 취향이나 관심사 등에 대한 선호도를 실시간으로 반영하기 어렵다는 문제가 있다. 본 연구에서는 이러한 문제를 해소하기 위해 GRU(Gated Recurrent Unit) 언어 모델을 이용한 Fuzzy-AHP 기반 영화 추천 시스템을 제안하였다. 본 시스템에서는 사용자의 취향이나 관심사를 실시간으로 반영하기 위해 Fuzzy-AHP를 적용하였다. 또한 대중들의 관심사 및 해당 영화의 내용을 분석하여 사용자가 선호하는 요인과 유사한 영화를 추천하기 위해 GRU 언어 모델 기반의 모델을 적용하였다. 본 추천 시스템의 성능을 검증하기 위해 학습 모듈에서 사용된 스크래핑 데이터를 이용하여 학습 모델의 적합성을 측정하였으며, LSTM(Long Short-Term Memory) 언어 모델과 Epoch 당 학습 시간을 비교하여 학습 수행 속도를 측정하였다. 그 결과 본 연구의 학습 모델의 평균 교차 검증 지수가 94.8%로 적합하다는 것을 알 수 있었으며, 학습 수행 속도가 LSTM 언어 모델보다 우수함을 확인할 수 있었다.

전자학술정보 이용통계 유통을 위한 표준 플랫폼 구축 (Implementation of Standard Platform for Distributing Usage Statistics of Digital Scholarly Information)

  • 정영임;김재훈;김광영;김환민
    • 한국전자거래학회지
    • /
    • 제19권4호
    • /
    • pp.61-72
    • /
    • 2014
  • 전자학술정보의 활용이 급속히 증가하고 대규모 이용로그 정보의 처리가 가능해지면서 전자학술정보의 이용에 대한 분석이 다양한 각도에서 이루어지고 있다. 그러나 각 출판사에서 각기 다른 형태와 방법으로 생성한 이용통계를 표준 포맷으로 통합 수집하여 국가 차원의 이용량 정보를 제공하는 통합 플랫폼은 없다. 따라서 본 논문에서는 국내 520여 기관의 전자학술정보 이용통계를 통합 수집하고, 이용통계 데이터 표준 프로토콜인 SUSHI(Standardized Usage Statistics Harvesting Initiative)에 기반하여 유통할 수 있는 플랫폼 모델을 제안한다.