• Title/Summary/Keyword: 웹 크롤링

Search Result 114, Processing Time 0.042 seconds

English Corpus Construction Tool Based Using Cloud Services (클라우드 서비스를 이용한 영어 말뭉치 구축 도구)

  • Kim, Sung-Dong;Kim, Minwoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1122-1124
    • /
    • 2019
  • 본 논문에서는 영어 신문 사이트를 크롤링하여 뉴스 기사를 수집하여 영어 말뭉치를 구축하는 도구를 제안한다. 클라우드 서비스를 이용함으로써 장소와 시간에 구애받지 않고 말뭉치를 지속적으로 확장시킬 수 있을 뿐만 아니라 쉽게 구축된 말뭉치를 활용할 수 있다. 제안한 도구는 수집된 영어 신문 기사에 대한 통계 정보 즉, 문장 수, 단어 수 등을 제공한다. 웹 플랫폼에서 동작하므로 여러 명이 동시에 많은 데이터를 수집할 수 있다 수집된 데이터는 자연어 처리 및 기계학습 연구에 활용될 수 있다.

For creating a Dataset Image URI and Metadata Collection Web Crawler (데이터셋 생성을 위한 이미지 URI 및 메타데이터 수집 크롤러)

  • Park, June-Hong;Kim, Seok-Jin;Jung, Yeon-Uk;Lee, Dong-Uk;Jeong, YoungJu;Seo, Dong-Mahn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.1082-1084
    • /
    • 2019
  • 인공지능 학습에 대한 관심이 증가하면서 학습에 필요한 데이터셋 구축에 필요한 많은 양의 데이터가 필요하다. 데이터셋 구축에 필요한 데이터들을 효과적으로 수집하기 위한 키워드 기반 웹크롤러를 제안한다. 구글 검색 API 를 기반으로 웹 크롤러를 설계하였으며 사용자가 입력한 키워드를 바탕으로 이미지의 URI 와 메타데이터를 지속적으로 수집하는 크롤러이다. 수집한 URI 와 메타데이터는 데이터베이스를 통해 관리한다. 향후 다른 검색 API 에서도 동작하고 다중 쓰레드를 활용하여 크롤링하는 속도를 높일 예정이다.

Analyzing the phenomenon of misogyny in online community (온라인 커뮤니티상에 나타난 여성혐오 현상 분석)

  • Lee, Ji-hyun;Woo, JiYoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.27-28
    • /
    • 2019
  • 본 논문에서는 한국 사회에 특유의 폭력성과 선정성으로 인해 큰 충격을 주고 있는 인터넷 커뮤니티 사이트 '일간 베스트' 글에 나타난 욕설과 여성 혐오에 대해 분석하고자 한다. 데이터는 일베 게시판에 올라온 게시글 2,000개를 웹 크롤링하여 수집하였으며, 수집한 게시글에 게임 내 금칙어 리스트와 여성 지칭어 사전을 기반으로 욕설 여부와 여성 지칭어를 태깅하였다. 태깅하여 분석한 결과 여성 지칭어를 사용한 게시글에는 욕설을 사용하는 글이 전체의 60.52%로 많았으며 욕설을 사용하지 않은 게시글에도 범행, 살해, 김치녀 등의 부정적인 단어가 많은 것을 볼 수 있었다.

  • PDF

A Design and Implementation of Weather Forecast Chatbot Based on Kakaotalk Open Builder (카카오톡 오픈빌더 기반의 일기 예보 챗봇 설계 및 구현)

  • Lee, Won Joo;Gim, Han Su;Cha, Dae Yun;Lee, il u;Jung, Seong Jun;Cho, Seung Yeon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.29-30
    • /
    • 2019
  • 본 논문에서는 카카오i 오픈빌더 API를 활용하여 언제 어디서나 손쉬운 접근 방법으로 날씨 정보를 얻을 수 있는 챗봇을 설계하고 구현한다 이 챗봇은, 플러스 친구를 통해 친구 추가 후 이용 가능하며, Python의 Flask 웹 프레임워크를 통하여 날씨에 관한 기온, 미세 먼지 농도, 강수량, 자외선 지수, 캐스팅 정보 등을 네이버에서 사용자가 검색한 지역별로 크롤링 후 가공하여 서비스 한다.

  • PDF

A Study for Conflict in Public Construction Projects Based on Online News (온라인 뉴스 기반 공공건설사업 갈등지수 산정에 관한 기초연구)

  • Baek, Seungwon;Han, Seung Heon;Yun, Sungmin;Lim, Jonglok;Nam, Jihyun
    • Proceedings of the Korean Institute of Building Construction Conference
    • /
    • 2021.05a
    • /
    • pp.277-278
    • /
    • 2021
  • Conflict in public construction projects has increased for the last decades. It not only entails enormous social and economic costs but also makes stakeholders suffer from unnecessary expense and time waste. This study defines the the conflict index for public construction projects based on news data, and calculates conflict index for representative past and current public construction projects that has been deepened conflicts at the national level. The result indicates that the major conflict issue of the 2nd Jeju Airport Project are the environment and location whereas that of the Gaduk New Airport Project are the safety, location and necessity. This approach is expected to enable construction project managers to manage conflicts quantitatively based on comparing with past cases.

  • PDF

Construction of Database for IoT Firmware Exploit (IoT 펌웨어 취약점 데이터베이스 구축 방안 연구)

  • Lee, Kyeong Seok;Cho, Ho Mook
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.115-118
    • /
    • 2020
  • 본 논문에서는 IoT 취약점 탐지 시스템과 취약점 데이터베이스 구축 방안을 제안한다. 동적 웹페이지 제어기술 기반의 크롤링 기법으로 펌웨어를 수집한 후, 패킹된 펌웨어 파일을 Binwalk, FMK를 활용하여 추출하고 Qemu 에뮬레이팅 기반의 실제 서비스를 실행시키는 시스템을 구현하여 펌웨어 취약점을 탐지할 수 있는 환경을 구축한다. 구축된 시스템을 통하여 수집, 추출, 에뮬레이팅 과정에서 생성된 데이터와 연계되어 탐지된 취약점 정보를 저장할 수 있는 데이터베이스를 제안한다. 제안된 시스템과 데이터베이스를 통하여 IoT 기기 펌웨어의 취약점을 탐지하고 예방을 할 수 있을 것이라 기대한다.

  • PDF

OpenSource Security Vulnerability Real-Time Notification System (오픈소스 보안 취약점 및 패치 현황 실시간 알림 시스템)

  • Choi, Ji Eun;Koo, Ye Lim;Jeon, Seon Jin;Park, Woo In;Lee, Byoung Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.135-137
    • /
    • 2020
  • 기업 내에서는 다양한 오픈소스를 활용하고 있다. 이런 환경에서 해당 오픈소스의 취약점 및 패치 현황을 실시간으로 제공하여 빠르게 대처하는 것이 중요하다. 먼저 기업 내에서 많이 사용하는 오픈소스를 조사한 후 Top 70 오픈소스를 선정하여 보안 취약점 및 패치 현황을 파악한다. 실제 크롤링을 통해 취약점을 수집한 후, 필요한 정보를 가공하여 웹 서비스로 시각화 하여 제공한다. 또한 취약점이 발생했을 때 기업에서는 실시간 메일 알람 서비스를 받아볼 수 있는 과정을 제시한다.

A Recommendation System by Extracting Scholarship Information with a BERT's Q&A Model (BERT Q&A 모델을 활용한 장학금 정보 추출 및 추천 시스템)

  • Byeongjun Kang;Kyujin Kim;Jinah Park;Ijun Jang;Jaehyun Joo;Hyungjoon Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.288-289
    • /
    • 2023
  • 본 논문은 글로벌 이슈로 인한 인플레이션과 대학 등록금 인상 우려 등으로 인해 장학금의 중요성이 부각되고 있는 상황을 고려하여 기존의 장학금 공고 게시물을 수집한 후 BERT Q&A (Bidirectional Encoder Representations from Transformers Question & Answering) 모델을 이용해 개별 맞춤형 장학 공고를 추천하는 시스템을 제안한다. 우선 웹 크롤링을 통해 장학금 정보를 수집하고, BERT Q&A 모델과 사전에 정의한 규칙 기반으로 핵심 정보를 추출한다. 이후 분류 과정을 거쳐 사용자가 입력한 정보와 매칭하여 조건에 맞는 장학금 게시물을 추천할 수 있는 어플리케이션을 구현하였다.

Word Frequency-Based Big Data Analysis for the Annals of the Joseon Dynasty (조선왕조실록 분석을 위한 단어 빈도수 기반 빅 데이터 분석)

  • Bong, Young-Il;Lee, Choong-Ho
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.707-709
    • /
    • 2022
  • Annals of the Joseon Dynasty is a librarian that compiled the history of the Joseon Dynasty for 472 years, from Taejo to Cheoljong. The Annals of the Joseon Dynasty, National Treasure No. 151, are important documented heritages, but they are difficult to analyze due to their vast content. Therefore, rather than analyzing all the contents of the Annals of the Joseon Dynasty, it is necessary to extract and analyze important words. In this paper, we propose a method of extracting words from the main body of the Annals of the Joseon Dynasty through web crawling and analyzing the translated texts of the Annals of the Joseon Dynasty based on the data sorted according to the frequency of words. In this study, only the part of King Sejong of the Annals of the Joseon Dynasty was extracted and the importance was analyzed according to the frequency of words.

  • PDF

An Implementation of System for Detecting and Filtering Malicious URLs (악성 URL 탐지 및 필터링 시스템 구현)

  • Chang, Hye-Young;Kim, Min-Jae;Kim, Dong-Jin;Lee, Jin-Young;Kim, Hong-Kun;Cho, Seong-Je
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.4
    • /
    • pp.405-414
    • /
    • 2010
  • According to the statistics of SecurityFocus in 2008, client-side attacks through the Microsoft Internet Explorer have increased by more than 50%. In this paper, we have implemented a behavior-based malicious web page detection system and a blacklist-based malicious web page filtering system. To do this, we first efficiently collected the target URLs by constructing a crawling system. The malicious URL detection system, run on a specific server, visits and renders actively the collected web pages under virtual machine environment. To detect whether each web page is malicious or not, the system state changes of the virtual machine are checked after rendering the page. If abnormal state changes are detected, we conclude the rendered web page is malicious, and insert it into the blacklist of malicious web pages. The malicious URL filtering system, run on the web client machine, filters malicious web pages based on the blacklist when a user visits web sites. We have enhanced system performance by automatically handling message boxes at the time of ULR analysis on the detection system. Experimental results show that the game sites contain up to three times more malicious pages than the other sites, and many attacks incur a file creation and a registry key modification.