• 제목/요약/키워드: web crawling

검색결과 176건 처리시간 0.034초

Pilot Experiment for Named Entity Recognition of Construction-related Organizations from Unstructured Text Data

  • Baek, Seungwon;Han, Seung H.;Jung, Wooyong;Kim, Yuri
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.847-854
    • /
    • 2022
  • The aim of this study is to develop a Named Entity Recognition (NER) model to automatically identify construction-related organizations from news articles. This study collected news articles using web crawling technique and construction-related organizations were labeled within a total of 1,000 news articles. The Bidirectional Encoder Representations from Transformers (BERT) model was used to recognize clients, constructors, consultants, engineers, and others. As a pilot experiment of this study, the best average F1 score of NER was 0.692. The result of this study is expected to contribute to the establishment of international business strategies by collecting timely information and analyzing it automatically.

  • PDF

A Study on Usage Frequency of Translated English Phrase Using Google Crawling

  • Kim, Kyuseok;Lee, Hyunno;Lim, Jisoo;Lee, Sungmin
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.689-692
    • /
    • 2020
  • People have studied English using online English dictionaries when they looked for the meaning of English words or the example sentences. These days, as the AI technologies such as machine learning have been developing, documents can be translated in real time with Kakao, Papago, Google translators and so on. But, there has still been some problems with the accuracy of translation. The AI secretaries can be used for real-time interpreting, so this kind of systems are being used to translate such the web pages, papers into Korean. In this paper, we researched on the usage frequency of the combined English phrases from dictionaries by analyzing the number of the searched results on Google. With the result of this paper, we expect to help the people to use more English fluently.

딥웹 환경에서 사이버범죄 정보 수집분석 구현 (Crawling Analysis Implementation of Cyber Crime Information in Deep Web Environment)

  • 황덕현;박소영;배지선;정송주;홍진근;박현주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.390-392
    • /
    • 2020
  • 본 논문에서는 딥웹 환경에서 사이버 범죄 활동에 대한 정보를 중심으로 분석한다. 분석된 정보는 사이버 수사기관에 범죄 분석을 위한 보조정보로 활용될 수 있도록 지원하는 것과 청소년들의 사이버 범죄에 대한 위중성 및 범법성을 인지시키기 위한 교육을 목적으로 활용될 수 있도록 연구되었다. 따라서 본 논문에서는 크롤링, 파싱, 시각화 3가지 과정을 기반으로 딥웹 환경에서 활동하고 있는 정보를 키워드를 중심으로 수집하고 분석하는 솔루션 환경을 구현하였다. 분석된 정보는 사이버에서 일어나는 많은 범죄활동 가운데 가장 일어나기 쉬운 범죄 유형과 주의 깊게 수사가 이루어져야 할 범죄들을 정리하며, 수사의 방향성을 캐치 할 수 있도록 지원하는 기능을 포함한다.

온라인 뉴스 기반 공공건설사업 갈등지수 산정에 관한 기초연구 (A Study for Conflict in Public Construction Projects Based on Online News)

  • 백승원;한승헌;윤성민;임종록;남지현
    • 한국건축시공학회:학술대회논문집
    • /
    • 한국건축시공학회 2021년도 봄 학술논문 발표대회
    • /
    • pp.277-278
    • /
    • 2021
  • Conflict in public construction projects has increased for the last decades. It not only entails enormous social and economic costs but also makes stakeholders suffer from unnecessary expense and time waste. This study defines the the conflict index for public construction projects based on news data, and calculates conflict index for representative past and current public construction projects that has been deepened conflicts at the national level. The result indicates that the major conflict issue of the 2nd Jeju Airport Project are the environment and location whereas that of the Gaduk New Airport Project are the safety, location and necessity. This approach is expected to enable construction project managers to manage conflicts quantitatively based on comparing with past cases.

  • PDF

머신러닝을 위한 데이터셋 수집 RPA 개발 (Development of Dataset Cllection RPA for Machine Learning)

  • 김기태;서보인;윤상혁;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.295-296
    • /
    • 2020
  • 본 논문에서는 RPA(Robotic Process Automation) Tool 개발 과정 중 머신 러닝, 딥러닝에 필요한 이미지 크롤링 및 전처리 기능을 이용한 가공된 데이터 셋 처리 과정을 기술한다. 개발된 RPA 툴에서 머신러닝 및 딥러닝에 사용될 데이터 확보 기능을 제공하며, 세부적으로 이미지 전처리(Convert Gray, Histogram Equalization, Binary, Resize)등 반복적으로 사용되는 기능들을 제공한다. 개발된 툴을 통해 RPA의 자동화 기능과, 전처리 기능의 융합을 통해 업무의 효율성을 제공한다.

  • PDF

웹 크롤링을 사용한 자동화된 이미지 분류 모델 (Automated Image Classification Model Using Web Crawling)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.719-722
    • /
    • 2021
  • 최근 딥러닝은 이미지 인식, 음성 인식 등 여러 분야에서 고려되고 있는 기술이다. 그러나 딥러닝 기술을 이용하기 위해서는 대형데이터 세트가 필요하나 이를 구축하기 힘들고 많은 시간이 필요하다는 문제점이 있다. 이에, 본 논문에서는 웹 크롤링을 통해 사용자가 원하는 카테고리의 이미지 데이터 세트를 수집하고 수집한 데이터들을 전처리 과정을 통해 딥러닝 모델에 입력할 수 있는 데이터 세트의 구축을 자동화하며, 전이학습을 통해서 적은 훈련 시간과 높은 정확도를 얻을 수 있는 이미지 분류모델을 제안한다.

웹 크롤링과 이미지 색상 추출 인공지능을 이용한 향수 추천 서비스 구현 (Implementation of perfume recommendation service using web crawling and image color extraction artificial intelligence)

  • 김유진;이예림;정성윤;조유진;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.758-759
    • /
    • 2023
  • 이 논문에서는 웹 크롤링과 인공지능의 색상 추출 기능을 사용하여 사용자에게 맞는 향수를 추천해주는 서비스를 구현한다. 웹 사이트 제작에 용이한 Java 와 웹 크롤링과 인공지능 구현에 용이한 Python 을 기반으로 구현하였다.

악성 URL 탐지 및 필터링 시스템 구현 (An Implementation of System for Detecting and Filtering Malicious URLs)

  • 장혜영;김민재;김동진;이진영;김홍근;조성제
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.405-414
    • /
    • 2010
  • 2008년도 SecruityFocus 자료에 따르면 마이크로소프트사의 인터넷 익스플로러를 통한 클라이언트 측 공격(client-side attack)이 50%이상 증가하였다. 본 논문에서는 가상머신 환경에서 능동적으로 웹 페이지를 방문하여 행위 기반(즉, 상태변경 기반)으로 악성 URL을 분석하여 탐지하고, 블랙리스트 기반으로 악성 URL을 필터링하는 시스템을 구현하였다. 이를 위해, 우선 크롤링 시스템을 구축하여 대상 URL을 효율적으로 수집하였다. 특정 서버에서 구동되는 악성 URL 탐지 시스템은, 수집한 웹페이지를 직접 방문하여 머신의 상태 변경을 관찰 분석하고 악성 여부를 판단한 후, 악성 URL에 대한 블랙리스트를 생성 관리한다. 웹 클라이언트 머신에서 구동되는 악성 URL 필터링 시스템은 블랙리스트 기반으로 악성 URL을 필터링한다. 또한, URL의 분석 시에 메시지 박스를 자동으로 처리함으로써, 성능을 향상시켰다. 실험 결과, 게임 사이트가 다른 사이트에 비해 악성비율이 약 3배 많았으며, 파일생성 및 레지스트리 키 변경 공격이 많음을 확인할 수 있었다.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

분산신원증명 기술을 활용한 허위 부동산 매물정보 검출에 관한 연구 (A Study on the Identification of fake Estimate Service using DID)

  • 문정경;김진묵
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.649-651
    • /
    • 2021
  • 최근 들어, 부동산 매물에 대한 O2O 서비스가 웹 플랫폼 및 앱이 널리 보급되고 있다. 이로 인해서 매도자와 매수자, 부동산 중개업자는 빠르고 편리하게 부동산 매매, 전세 계약을 수행할 수 있다. 하지만, O2O 기반의 부동산 매물 정보시스템에서 가짜 정보 게시, 매물 정보에 대한 부분 수정, 고의적인 매물 정보의 미-게시로 인해서 부동산 매수자의 시간과 비용을 낭비하게 한다. 그러므로 우리는 웹 플랫폼에서 발생 가능한 부동산 매물정보들의 허위 여부를 검출 방식을 제안하고, 이에 관한 제안시스템을 설계 및 구현한다. 이를 위해서 분산 신원인증 프로토콜인 DID를 기반으로 한 개인신원증명과 매물정보 자체에 대한 검출 방식을 제안한다. 우리가 제안한 허위 부동산 매물정보 검출시스템은 3단계로 부동산 매물정보의 존재 여부 판별, 허위 매물 정보의 부분 수정 또는 고의적 미-게시 여부를 증명할 수 있다.

  • PDF