• 제목/요약/키워드: 웹 크롤링

검색결과 114건 처리시간 0.027초

머신러닝 기법을 통한 우리나라 가뭄 영향 발생 가능성 평가 (Assessing likelihood of drought impact occurrence in South korea through machine learning)

  • 서정호;김연주
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.77-77
    • /
    • 2021
  • 가뭄은 사회·경제적으로 매우 큰 피해를 주는 자연재해이며, 그 시작과 발생 지역을 정확하게 예측하는 데 어려운 문제가 있다. 이에 수문 분야에서는 가뭄에 영향을 미치는 수문·기상인자들을 이용하여 다양한 가뭄지수를 개발하였고 이를 활용하여 가뭄 현상을 모니터링하고 예측 및 전망하는데 다양한 노력을 기울이고 있다. 하지만 가뭄지수들은 실제 가뭄이 어떠한 형태로 발생하는지 파악하기에 많은 한계점을 가지고 있다. 이에 최근 들어 미국과 유럽에서는 실제 농업, 환경, 에너지 등과 같은 다양한 분야에 걸쳐 가뭄 피해로 인해 생기는 가뭄 영향을 보다 체계적이고 상세한 데이터 인벤토리로 구축하고 가뭄지수와의 상관관계, 회귀분석과 같은 연구를 통해 가뭄 영향 예측을 시도하고 있다. 따라서 본 연구에서는 보고서, 데이터베이스, 웹 크롤링(Web-Crawling)을 통한 뉴스 기사 등과 같은 자료를 수집하여 국내 가뭄 영향 인벤토리를 구축하였다. 또한 수문 분야에 널리 사용되고 있는 가뭄지수인 표준 강수 증발산량지수 SPEI(Standardized Precipitation-Evapotranspiration Index)를 기반으로 지역에 따른 가뭄 영향을 예측하기 위해 최근 로지스틱 회귀모형, Random forest, Support vector machine, XGBoost 등의 다양한 머신러닝 기법을 적용하였다. 각 모형의 성능을 Receiver Operating Characteristic(ROC) 곡선을 통해 평가하여 가뭄 영향 예측에 적절한 머신러닝 기법을 제시하였다. 본 연구 결과를 통해 텍스트 기반의 가뭄 영향 자료와 머신러닝 기법을 통한 가뭄 영향 예측 방법론은 가뭄 재난 관리에 유용한 정보를 제공할 수 있다.

  • PDF

오디세우스 대용량 검색 엔진을 위한 병렬 웹 크롤러의 구현 (Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine)

  • 신은정;김이른;허준석;황규영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권6호
    • /
    • pp.567-581
    • /
    • 2008
  • 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬, 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다.

웹 기반형(Web-based) 플랫폼 노동자의 임금 결정요인: 이전 고용주에 의한 평가의 관점에서 (Determinants of Wage for Web-based Platform Workers: In perspective of evaluation by previous employers)

  • 임지선
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.1-14
    • /
    • 2022
  • 본 연구는 웹 기반형(web-based) 플랫폼 노동자의 임금 결정에 관한 연구이다. 이를 위해 2018년 9월 전 세계적 플랫폼 노동시장 중 하나인 Freelancer.com에서 웹 크롤링(web-crawling)한 총 3,575명의 구직자 정보를 사용하였으며, 전통적 노동시장에서 유의하였던 학력, 경력과 더불어 플랫폼 노동시장에서 새롭게 사용 가능해진 이전 고용주에 의한 평가가 플랫폼 노동자의 임금상승에 유의한 영향을 주는지 OLS 및 QR 분석방법을 사용하여 추정하였다. OLS 분석결과 플랫폼 노동자의 임금은 과거 유의하였던 학력, 경력뿐 아니라 이전 고용주에 의한 평가(리뷰 수)에 의해서도 영향을 받는 것으로 나타났다. 다만, QR 분석결과 플랫폼 노동자의 임금수준이 상승함에 따라 교육보다는 경력이 리뷰 수보다는 추천 수가 플랫폼 노동자의 임금상승에 더욱 유의미한 영향을 주는 것으로 나타났다.

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로 (A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis)

  • 이민철;윤현식
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.177-195
    • /
    • 2020
  • 소비자 구전은 정보통신기술의 발전과 모바일 기기의 보급 가속화로 그 영향력 또한 급속도로 커지고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있으며, 이는 소비자의 합리적 구매 결정 행위에 부정적인 영향을 미치기도 한다. 이에 대한 문제 인식의 확산으로 가짜리뷰의 형태적 특성에 대한 연구를 비롯해 가짜리뷰를 효과적으로 분류하기 위한 다양한 탐지 방법에 대한 연구가 증가하고 있다. 이에 본 연구에서는 네이버 블로그에 작성된 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반한 습관적 패턴을 머신러닝 모형을 통해 분석해 보았다. 게시물이 작성된 블로그와 그 게시물에서 추출한 변수를 분석하여 향후 가짜리뷰 예측에 활용하고자 하였다. 연구 결과, 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 포스트의 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그에 포함된 메뉴 개수, 포스트 제목 및 본문의 길이, 포스트가 획득한 '좋아요'의 개수 또한 높은 상관관계를 보였다. 또한 광고성 리뷰 여부를 판단하기 위한 머신러닝 모형에 있어서 랜덤포레스트를 활용한 모형이 가장 우수한 모형으로 확인되었다. 본 연구에서는 블로그에 작성된 리뷰 내용에 대한 형태소 분석을 시행하는 대신 리뷰를 작성한 사람의 행위를 분석하기 위한 시도를 하였다. 이를 위해 블로그와 포스트의 특성 데이터를 수작업이 아닌 웹 크롤링 기법으로 수집하고 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 기여할 수 있을 것이다.

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

내용기반 음악검색 시스템의 비교 분석 (A Comparative Analysis of Content-based Music Retrieval Systems)

  • 노정순
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.23-48
    • /
    • 2013
  • 본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

웹 크롤러를 이용한 개인정보보호의 기술적 관리 체계 설계와 해석 (Design and Analysis of Technical Management System of Personal Information Security using Web Crawer)

  • 박인표;전상준;김정호
    • Journal of Platform Technology
    • /
    • 제6권4호
    • /
    • pp.69-77
    • /
    • 2018
  • 개인정보가 포함되어있는 개인정보파일의 경우 개인용 PC 및 스마트 단말기, 개인 저장 장치 등 End-Point 영역에서의 개인정보보호에 대한 의식은 미흡한 실정이다. 본 연구는 웹 크롤러를 통해 생성된 개인정보파일을 안전하게 검색하기 위해 Diffie-Hellman 기법을 이용하여 사용자 키 레벨을 부여하였다. 개인정보파일에 대한 공격을 대비는 SEED와 ARIA를 하이브리드(hybrid)한 슬라이싱(slicing)을 이용하여 설계하였다. 웹 크롤링 방법에 수집된 개인정보파일에 대한 암호화 성능은 키 생성에 따른 암복호화 속도, 사용자 키 레벨에 따른 암복호화 공유를 비교 하였다. 이에 대한 시뮬레이션은 대외기관 전송 프로세스를 대상으로 전달된 개인정보파일에 수행하였다. 그 결과 기존 방법의 성능을 비교하여 기존보다 검출은 4.64배의 향상됨과 동시에 정보보호율은 18.3%가 개선됨을 확인할 수 있었다.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

다크웹 환경에서 산업기술 유출 탐지 시스템 (Industrial Technology Leak Detection System on the Dark Web)

  • 공영재;장항배
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.46-53
    • /
    • 2022
  • 오늘날 4차 산업 혁명과 대규모 R&D 지원으로 인해 국내 기업은 세계 기술력 수준의 산업기술을 보유하기 시작하였으며 중요한 자산으로 변모하였다. 국가는 기업의 중요한 산업기술을 보호하고자 국가핵심기술로 지정하였으며, 특히 원자력, 조선, 반도체와 같은 기술이 유출될 경우 해당 기업뿐만 아니라 국가 차원에서도 심각한 경쟁력 손실로 이어질 수 있다. 매년 내부자 유출, 랜섬웨어 그룹의 해킹공격, 산업스파이에 산업기술 탈취 시도가 증가하고 있으며, 탈취된 산업기술은 다크웹 환경에서의 은밀하게 거래가 이루어진다. 본 논문에서는 다크웹 환경에서 은밀하게 이루어지는 산업기술 유출을 탐지하는 시스템을 제안한다. 제안된 모델은 먼저 OSINT 환경에서 수집한 정보를 이용하여 다크웹 크롤링을 통한 데이터베이스를 구축한다. 이후 KeyBERT 모델을 이용한 산업기술 유출 키워드를 추출한 후 다크웹 환경에서의 산업기술 유출 징후를 정량적 수치로 제안한다. 마지막으로 식별된 다크웹 환경에서의 산업기술 유출 사이트를 기반으로 PageRank 알고리즘 통한 2차 유출 가능성을 탐지한다. 제안된 모델을 통해 27,317개의 중복 없는 다크웹 사이트를 수집하였으며, 100개의 원자력 특허에서 총 15,028개의 원자력 관련 키워드를 추출하였다. 가장 높은 원자력 유출 다크웹 사이트를 기반으로 2차 유출을 탐지한 결과 12개의 다크웹 사이트를 식별하였다.

뉴스 데이터 기반 농업 가뭄 전조 감지 및 확산 분석 (Detection and spread of agricultural drought warning based on news data)

  • 김민진;남원호;양미혜;이지완;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.339-339
    • /
    • 2023
  • 2018년도 연강수량은 1,386.9 mm로 평년 수준의 비가 내렸으나, 7-8월에 발생한 폭염 및 가뭄으로 인해 강원, 전남, 경북, 충남 지역에서 밭작물 중심으로 22,767 ha 피해가 발생하였다. 2019년도 연강수량은 1,171.9 mm로 평년보다 약 10% 적은 수준의 비가 내렸으며, 동일시기에 인천, 강원, 충남 지역에서 논·밭작물 중심으로 3,112 ha 피해가 발생하였다. 기후변화로 인해 강수량이 지역별로 편중되어 국지적 가뭄이 빈발하여 지역별로 가뭄의 영향, 피해, 체감 정도가 상이한 양상을 보이고 있다. 가뭄을 사전에 방지하기 위해서는 가뭄 모니터링과 선제적 대응이 중요하며, 현재 가뭄의 특징, 상황 등의 목적에 따라 다양한 형태의 가뭄 모니터링 시스템이 개발되고 있다. 가뭄의 피해와 영향 정도는 지역 간의 차이가 나타나 지역별로 가뭄을 체감하는 정도가 다르기 때문에 하나의 결과로 나타내기에는 어려움이 있다. 따라서, 가뭄의 발생 시기와 확산 정도를 분석하여 특보 발효 시점과 가뭄 대응 방안에 대한 기준 마련이 중요하다. 본 연구는 현대 사회에서 가장 중요한 요소로써 활용되고 있는 빅데이터 중 비정형 데이터로 분류되는 뉴스데이터와 논·밭의 가뭄을 나타내는 농업 가뭄과 관련된 데이터를 활용하여 농업 가뭄의 전조를 파악해보고자 한다. 2018년부터 2019년까지 전국을 대상으로 농업 가뭄에 관한 키워드 선정 후, 웹 크롤링을 통해 뉴스데이터를 수집해 논 가뭄과 밭 가뭄을 구별하여 각 지역에서 최초로 가뭄 기사가 발행된 시기와 지역별 기사의 빈도를 산출하였다. 뉴스데이터의 농업 가뭄 전조 감지 가능성을 파악하기 위해 국가가뭄정보통계집에서 논 물마름 시기와 밭 시듦 시기 자료를 활용하였다. 가뭄 피해 발생시기와 관련 기사 발행 시기 비교, 농업용수 대상 비상용수 지원 자료를 활용하여 실제 농업 가뭄확산 감지 여부를 분석하여 농업 가뭄 관련 뉴스데이터 간의 상관성을 분석하였다.

  • PDF