• 제목/요약/키워드: 웹 크롤링

검색결과 115건 처리시간 0.026초

웹 사전 크롤링을 이용한 데이터베이스 메타데이터 표준화 처리 모델 (Database metadata standardization processing model using web dictionary crawling)

  • 정하나;박구락;정영석
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.209-215
    • /
    • 2021
  • 데이터 품질 관리는 최근 중요한 이슈로 자리잡았다. 데이터베이스의 메타데이터 표준화는 데이터 품질관리 방안 중 하나이다. 본 연구에서는 일관된 메타데이터 관리를 위하여 표준단어사전 관리를 지원하는 알고리즘을 제시한다. 해당 알고리즘은 웹 사전 크롤링을 통해 데이터베이스 메타데이터의 동의어 관리 자동화를 지원한다. 또한 웹 사전 크롤링 과정에서 생길 수 있는 동음이의어 판별 이슈를 해결하여 데이터의 정확도를 향상시킨다. 본 연구에서 제안하는 알고리즘은 기존의 수동적 관리에 비해 메타데이터 데이터 품질의 신뢰도를 높인다. 또한 이음동의어 데이터 등록 및 관리에 소비되는 시간을 단축시킬 수 있다. 새로운 데이터 표준화 부분 자동화 모델에 대한 추가 연구는 향후 데이터 표준화 프로세스에서 자동화 가능한 작업을 파악하여 진행되어야 한다.

크롤링을 통한 반응형웹 기반의 바이러스 정보 시스템 (Responsive web based Virus Information Sytem using Crawling)

  • 허태성;백재원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.269-270
    • /
    • 2020
  • 코로나 사태 이후에도 세상은 수많은 바이러스가 유행하게 될 것이다. 수많은 질병에서 필요한 것은 정보이고 이러한 정보를 얻기 위해서 사람들은 많은 사이트를 찾아다니며 정보를 검색하는 데 시간을 소비하고 원하는 정보를 빠르게 찾을 수 없다. 이러한 문제를 해결하고자 현재 유행하고 있는 질병 현황 정보, 시도별 현황 정보, 마스크 판매처 위치 및 재고, 바이러스 감염자 방문 기록을 확인할 수 있는 등 바이러스 정보를 짧은 시간에 사용자가 원하는 정보를 한 눈에 확인할 수 있도록 각종 사이트에서 데이터를 크롤링하여 가공하여 필요한 정보를 제공하는 반응형웹 시스템을 개발하였다.

  • PDF

심층 웹 문서 자동 수집을 위한 크롤링 알고리즘 설계 및 실험 (Crawling algorithm design and experiment for automatic deep web document collection)

  • 강윤정;이민혜;원동현
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.1-7
    • /
    • 2023
  • 심층 웹 수집은 검색 양식에 질의어를 입력하고 응답 결과를 수집하는 것을 의미한다. 심층 웹이 가진 정보는 정적으로 구성되는 표면 웹보다 약 450~550배 이상의 정보를 가지고 있을 것으로 추산한다. 정적인 방식에서는 웹페이지가 새로 고쳐지기 전까지 변화된 정보를 보여주지 못한다. 동적 웹페이지 방식은 실시간으로 필요한 정보가 갱신되어 웹페이지를 새로 불러오지 않아도 실시간 정보 제공이 가능한 장점이 있지만, 일반적인 크롤러는 갱신된 정보에 접근하는 데 어려움이 있다. 따라서 이들 심층 웹에 있는 정보들을 크롤러를 이용해 자동으로 수집할 방안이 필요하다. 이에 본 논문은 스크립트를 일반적인 링크로 활용하는 방법을 제안하였으며, 이를 위해 클라이언트 스크립트를 일반 URL처럼 활용이 가능한 알고리즘을 제안하고 실험하였다. 제안된 알고리즘은, 검색 양식에 데이터를 입력하는 일반적인 방법 대신 메뉴 탐색 및 스크립트 실행으로 웹 정보를 수집하는 데 중점을 두었다.

웹 크롤링을 이용한 국가 여행 위험요인 도출 기법 (A Deduction Technique of National Travel Risk Factor Using Web Crawling)

  • 정다운;이미현;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.992-995
    • /
    • 2017
  • 최근 해외로 여행을 떠나는 인구가 증가함으로써 여행의 만족도와 안전성을 높이기 위해 사전 조사의 중요성이 높아지고 있다. 그러나 인터넷을 통해 접근 가능한 SNS와 블로그의 글은 개인이 주관적인 견해를 가지고 작성하기 때문에 신뢰성이 떨어지게 되고 개인이 수집 가능한 정보의 양이 한정적이기 때문에 정확도면에서 한계를 가지게 된다. 본 논문은 웹 크롤링을 통하여 여행 목적지 국가에 관한 뉴스 기사들을 자동으로 수집하고 국가별 위험 요인을 도출하는 기법을 제안한다. 제안하는 기법을 활용할 시 해외여행에 대한 국민의 안전과 만족도가 높아지게 되고 사회 구성원의 전반적인 삶의 질이 향상될 것으로 기대된다.

기계학습을 이용한 동작인식 동영상 검색시스템 제안 (A Proposal of Motion Recognition-based Video Search System using Machine Learning)

  • 서원성;이강희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.463-464
    • /
    • 2019
  • 본 논문은 기계학습을 기반으로 아두이노와 시리얼통신을 통한 사용자의 동작인식을 이용해 보다 간단하게 인터넷상의 원하는 동영상을 찾을 수 있는 검색시스템을 제작하고자 하였다. 이 검색시스템은 Python을 기반으로 SVM(Support Vector Machine)을 이용한 패턴 분류를 사용하였으며 이를 통해 사용자의 동작을 입력받아 문자를 예측 할 수 있다. 사용자는 이 검색시스템을 사용하기 위하여 우선 문자에 대한 사용자의 동작입력을 통해 학습 데이터 셋을 만들어야 하며 그것을 SVM을 이용하여 학습 모델과 식별자를 만들고, 만들어진 분류기를 통하여 동작인식을 바탕으로 문자의 결과를 예측 할 수 있다. 최종적으로 사용자의 동작인식을 거쳐 만들어진 문자열을 이용해 인터넷 동영상 사이트인 Youtube를 통해 웹 크롤링하여 문자열과 관련 있는 동영상을 찾아준다.

  • PDF

웹 크롤링과 전이학습을 활용한 이미지 분류 모델 (Image Classification Model using web crawling and transfer learning)

  • 이주혁;김미희
    • 전기전자학회논문지
    • /
    • 제26권4호
    • /
    • pp.639-646
    • /
    • 2022
  • 딥러닝의 발전으로 딥러닝 모델들이 이미지 인식, 음성 인식 등 여러 분야에서 활발하게 사용 중이다. 하지만 이 딥러닝을 효과적으로 사용하기 위해서는 대형 데이터 세트가 필요하지만 이를 구축하기에는 많은 시간과 노력 그리고 비용이 필요하다. 본 논문에서는 웹 크롤링이라는 이미지 수집 방법을 통해서 이미지를 수집하고 데이터 전처리 과정을 거쳐 이미지 분류 모델에 사용할 수 있게 데이터 세트를 구축한다. 더 나아가 전이학습을 이미지 분류 모델에 접목해 카테고리값을 넣어 자동으로 이미지를 분류할 수 있는 경량화된 모델과 적은 훈련 시간 및 높은 정확도를 얻을 수 있는 이미지 분류 모델을 제안한다.

웹 크롤링을 사용한 자동화된 이미지 분류 모델 (Automated Image Classification Model Using Web Crawling)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.719-722
    • /
    • 2021
  • 최근 딥러닝은 이미지 인식, 음성 인식 등 여러 분야에서 고려되고 있는 기술이다. 그러나 딥러닝 기술을 이용하기 위해서는 대형데이터 세트가 필요하나 이를 구축하기 힘들고 많은 시간이 필요하다는 문제점이 있다. 이에, 본 논문에서는 웹 크롤링을 통해 사용자가 원하는 카테고리의 이미지 데이터 세트를 수집하고 수집한 데이터들을 전처리 과정을 통해 딥러닝 모델에 입력할 수 있는 데이터 세트의 구축을 자동화하며, 전이학습을 통해서 적은 훈련 시간과 높은 정확도를 얻을 수 있는 이미지 분류모델을 제안한다.

악성코드 은닉사이트의 분산적, 동적 탐지를 통한 감염피해 최소화 방안 연구 (A Study on Minimizing Infection of Web-based Malware through Distributed & Dynamic Detection Method of Malicious Websites)

  • 신화수;문종섭
    • 정보보호학회논문지
    • /
    • 제21권3호
    • /
    • pp.89-100
    • /
    • 2011
  • 최근 웹 사이트를 통해 유포되는 웹 기반 악성코드가 심각한 보안이슈로 대두되고 있다. 기존 웹 페이지 크롤링(Crawling) 기반의 중앙 집중식 탐지기법은, 크롤링 수준을 웹 사이트의 하위링크까지 낮출 경우 탐지에 소요되는 비용(시간, 시스템)이 기하급수적으로 증가하는 문제를 가지고 있다. 본 논문에서는 웹 브라우저 이용자가 악성코드 은닉 스크립트가 포함된 웹 페이지에 접속할 경우 이를 동적으로 탐지하여 안전하게 브라우징 해줌으로써, 감염 피해를 예방할 수 있는 웹 브라우저 기반의 탐지도구들 제시하고, 이 도구를 적용한 분산된 웹 브라우저 이용자가 모두 악성코드 은닉 웹 페이지 탐지에 참여하고, 탐지결과를 피드백 함으로써, 웹 사이트의 하부 링크까지 분산적, 동적으로 탐지하고 대응할 수 있는 모델을 제안한다.

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

웹소설 키워드를 통한 이용 독자 내적 욕구 및 특성 파악 (Identifying Reader's Internal Needs and Characteristics Using Keywords from Korean Web Novels)

  • 조수연;오하영
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.158-165
    • /
    • 2020
  • 모바일 상에서 연재되고 소비되는 웹소설은 다른 문화콘텐츠와 마찬가지로 우리 사회의 한 단면을 포착해낼 수 있는 특징이 있다. 본 논문은 웹소설 키워드 정보를 수집해 웹소설의 주요 모티프 및 트렌드를 파악하고, 나아가 기존 논문들과 연관 지어 이용 독자의 내적 욕구 및 특성을 분석하는 것을 목적으로 한다. 분석 결과 접근성이 높고 가독성이 편리한 모바일 환경과 관련해 현대물과 성인 작품이 인기가 높았다. 남자주인공은 웹소설 상에서 이상적으로 그려지는 경향이 있었으나, 현재 남자주인공의 주요 키워드는 2000년대 초와 비교했을 때 변화를 확인할 수 있었다. 이는 곧 현대인들의 젠더 관념의 변화를 시사한다. 이와 상반되게 여자주인공은 내면에 상처를 지닌 캐릭터가 인기가 많았고, 이에 대한 원인 중 하나로 사회구조적인 환경 속에서 좌절을 겪어야 했던 현대 여성의 현실을 설명했다. 본 논문은 웹 크롤링의 한계로 성인 작품에 대해 심층적인 분석을 진행하지는 못했지만, 정량적 분석이 미흡했던 기존 웹소설 연구들에 키워드라는 파라텍스트를 활용하여 현대인들의 내적 욕구 및 특성을 분석했다는 의의를 지닌다.