• 제목/요약/키워드: Web Crawler System

검색결과 39건 처리시간 0.033초

웹 크롤러를 이용한 자동 패치 정보 수집 시스템 (Automatic Patch Information Collection System Using Web Crawler)

  • 김용건;나사랑;김환국;원유재
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1393-1399
    • /
    • 2018
  • 다양한 소프트웨어를 사용하는 기업은 보안 업체에서 제공하는 패치관리시스템을 사용하여 소프트웨어의 취약점을 일괄적으로 관리해서 보안 수준을 높인다. 시스템 관리자는 최신 소프트웨어 버전을 유지하기 위해 신규 패치 정보를 제공하는 벤더 사이트를 모니터링 하지만 패치를 제공하는 주기가 불규칙적이고 웹 페이지 구조가 다르기 때문에 패치 정보를 검색하고 수집하는데 많은 비용과 모니터링 시간이 소요된다. 이를 줄이기 위해 키워드나 웹 서비스를 기반으로 패치 정보 수집을 자동화하는 연구가 진행되었으나 벤더 사이트에서 패치 정보를 제공하는 구조가 규격화되어 있지 않기 때문에 특정 벤더 사이트에서만 적용 가능했다. 본 논문에서는 패치 정보를 제공하는 벤더 사이트 구조와 특징을 분석하고 패치 정보 수집에 소모되는 비용과 모니터링 시간을 줄이기 위해서 웹 크롤러를 이용해 패치 정보 수집을 자동화하는 시스템을 제안한다.

크롤러와 형태소 분석기를 활용한 웹상 개인정보 유출 판별 시스템 (Crawlers and Morphological Analyzers Utilize to Identify Personal Information Leaks on the Web System)

  • 이형선;박재희;나철훈;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.559-560
    • /
    • 2017
  • 최근 개인정보 유출 문제가 대두됨에 따라 데이터 수집과 웹 문서 분류에 관한 연구들이 이루어지고 있다. 기존 시스템은 개인정보의 유무 여부만 판단하고 동명이인이나 사용자가 게시한 문서에 대한 분류는 이루어지지 않기 때문에 불필요한 데이터가 필터링 되지 않는 문제점이 있다. 본 논문에서는 이를 해결하기 위해 크롤러와 형태소 분석기를 활용하여 유출된 데이터의 유형이나 동음이의어를 식별할 수 있는 시스템을 제안한다. 사용자는 크롤러를 통해 웹상의 개인정보를 수집한다. 수집된 데이터는 형태소 분석기를 통해 분류한 후 유출된 데이터를 확인할 수 있다. 또한 시스템을 재사용 할 경우 정확도가 더 높은 결과를 얻을 수 있다. 이를 통해 사용자는 맞춤형 데이터를 제공 받을 수 있을 것으로 사료된다.

  • PDF

사용자 관심분야에 따른 RSS 채널 추천 시스템 (RSS Channel Recommendation System based on Interesting Field)

  • 김준일;이영석;조정원;최병욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.1153-1156
    • /
    • 2005
  • We propose the RSS Channel retrieval system to activate the blog information transmission. The system consists of a web crawler and blog DB. Web Crawler moves in limited breath first searching method and it collects the RSS Channel Address. Blog DB renews information using RSS. The user could be recommended the RSS Channel using the various query.

  • PDF

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 (Multi-threaded Web Crawling Design using Queues)

  • 김효종;이준연;신승수
    • 융합정보논문지
    • /
    • 제7권2호
    • /
    • pp.43-51
    • /
    • 2017
  • 연구목적 : 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 연구방법 : 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 연구결과 : 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 향후연구 방향 : 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

웹 페이지 비교통합 기반의 정보 수집 시스템 설계 및 개발에 대한 연구 (A Study on Design and Development of Web Information Collection System Based Compare and Merge Method)

  • 장진욱
    • 한국IT서비스학회지
    • /
    • 제13권1호
    • /
    • pp.147-159
    • /
    • 2014
  • Recently, the quantity of information that is accessible from the Internet is being dramatically increased. Searching the Web for useful information has therefore become increasingly difficult. Thus, much research has been done on web robots which perform internet information filtering based on user interest. If a web site which users want to visit is found, its content is searched by following the searching list or Web sites links in order. This search process takes a long time according as the number of page or site increases so that its performance need to be improved. In order to minimize unnecessary search with web robots, this paper proposes an efficient information collection system based on compare and merge method. In the proposed system, a web robot initially collects information from web sites which users register. From the next visit to the web sites, the web robot compares what it collected with what the web sites have currently. If they are different, the web robot updates what it collected. Only updated web page information is classified according to subject and provided to users so that users can access the updated information quickly.

World Wide Web 상의 첨단 생산 기술: 방법론과 응용기술 (Advanced Manufacturing Technologies on the World Wide Web: Methodologies and Application Techniques)

  • 김성집;김낙현;양태곤
    • 산업공학
    • /
    • 제9권3호
    • /
    • pp.306-316
    • /
    • 1996
  • The easily use of WWW and Web browser of INTERNET makes the world our stage. But when we search for the information and resource that we want, the information supplied by search engine (e.g., Yahoo, Lycos, WebCrawler, Alta Vista) is inadequate to acquire the necessary and related information of research issues. This paper surveys AMT(Advanced Manufacturing Technology) which is the research topics recently on the WWW(WorLd Wide Web) and provides searching methods and information for academic research, technical report, proceedings, software, etc. It also briefly surveys WWW-VL(Virtual Library) and reviews the major three technology, CALS (Commerce At Light Speed), AMS(Agile Manufacturing System), CE(Concurrent Engineering), that is recently the focus of the research issue of Industrial Engineer.

  • PDF

주제 중심 수집기를 이용한 RSS 채널 추천 시스템 (RSS Channel Recommendation System using Focused Crawler)

  • 이영석;조정원;김준일;최병욱
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.52-59
    • /
    • 2006
  • 최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 개인별 관심 분야의 전문화와 블로그의 보급을 위해 RSS라는 신디케이션 기술이 제공되고 있다. 사용자는 RSS 수집기에 RSS 채널의 주소를 등록함으로써, 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어서 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 사용자가 웹상에 존재하는 RSS 문서를 효과적으로 이용할 수 있도록 RSS 채널의 주소를 수집하는 주제 중심의 수집가와 사용자 질의에 따른 RSS 채널의 순위 부여 방안을 제안한다. 제안된 RSS 수집기를 이용하면 사용자는 원하는 RSS 채널 주소를 효과적으로 검색 할 수 있어서 자료 검색의 효율성을 증진시킬 수 있다.

웹 로봇 구현 및 한국 웹 통계보고 (Implementation of a Web Robot and Statistics on the Korean Web)

  • 김성진;이상호
    • 정보처리학회논문지C
    • /
    • 제10C권4호
    • /
    • pp.509-518
    • /
    • 2003
  • 웹 로봇은 웹 문서를 다운로드하고 저장하는 프로그램이다. 현재 웹 로봇 구현에 대한 여러 연구들이 진행되고, 웹에 대한 다양한 통계들이 보고되고 있다. 첫째, 본 논문에서는 새로운 웹 로봇을 개발하고, 개발된 웹 로봇의 전체적인 구조와 구현 결정들을 기술한다. 둘째, 약 7천 4백만 한국 웹 문서들에 대한 여러 통계치를 보고한다. 셋째, 1,424 개의 한국 웹 사이트를 지속적으로 관찰하여 웹 문서들의 변경 경향을 조사한다. 본 논문에서는 웹 문서의 변경에 영향을 미치는 요소들이 식별된다. 식별된 요소는 갱신할 웹 문서를 선택하기 위한 정보로서 유용하게 활용될 수 있다.