• Title/Summary/Keyword: Web Data Collection

검색결과 313건 처리시간 0.026초

Numerical Formula and Verification of Web Robot for Collection Speedup of Web Documents

  • 김원;김영기;진용욕
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.1-10
    • /
    • 2004
  • A web robot is a software that has abilities of tracking and collecting web documents on the Internet(l), The performance scalability of recent web robots reached the limit CIS the number of web documents on the internet has increased sharply as the rapid growth of the Internet continues, Accordingly, it is strongly demanded to study on the performance scalability in searching and collecting documents on the web. 'Design of web robot based on Multi-Agent to speed up documents collection ' rather than 'Sequentially executing Web Robot based on the existing Fork-Join method' and the results of analysis on its performance scalability is presented in the thesis, For collection speedup, a Multi-Agent based web robot performs the independent process for inactive URL ('Dead-links' URL), which is caused by overloaded web documents, temporary network or web-server disturbance, after dividing them into each agent. The agents consist of four component; Loader, Extractor, Active URL Scanner and inactive URL Scanner. The thesis models a Multi-Agent based web robot based on 'Amdahl's Law' to speed up documents collection, introduces a numerical formula for collection speedup, and verifies its performance improvement by comparing data from the formula with data from experiments based on the formula. Moreover, 'Dynamic URL Partition algorithm' is introduced and realized to minimize the workload of the web server by maximizing a interval of the web server which can be a collection target.

  • PDF

대학도서관 장서관리 웹사이트 컨텐츠구성에 관한 연구 (A Study on the Construction of Contents for Collection Management Web Sites of University Libraries)

  • 윤혜영
    • 한국문헌정보학회지
    • /
    • 제36권1호
    • /
    • pp.165-186
    • /
    • 2002
  • 본 연구는 인터넷이라는 새로운 정보기술을 활용하여 장서관리에 대한 정보를 제공하고 있는 미국 대학도서관 웹사이트의 현황을 살펴보고 구성요소별 내용평가를 통해 웹사이트를 분석하고, 나아가 장서관리의 목적과 특성에 맞는 사이트를 체계적으로 운영할 수 있는 장서관리 웹사이트의 컨텐츠 구성을 목적으로 한다. 컨텐츠 구성은 <장서개발정책>, <직원주소록>, <통계>, <선정도구>, <구입 희망자료 신청>, <신간안내>의 6개 영역으로 구분된다. 웹사이트의 활용을 통해 장서관리 업무의 효율화를 이룸으로써 향후 장서관리 웹사이트를 구축하고자 하는 도서관에게 보다 합리적이고 체계적으로 나아갈 방향을 제시하고자 한다.

기업 마케팅 전략을 위한 SNS 및 Web 데이터 분석 시스템 설계 (A Design of SNS and Web Data Analysis System for Company Marketing Strategy)

  • 이병관;정은희;정이나
    • 한국정보전자통신기술학회논문지
    • /
    • 제6권4호
    • /
    • pp.195-200
    • /
    • 2013
  • 본 논문에서는 기업 이미지에 타격을 줄 수 있는 부정적인 SNS와 Web 데이터를 빠르게 분석하여 기업 마케팅 전략에 활용할 수 있는 SNS 및 Web 데이터 분석 시스템을 제안한다. 본 논문에서 제안하는 시스템은 SNS 및 Web Data를 수집하는 데이터 수집 모듈(Data Collection Module), 수집된 데이터를 저장하는 HBase 모듈(Hbase Module), 수집된 데이터의 의미 분석을 수행한 후 데이터의 의미를 평가 및 분류하는 데이터 분석 모듈(Data Analysis Module) 그리고 관리자에 의해 요청된 질의어에 따라 기업과 관련된 SNS와 Web데이터를 이용하여 최적화된 Map Reduce 과정을 수행하는 PSH 모듈(Priority Scheduling Hadoop Module)로 구성된다. 본 논문은 이런 모듈들을 통하여 SNS와 Web 데이터를 보다 효율적으로 관리하여 이 분석 결과를 기업 마케팅 전략에 활용할 수 있다.

Implementation of Search Engine to Minimize Traffic Using Blockchain-Based Web Usage History Management System

  • Yu, Sunghyun;Yeom, Cheolmin;Won, Yoojae
    • Journal of Information Processing Systems
    • /
    • 제17권5호
    • /
    • pp.989-1003
    • /
    • 2021
  • With the recent increase in the types of services provided by Internet companies, collection of various types of data has become a necessity. Data collectors corresponding to web services profit by collecting users' data indiscriminately and providing it to the associated services. However, the data provider remains unaware of the manner in which the data are collected and used. Furthermore, the data collector of a web service consumes web resources by generating a large amount of web traffic. This traffic can damage servers by causing service outages. In this study, we propose a website search engine that employs a system that controls user information using blockchains and builds its database based on the recorded information. The system is divided into three parts: a collection section that uses proxy, a management section that uses blockchains, and a search engine that uses a built-in database. This structure allows data sovereigns to manage their data more transparently. Search engines that use blockchains do not use internet bots, and instead use the data generated by user behavior. This avoids generation of traffic from internet bots and can, thereby, contribute to creating a better web ecosystem.

웹을 이요한 데이터 수집 및 관리에 관한 연구 : 강의평가 시스템 구현 (Data Collection and Management on the World Wide Web : Evaluating system for Lecture)

  • 안정용;최승현;한경수
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.287-296
    • /
    • 2000
  • 데이터 수집과 관리, 그리고 분석을 통한 정보의 제공은 통계학의 기본적 사안이며, 다량의 데이터가 양산되는 현대 사회에서 그 중요성은 더욱 확대되고 있다. 그러나 이러한 분야에 대한 연구는 분석분야에 비하여 상대적으로 많이 이루어지지 못한 것이 사실이다. 본 연구에서는 웹을 활용한 데이터 수집과 관리 방법에 대한 일반적인 사항들에 대해 살펴보고, 데이터를 수집함과 동시에 분석하여 사용자에게 정보를 전달해 줄 수 있는 강의평가 시스템을 사례로 제시한다.

  • PDF

OASIS의 선정지침 개선(안)에 관한 연구 (A Study on Improving the OASIS Selection Guidelines)

  • 노영희;고영선
    • 한국비블리아학회지
    • /
    • 제23권3호
    • /
    • pp.105-137
    • /
    • 2012
  • 웹상에서 유통되는 정보자원의 역사적, 사회적, 문화적 가치는 전 세계적으로 인정받고 있으며, 인류 유산으로 후세에게 물려주기 위한 웹 아카이빙 사업이 수행되고 있다. 이 사업에서 가장 기본이 되는 것은 수많은 웹 자원 중 수집 및 보존의 가치가 있는 웹 자원을 선정하기 위한 선정지침이라 할 수 있다. 본 연구에서는 선행연구 및 국내외 웹 아카이빙 선정지침을 집중적으로 분석하여 OASIS를 위한 선정지침의 개선안을 제안하였다. 첫째, 웹 자료에 대한 정의, 용어정의, 수집기본원칙, 수집방법, 수집주기, 구체적인 아카이빙 대상자원 선정에 대해서 개선 내용을 제안하였다. 둘째, 수집대상자료에 대해서 대폭적으로 개선 내용을 제안하였으며, 웹 아카이빙 선정제외자료에 대한 제안도 하였다. 마지막으로, 수집방법과 온라인 자료 납본과의 관련성, 선정대상자료에 대한 목록데이터베이스 구축의 필요성, 협력형 아카이빙 정책의 필요성에 대해서 논의하였다.

웹크롤러의 수집주기 최적화 (Refresh Cycle Optimization for Web Crawlers)

  • 조완섭;이정은;최치환
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.30-39
    • /
    • 2013
  • 웹 크롤러는 서버의 부담을 최소화하면서도 최신의 데이터를 웹사이트로부터 수집하고 유지해야 한다. 빅데이터 시대와 같이 데이터가 폭발적으로 증가하는 시대에 데이터 소스로부터 자주 모든 데이터를 추출하는 것은 서버에 심각한 부담을 주게 된다. 무선통신 기술과 다양한 스마트 기기들의 확산으로 정보가 급속도로 생성되고 있으며, 어디에서나 어느 시간이나 지속적으로 생성 및 변경되고 있다. 웹크롤러는 이러한 상황을 감안하여 최신의 정보를 적은 오버헤드로 유지해 나가는 것이 중요한 이슈로 부각되고 있다. 본 논문에서는 웹사이트의 변경사항을 체크할 수 있는 효과적인 방안과 웹사이트의 수집 주기를 동적으로 변경함으로써 적은 비용으로 최신성을 유지할 수 있는 방안을 제시한다. 핵심 아이디어는 과거 히스토리로부터 웹사이트 변경이 집중되는 시간을 파악하여 웹수집 주기를 결정하는데 반영한다는 점이다. 논문에서는 특정 웹사이트의 데이터를 추출하는 Java 크롤러를 개발하고, 제안된 방식과 기존 방식의 유용성을 비교하였다. 제안된 기법을 사용하면 정적인 방식보다 서버 오버헤드를 절반정도(46.2%)로 줄이면서도 최신성을 더욱 높게 보장할 수 있게 된다.

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

효과적인 웹 사용자의 패턴 분석을 위한 하둡 시스템의 웹 로그 분석 방안 (A Method for Analyzing Web Log of the Hadoop System for Analyzing a Effective Pattern of Web Users)

  • 이병주;권정숙;고기철;최용락
    • 한국IT서비스학회지
    • /
    • 제13권4호
    • /
    • pp.231-243
    • /
    • 2014
  • Of the various data that corporations can approach, web log data are important data that correspond to data analysis to implement customer relations management strategies. As the volume of approachable data has increased exponentially due to the Internet and popularization of smart phone, web log data have also increased a lot. As a result, it has become difficult to expand storage to process large amounts of web logs data flexibly and extremely hard to implement a system capable of categorizing, analyzing, and processing web log data accumulated over a long period of time. This study thus set out to apply Hadoop, a distributed processing system that had recently come into the spotlight for its capacity of processing large volumes of data, and propose an efficient analysis plan for large amounts of web log. The study checked the forms of web log by the effective web log collection methods and the web log levels by using Hadoop and proposed analysis techniques and Hadoop organization designs accordingly. The present study resolved the difficulty with processing large amounts of web log data and proposed the activity patterns of users through web log analysis, thus demonstrating its advantages as a new means of marketing.

심박수 측정을 위한 안면 얼굴 영상 데이터 수집 시스템 설계 (Design of Facial Image Data Collection System for Heart Rate Measurement)

  • 장승주
    • 한국정보통신학회논문지
    • /
    • 제25권7호
    • /
    • pp.971-976
    • /
    • 2021
  • 본 논문은 심박수 측정을 위한 안면 얼굴 영상 데이터 수집 시스템을 설계한다. 본 논문의 설계 내용은 웹 카메라를 이용하여 사용자 얼굴 영상 정보들을 수집하고, 수집된 사용자 얼굴 영상 정보들을 이용하여 심박수를 측정하는 기능이다. 웹 카메라를 이용한 비접촉식 심박수 측정으로 인하여 오차가 발생할 가능성이 있다. 따라서 본 논문에서는 심박수 측정시 얼굴 영상 데이터 분류를 통해서 오차가 발생한 경우와 정상적인 경우를 구별하여 심박수 프로그램 오차 수정에 이용할 수 있도록 하고자 한다. 오차가 발생된 경우의 자료를 이용하여 오차를 줄이기 위한 목적으로 사용할 수 있도록 한다. 본 논문에서 제안하고 설계한 내용에 대해서 실험을 수행하였다. 실험 결과 본 논문에서 설계한 내용이 정상적으로 동작됨을 확인할 수 있었다.