• 제목/요약/키워드: 웹 데이터 수집

검색결과 619건 처리시간 0.032초

래퍼 기반 경제 데이터 수집 시스템 설계 및 구현 (Wrapper-based Economy Data Collection System Design And Implementation)

  • 박철호;구영현;유성준
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.227-230
    • /
    • 2015
  • 경제의 흐름, 주가 등을 분석, 예측을 위해 경제 뉴스, 주가 등 데이터 수집이 필요하다. 일반적인 웹 크롤러는 자동적으로 웹서버를 방문하면서 웹페이지 내용을 분석하고 URL들을 추출하면서 웹 문서를 수집한다. 반면 특정한 주제의 문서만을 수집할 수 있는 크롤러 형태도 있다. 특정 사이트에서 경제 뉴스 정보만 수집하기 위하여 사이트의 구조를 분석하고 직접적으로 데이터를 수집해올 수 있는 래퍼 기반 웹 크롤러 설계가 필요하다. 본 논문에서는 빅데이터를 기반으로, 경제뉴스 분석 시스템을 위한 크롤러 래퍼를 설계, 구현하여 경제 전문 분야의 뉴스 데이터를 수집하였다. 2000년부터 현재까지 미국 자동차 시장의 주식 데이터를 래퍼 기반으로 가져오고, 사이트 상에서의 데이터가 업데이트되는 주기를 판단하여 주기적으로 업데이트 함으로써 중복되지 않게 하였다. 그리고 미국, 한국의 경제 기사를 래퍼 기반의 웹 크롤러를 사용하여 수집하고, 향후 분석이 쉽게 데이터를 정형화 시켜 저장한다.

  • PDF

웹 사용 마이닝에서의 데이터 수집 전략과 그 응용에 관한 연구 (Research on Data Acquisition Strategy and Its Application in Web Usage Mining)

  • 염종림;정석태
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.231-241
    • /
    • 2019
  • 웹 사용 마이닝 (WUM)은 웹 마이닝과 데이터 마이닝 기술의 응용 중의 하나다. 웹 마이닝 기술은 사용자가 웹 사이트에 액세스 할 때 웹 사용자가 생성 한 웹 서버 로그 데이터를 사용하여 사용자의 액세스 패턴을 식별하고 분석하는데 사용된다. 따라서 우선 데이터 마이닝 기술을 적용하여 웹 로그에서 사용자 액세스 패턴을 발견하기 전에 합리적인 방법으로 데이터를 수집해야 한다. 데이터 수집의 중요한 일은 사용자의 웹 사이트 방문 과정에서 사용자의 자세한 클릭 동작을 효율적으로 얻는 것이다. 이 논문은 주로 데이터 수집 전략 및 필드 추출 알고리즘과 같은 웹 사용 마이닝 데이터 프로세스의 첫 단계 이전의 데이터 수집 단계에 중점을 둔다. 필드 추출 알고리즘은 로그 파일에서 필드를 분리하는 프로세스를 수행하며 대용량의 사용자 데이터에 대한 실제 응용에도 사용된다.

빅데이터 분석 서비스 지원을 위한 지능형 웹 크롤러 (Intelligent Web Crawler for Supporting Big Data Analysis Services)

  • 서동민;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제13권12호
    • /
    • pp.575-584
    • /
    • 2013
  • 빅데이터 분석을 위해 활용되는 데이터로는 뉴스, 블로그, SNS, 논문, 특허 그리고 센서로부터 수집된 데이터 등 매우 다양한 유형의 데이터가 있다. 특히, 신뢰성 있는 데이터를 실시간 제공하는 웹 문서의 활용이 점차 확산되고 있다. 그리고 빅데이터의 활용이 다양한 분야로 점차 확산되고 웹 데이터가 매년 기하급수적으로 증가하면서 웹 문서를 자동으로 수집하는 웹 크롤러의 중요성이 더욱 커지고 있다. 하지만, 기존 크롤러들은 일부 사이트에서 수집된 웹 문서에 포함된 URL만을 기반으로 웹 문서를 수집하기 때문에 사이트 전체 웹 문서를 수집할 수 없는 문제를 가진다. 또한, 수집된 웹 문서에 대한 정보를 효율적으로 관리하지 못하기 때문에 중복된 웹 문서를 수집하는 문제를 가진다. 그래서 본 논문에서는 웹 사이트의 RSS와 Google Search API를 통해 기존 웹 크롤러의 문제를 해결하고 RMI와 NIO을 활용해 서버와 클라이언트간 네트워크 연결을 최소화해 빠른 크롤링 기능을 제공하는 분산형 웹 크롤러를 제안한다. 또한, 제안하는 웹 크롤러는 웹 문서를 구성하는 태그들에 대한 키워드 유사도 비교를 통해, 분석에 활용되는 중요 콘텐츠만을 자동 추출하는 기능을 제공한다. 마지막으로, 기존 웹 크롤러와 제안하는 크롤러의 성능 평가 결과를 통해 제안하는 웹 크롤러의 우수성을 입증한다.

컨텐츠 메타데이터 통합 수집 장치에서의 중복 컨텐츠 필터링 기능 구현 (Filtering function embodiment of duplicated contents in integrated apparatus of content metadata aggregation)

  • 조상욱;이민호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (D)
    • /
    • pp.150-154
    • /
    • 2008
  • 무한 웹 컨텐츠 환경에서는 사용자의 컨텐츠 선택을 용이하게 하기 위하여 메타데이터를 다양한 방법으로 수집할 수 있다. 그러나 한 가지 방법으로는 메타데이터의 수신이 제한적이고 풍부한 메타데이터 수신을 위해서는 다양한 방법을 이용해야 한다. 그래서 본 논문에서는 메타데이터 수집 방법들을 통합하는 장치를 제안하고, 통합 메타데이터의 품질 향상을 위해 통합과정에서 발생하는 중복 메타데이터의 필터링 방법을 제시 및 검증한다. 구체적으로는 현재 웹 상에서 다양하게 제공되고 있는 메타데이터 수집 기능들을 분석하고, 통합 장치의 개념적인 구조를 제시하며, 웹 상에서 많이 보급되고 있는 RSS Reader를 통해 메타데이터를 수집하고 이를 토대로 분석하여 중복 컨텐츠를 판단하는 방법을 제안하였다.

  • PDF

다중 에이전트 기반 웹 웨어하우징 (Web Warehousing based on Multi-Agent)

  • 김현희;박승수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.274-276
    • /
    • 2000
  • 본 연구에서는 기존의 데이터 웨어하우징 기술과 웹 기반 기술을 통합한 웹 웨어하우징 기법에 다중 에이전트 패러다임을 적용하여 다중 에이전트 기반 웹 웨어하우징 시스템을 설계, 구현하였다. 시스템은 정보 검색 에이전트, 정보 통합 에이전트, 웹하우스 구축 에이전트로 구성된다. 정보 검색 에이전트는 여러 종류의 웹 자원을 수집한다. 정보 통합 에이전트는 정보 검색 에이전트에 의해 수집된 이형질적인 데이터를 일정한 형식으로 변환한다. 웹하우스 에이전트는 생성된 데이터를 사용하여 웹하우스를 구축하고 관리한다. 웹 데이터를 통합하기 위해 새로운 데이터 모델을 제안하였다. 의미를 갖는 지능적 객체를 생성하기 위해 여러 종류의 추론 에이전트들이 추론작업을 수행하고, 이들은 블랙보드 시스템을 통하여 작업을 통합한다. 본 시스템은 의미 정보 데이터를 사용하므로 웹 정보의 의미적 검색과 정보추출이 가능하다.

  • PDF

하둡 기반 빅데이터 수집 및 처리를 위한 플랫폼 설계 및 구현 (Design and Implementation of Hadoop-based Platform "Textom" for Processing Big-data)

  • 손기준;조인호;김찬우;전채남
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.297-298
    • /
    • 2015
  • 빅데이터 처리를 위한 소프트웨어 시스템을 구축하기 위하여 필요한 대표적인 기술 중 하나가 데이터의 수집 및 분석이다. 데이터 수집은 서비스를 제공하기 위한 분석의 기초 작업으로 분석 인프라를 구축하는 작업에 매우 중요하다. 본 논문은 한국어 기반 빅데이터 처리를 위하여 웹과 SNS상의 데이터 수집 어플리케이션 및 저장과 분석을 위한 플랫폼을 제공한다. 해당 플랫폼은 하둡(Hadoop) 기반으로 동작을 하며 비동기적으로 데이터를 수집하고, 수집된 데이터를 하둡에 저장하게 되며, 저장된 데이터를 분석한 후 분석결과에 대한 시각화 결과를 제공한다. 구현된 빅데이터 플랫폼 텍스톰은 데이터 수집 및 분석가를 위한 유용한 시스템이 될 것으로 기대가 된다. 특히 본 논문에서는 모든 구현을 오픈소스 소프트웨어에 기반하여 수행했으며, 웹 환경에서 데이터 수집 및 분석이 가능하도록 구현하였다.

  • PDF

웹을 이요한 데이터 수집 및 관리에 관한 연구 : 강의평가 시스템 구현 (Data Collection and Management on the World Wide Web : Evaluating system for Lecture)

  • 안정용;최승현;한경수
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.287-296
    • /
    • 2000
  • 데이터 수집과 관리, 그리고 분석을 통한 정보의 제공은 통계학의 기본적 사안이며, 다량의 데이터가 양산되는 현대 사회에서 그 중요성은 더욱 확대되고 있다. 그러나 이러한 분야에 대한 연구는 분석분야에 비하여 상대적으로 많이 이루어지지 못한 것이 사실이다. 본 연구에서는 웹을 활용한 데이터 수집과 관리 방법에 대한 일반적인 사항들에 대해 살펴보고, 데이터를 수집함과 동시에 분석하여 사용자에게 정보를 전달해 줄 수 있는 강의평가 시스템을 사례로 제시한다.

  • PDF

웹 2.0 기반 RSS 데이터 수집 엔진의 설계 및 구현 (A Design and Implementation of RSS Data Collecting Engine based on Web 2.0)

  • 강필구;김재환;이상준;채진석
    • 한국멀티미디어학회논문지
    • /
    • 제10권11호
    • /
    • pp.1496-1506
    • /
    • 2007
  • 기존의 웹 서비스가 정적이고 수동적인데 반해 최근의 웹 서비스는 점차 동적이고 능동적으로 변화하고 있는데, 이러한 웹 서비스 변화의 흐름을 잘 반영하는 것이 웹 2.0이다. 웹 2.0의 특징은 사용자가 능동적으로 참여하여 정보를 생산하는 것인데, 이렇게 되면, 생산되는 정보의 양이 지속적으로 증가하게 되므로 더 빠르고 정확한 정보를 공유할 필요가 있다. 이러한 필요성을 충족시키는 기술이 웹 2.0의 웹 신디케이션 기술과 태그 기술이다. 웹 신디케이션은 웹 사이트의 내용을 다른 사이트나 사용자가 받아볼 수 있도록 피드를 만든다. 태그는 정보의 핵심이 되는 단어로, 여러 인터넷 사용자들이 태그를 통한 검색으로 좀 더 빠른 정보의 공유를 가능하게 한다. 이 논문에서는 웹 2.0의 핵심 기술인 웹 신디케이션과 태그의 활용을 높이기 위한 방법으로 데이터 수집 엔진을 만들어 데이터를 효율적으로 관리하는 기법을 제안하였다. 데이터 수집 엔진은 데이터베이스에 저장된 사용자의 웹 사이트 정보를 이용하여 사용자의 웹 사이트에 접속하여 업데이트된 데이터를 수집한다. 이 논문에서 제안한 데이터 수집 엔진을 사용하여 실험한 결과 기존의 기법에 비해 검색 속도가 최대 3.14배 향상되었고, 연관 태그를 구성하는데 사용되는 데이터 건수가 최대 66%까지 감소함을 확인할 수 있었다.

  • PDF

콘텐츠 신디케이션을 이용한 웹 데이터 수집 및 활용 (Web Data Collection and Utilization using Content Syndication)

  • 황상현;김희완
    • 서비스연구
    • /
    • 제5권2호
    • /
    • pp.83-92
    • /
    • 2015
  • 웹 상에는 수 많은 데이터가 존재하고 있지만 원하는 데이터를 수집하여 서비스 제공을 위한 콘텐츠로 가공해 내는 것은 쉽지 않다. 그 이유 중 하나가 바로 표준화된 데이터 제공 방식이 없기 때문이다. 따라서 사이트 콘텐츠의 일부 또는 전체를 다른 서비스에서 이용할 수 있도록 해주는 콘텐츠 신디케이션은 매우 중요하다고 볼 수 있다. 콘텐츠 신디케이션의 대표적 포맷으로 XML에 기반한 RSS와 Atom, OPML 등이 있다. 이러한 신디케이션 포맷에서 제공하는 링크를 통틀어 피드 주소라고 한다. 피드 주소를 이용하면 기존 HTML을 파싱하는 것 보다 빠르게 데이터를 수집할 수 있고 데이터 제공자는 간편하게 데이터를 외부로 제공할 수 있다는 장점이 있다. 본 논문에서는 피드 주소를 기반으로 하는 웹 데이터 수집 시스템을 구현하여 수집하여 얻은 데이터를 바탕으로 해당 데이터를 가공하고 활용하는 방법을 제안하였다.

원격 웹 서버 로깅 시스템의 구현 (Implementation Study of a Remote Logging System for Web Servers)

  • 정기훈;노삼혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.400-402
    • /
    • 2004
  • 본 논문에서는 웹 서버에게 부하를 주지 않으면서 네트워크를 통해 원격으로 로깅 하는 시스템인 원격 웹 서버 로깅 시스템을 구현하였다. 구현된 로깅 시스템은 웹 서버의 종류와는 관계없이 로그 데이터를 수집할 수 있으며, 여러 개의 서버 군으로 이루어진 시스템에서도 각 시스템의 웹 서버나 환경과는 관계없이 독립적으로 로그 데이터를 수집할 수 있다는 장점을 갖고 있다. 뿐만 아니라 웹 서버에게 미치는 오버헤드를 측정해 본 결과, 부하를 거의 주지 않음으로써 로깅 시스템으로 인한 웹 서버의 성능 저하를 일으키지 않는다는 것을 알 수 있었다.

  • PDF