• 제목/요약/키워드: 데이터스트림

검색결과 917건 처리시간 0.023초

DBMS와 결합된 데이터스트림관리시스템을 위한 성능 평가 도구 개발 (Development of the Performance Benchmark Tool for Data Stream Management Systems Combined with DBMS)

  • 김경배
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권8호
    • /
    • pp.1-11
    • /
    • 2010
  • 데이터스트림 관리시스템(DSMS)의 많은 응용분야에서는 단순한 실시간 스트림 데이터의 효율적인 처리뿐만 아니라 기존의 DBMS와 결합하여 데이터마이닝이나 데이터웨어하우징 같은 고급 서비스를 사용자에게 제공하는 것을 요구하고 있다. 본 논문에서는 고급 서비스를 위하여 DSMS와 DBMS를 결합한 시스템의 성능평가를 위한 도구를 개발하였다. 기존 연구 개발된 대표적인 DSMS와 DBMS를 결합하여 네트워크 모니터링 스트림 데이터를 기반으로 통합된 시스템의 성능평가를 수행하였다. 통합된 시스템의 평가를 위하여 JAVA로 통합 시스템 성능 평가 툴을 개발하였으며, 개발 된 툴을 이용하여 DSMS(STREAM, Coral8)와 DBMS(MySQL, Oracle10g)를 결합한 시스템의 성능평가를 수행하였다

Exon-Intron이론을 활용한 상황중심 데이터 스트림 분할 방안 (A Novel Way of Context-Oriented Data Stream Segmentation using Exon-Intron Theory)

  • 이승훈;서동혁
    • 한국전자통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.799-806
    • /
    • 2021
  • 사물인터넷 환경에서는 센서로부터의 이벤트 데이터가 시간의 흐름에 따라 지속적으로 보고된다. 이러한 추세로 입수되는 이벤트 데이터는 무한정 쌓이게 되므로 데이터의 효율적인 분석과 관리를 위한 방안이 필요하다. 본 연구에서는 지속적으로 보고되어 유입되는 센서로부터의 이벤트 데이터에 대하여 효과적인 선택과 활용을 뒷받침 할 수 있도록 하는 데이터 스트림 분할 방안을 제안하였다. 분석 처리를 시작할 지점을 식별하기 위한 식별자를 선정하도록 하였다. 이러한 식별자의 역할을 존치시킴으로써 분석할 대상을 명확하게 할 수 있으며 데이터 처리량을 감소시킬 수 있다. 본 연구에서 제안하는 스트림 분할을 위한 식별자는 각 스트림의 이벤트 발생을 기준으로 하기에 의미 중심의 데이터 스트림 분할 방안이라고 할 수 있다. 스트림 처리에서의 식별자의 존재는 대용량의 지속적인 데이터 유입환경에서 효율성을 제공하고 비용을 저감하는 측면에서 유용하다고 할 수 있다.

시공간 슬라이딩윈도우기법을 이용한 데이터스트림의 인과관계 결합질의처리방법 (Causality join query processing for data stream by spatio-temporal sliding window)

  • 권오제;이기준
    • Spatial Information Research
    • /
    • 제16권2호
    • /
    • pp.219-236
    • /
    • 2008
  • 센서로부터 획득되는 데이터 스트림은 스트림 데이터 간의 인과관계와 같은 다양한 유용한 정보를 포함한다. 센서 스트림에 대한 인과관계 조인질의는 스트림으로부터 인과관계의 (원인, 결과) 쌍을 찾아내는 것이다. 하지만 센서로부터 DSMS로 데이터가 전송될 때 발생하는 지연과 제한된 윈도우 크기로 인해 일부의 인과관계 결과 쌍이 손실될 수 있다. 본 논문에서는 먼저 데이터 스트림에서 인과관계 조인질의를 처리할 때 고려해야할 시간적, 공간적 그리고 시공간적 관점에 대해 관찰하고 이러한 관찰들을 고려한 다양한 슬라이딩 윈도우 처리 방법들을 제안한다. 제안된 방법들의 성능은 다양한 실험들을 통해 평가되어지는데 실험 결과들은 본 논문에서 제안된 방법들이 기존의 FIFO 방법에 비해 인과관계 질의 처리 결과가 더 정확함을 보여준다.

  • PDF

웹로그 분석을 위한 데이터 웨어하우스 시스템 구축 (Building Data Warehouse System for Weblog Analysis)

  • 이주일;백경민;신주한;이원석
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2010년도 춘계학술대회
    • /
    • pp.291-295
    • /
    • 2010
  • 최근 급격한 하드웨어 기술과 데이터베이스 시스템의 발전은 우리 주변에서 발생하는 다양한 분야의 데이터를 자동으로 수집하는 것을 가능하게 하였다. 흔히 데이터 스트림(data stream)이라고 언급되는 끊임없이 생산되는 대용량의 데이터를 효율적으로 처리하여 유용한 정보를 얻어내는 기술은 이미 많은 응용 분야에서 광범위하게 연구되고 있다. 인터넷은 이러한 데이터 스트림을 양산해 내는 주요 원천 중의 하나이다. 인터넷 비즈니스의 활성화와 더불어 웹로그 데이터 스트림은 마케팅, 전략 수립, 고객관리 등 여러 부분에 광범위하게 활용되기 시작했으며, 보다 정확하고 효율적인 분석에 대한 요구사항도 점점 늘어나고 있다. 데이터 웨어하우스(Data Warehouse)는 수집된 데이터를 주제 기반으로 통합하여 시계열 형태로 적재하는 저장소서 유용한 분석이나 의사결정에 많이 사용되어 왔다. 데이터웨어하우스는 데이터를 요약하고 통합 및 정제하는 기능을 제공하여 대용량의 데이터 처리에 적합하고 데이터의 품질을 향상시키기 때문에 데이터 마이닝 분야에서 전처리 과정으로도 많이 이용되어 왔다. 본 논문에서는 웹로그 데이터 스트림에 대한 데이터 웨어하우스를 구축하여 보다 고품질의 유용한 정보를 효율적으로 얻어내는 시스템을 제안한다.

  • PDF

데이터 스트림에서 빈발항목 탐색을 위한 메모리 사용량 최적화 (Memory Adaptation in Finding Frequent Itemsets over Data Streams)

  • 김민정;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2003
  • 컴퓨팅 환경의 발달로 방대한 양의 정보들이 매우 빠른 속도로 생성되고 있다. 구성 요소가 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 마이닝 방법은 이들 정보로부터 중요한 지식을 효과적으로 얻을 수 있는 방법으로 최근 들어 다양한 방법들이 활발히 제안되고 있다. 이러한 마이닝 방법에서는 지속적으로 확장되는 데이터 스트림의 특성으로 수행과정에서 메모리 사용량을 가용 범위 내로 제한하는 것이 중요한 고려 사항이 되고 있다. 본 논문에서는 데이터 스트림에서 빈발 항목을 탐색하는데 있어서 가용 메모리 범위에서 최적의 메모리를 사용하여 최상의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량 최적화 방법을 제시한다.

  • PDF

콜센터 데이터 분석을 위한 OLAP 구현 (OLAP Implementation for Call center data analysis)

  • 백경민;양우석;이원석
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2010년도 춘계학술대회
    • /
    • pp.275-278
    • /
    • 2010
  • 데이터가 기하급수적으로 생성되는 데이터스트림 환경에서 데이터를 처리하고 분석하는 방법에 대한 많은 연구가 진행 중에 있다. 본 논문에서는 데이터스트림의 한 예인 콜센터 데이터를 분석하기 위한 OLAP 구현에 대하여 기술한다. 제안하는 OLAP 시스템은 데이터스트림 환경에 적용할 수 있게 하여 유연한 분석을 가능하게 해준다.

  • PDF

데이터 스트림 환경에서 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법 (Load balancing method of overload prediction for guaranteeing the data completeness in data stream)

  • 김영기;신숭선;백성하;이동욱;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제12권9호
    • /
    • pp.1242-1251
    • /
    • 2009
  • 유비쿼터스 환경에서 데이터 스트림 관리 시스템(Data Stream Management System: DSMS)은 수많은 센서로부터 생성되는 대량의 데이터 스트림을 처리한다. 기존의 시스템은 처리 능력 이상의 데이터 스트림이 입력되면 데이터의 일부를 제거하여 적정 부하를 유지하는 부하 제한 기법(Load Shedding)을 사용한다. 부하 제한 기법은 입력되는 데이터의 일부를 의도적으로 손실하여 데이터 완전도(Data Completeness)가 감소하기 때문에 처리 결과의 신뢰도 또한 감소한다. 따라서 본 논문에서는 시스템 처리 능력 이상의 데이터 스트림 입력 시 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법을 제안한다. 제안 기법은 데이터 손실이 예상되는 부하 시점을 미리 예측하고 예측된 부하 시점에 도달 시 부하를 분산하여 데이터 손실을 감소시킨다. 본 논문에서는 기존의 부하 제한 기법과의 비교 실험을 통해 제안 기법의 성능을 평가한다.

  • PDF

실시간 공간 상황 분석을 위한 공간 데이터 스트림 처리 시스템 (A Spatial Data Stream Processing System for Spatial Context Analysis in Real-time)

  • 권오제;김재훈;이기준
    • Spatial Information Research
    • /
    • 제18권1호
    • /
    • pp.69-76
    • /
    • 2010
  • 센서로부터 획득되는 데이터 스트림들 중에 특히 이동 객체에 대한 공간 정보를 담은 데이터 스트림은 상황 인지의 여러 응용 분야에 매우 유용하다. 하지만, 실시간으로 공간 스트림을 처리하는 것과 공간 상황 인지를 위한 복잡한 연산 처리 사이에는 중요한 기능적인 격차가 존재하는데, 이는 공간 스트림 처리와 상황 인지를 통합하는데 매우 큰 어려움을 준다. 본 논문에서는, 공간 스트림 처리와 공간 상황 인지 사이에 존재하는 기능적인 격차를 해결하기 위한 공간 데이터 스트림 처리 시스템인 SCONSTREAM(Spatial CONtext STREAm Management)를 제안한다. 본 논문에서 제안하는 시스템은 불필요한 공간 데이터 스트림을 전처리하고 상황 인지에 용이한 형태로 가공한다. 실험을 통해, 본 시스템이 공간 스트림 처리와 공간 상황 인지 사이에 존재하는 기능적인 격차를 해소할 수 있음을 보인다.

개방 데이터 마이닝에 효율적인 이동 윈도우 기법 (A Sliding Window Technique for Open Data Mining over Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.335-344
    • /
    • 2005
  • 근래들어 구성 요소가 빠른 속도로 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 개방 데이터 마이닝 방법들이 활발히 제안되고 있다. 데이터 스트림에 내재된 정보들은 시간 흐름에 따른 변화의 가능성이 매우 높다. 따라서, 이러한 변화를 빠른 시간에 분석할 수 있다면 해당 데이터 스트림에 대한 분석에서 보다 유용한 정보를 제공할 수 있다. 본 논문에서는 개방 데이터 마이닝 환경에서 효율적인 최근 빈발 항목 탐색을 위한 이동 윈도우 기법을 제시한다. 해당 기법에서는 데이터 스트림이 지속적으로 확장되더라도 지연 추가 및 전지 작업을 적용하여 마이닝 수행과정에서의 메모리 사용량이 매우 작게 유지되며, 분석 대상 범위의 데이터 객체들을 반복적으로 탐색하지 않기 때문에 각 시점에서 마이닝 결과를 짧은 시간에 구할 수 있다. 더불어, 해당 방법은 데이터 스트림의 최근 정보에 집중한 분석을 통해 해당 데이터 집합의 변화를 효율적으로 감지할 수 있다.

공통 조인 작업 공유를 통한 다중 연속 질의 처리 (Processing Multiple Continuous Queries by sharing common join operations)

  • 박홍규;이원석
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2008년도 추계학술대회
    • /
    • pp.187-190
    • /
    • 2008
  • 데이터 스트림이란 제한 없이 끊임없이 흘러 들어오는 일련의 많은 양의 데이터 객체들을 의미하며, 센서 데이터 처리, 인터넷 트래픽 분석, 웹 서버 로그와 같은 다양한 트랜잭션 로그 분석등과 관련된 수많은 응용 분야에 적용 가능하기 때문에 이들을 처리 하기 위해 많은 연구가 진행되었다. 데이트 스트림을 처리하기 위해서는 미리 등록된 질의들(연속 질의)을 새롭게 들어오는 스트림 데이터들로 계산하여 그 결과를 계속적으로 생성하여야 하므로 연속 질의들은 스트림 데이터가 들어올 때마다 반복적으로 수행되며, 데이터 스트림은 매우 빠르게 입력되는 특성을 가지고 있기 때문에 보다 빠르게 질의를 처리하여야만 한다. 본 논문에서는 다수의 조인 연속 질의들이 시스템에 등록되어 있을 때, 이들을 보다 빠르게 처리할 수 있도록 여러 개의 질의에 반복적으로 적용되는 조인 연산들을 공유함으로써 최적의 질의 계획을 생성하는 기법을 제안한다.

  • PDF