• Title/Summary/Keyword: 데이터스트림

Search Result 917, Processing Time 0.032 seconds

RSP-DS: Real Time Sequential Patterns Analysis in Data Streams (RSP-DS: 데이터 스트림에서의 실시간 순차 패턴 분석)

  • Shin Jae-Jyn;Kim Ho-Seok;Kim Kyoung-Bae;Bae Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.9
    • /
    • pp.1118-1130
    • /
    • 2006
  • Existed pattern analysis algorithms in data streams environment have researched performance improvement and effective memory usage. But when new data streams come, existed pattern analysis algorithms have to analyze patterns again and have to generate pattern tree again. This approach needs many calculations in real situation that needs real time pattern analysis. This paper proposes a method that continuously analyzes patterns of incoming data streams in real time. This method analyzes patterns fast, and thereafter obtains real time patterns by updating previously analyzed patterns. The incoming data streams are divided into several sequences based on time based window. Informations of the sequences are inputted into a hash table. When the number of the sequences are over predefined bound, patterns are analyzed from the hash table. The patterns form a pattern tree, and later created new patterns update the pattern tree. In this way, real time patterns are always maintained in the pattern tree. During pattern analysis, suffixes of both new pattern and existed pattern in the tree can be same. Then a pointer is created from the new pattern to the existed pattern. This method reduce calculation time during duplicated pattern analysis. And old patterns in the tree are deleted easily by FIFO method. The advantage of our algorithm is proved by performance comparison with existed method, MILE, in a condition that pattern is changed continuously. And we look around performance variation by changing several variable in the algorithm.

  • PDF

Finding Frequent Itemsets Over Data Streams in Confined Memory Space (한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법)

  • Kim, Min-Jung;Shin, Se-Jung;Lee, Won-Suk
    • The KIPS Transactions:PartD
    • /
    • v.15D no.6
    • /
    • pp.741-754
    • /
    • 2008
  • Due to the characteristics of a data stream, it is very important to confine the memory usage of a data mining process regardless of the amount of information generated in the data stream. For this purpose, this paper proposes the Prime pattern tree(PPT) for finding frequent itemsets over data streams with using the confined memory space. Unlike a prefix tree, a node of a PPT can maintain the information necessary to estimate the current supports of several itemsets together. The length of items in a prime pattern can be reduced the total number of nodes and controlled by split_delta $S_{\delta}$. The size and the accuracy of the PPT is determined by $S_{\delta}$. The accuracy is better as the value of $S_{\delta}$ is smaller since the value of $S_{\delta}$ is large, many itemsets are estimated their frequencies. So it is important to consider trade-off between the size of a PPT and the accuracy of the mining result. Based on this characteristic, the size and the accuracy of the PPT can be flexibly controlled by merging or splitting nodes in a mining process. For finding all frequent itemsets over the data stream, this paper proposes a PPT to replace the role of a prefix tree in the estDec method which was proposed as a previous work. It is efficient to optimize the memory usage for finding frequent itemsets over a data stream in confined memory space. Finally, the performance of the proposed method is analyzed by a series of experiments to identify its various characteristics.

Design and Implementation of a Simulation System for Wireless XML Streaming (무선 XML 스트리밍을 위한 시뮬레이션 시스템의 설계 및 구현)

  • Park, Jung-Hyun;Kim, Chung-Soo;Chung, Yon-Dohn
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.154-156
    • /
    • 2005
  • XML은 데이터 교환을 위한 표준으로서 데이터를 효과적으로 조직하고 표현 할 수 있다. 본 논문에서는 XML 데이터를 무선방송하기위한 스트림을 생성하는 시뮬레이션 시스템을 설계하고 구현한다. 구현한 시스템은 서버 모듈과 클라이언트 모듈로 구성되는데 서버 모듈은 XML 데이터에 대하여 스트림을 생성하는 역할을 하고 클라이언트 모듈은 생성된 스트링에 대해서 질의를 수행하고 생성된 스트림으로부터 XML 데이터를 복구하는 역할을 한다. 질의 수행에 대한 결과로 결과 XML 데이터가 출력되고 성능 평가요소로 질의를 수행하는 동안 걸린 수행시간을 측정할 수 있다.

  • PDF

A stream cube to reduce the average response time in the multi-dimensional analysis of stream data (스트림 데이터의 다차원 분석에서 평균응답시간을 줄이는 스트림 큐브)

  • Do, Ki-Seok;Park, Seog
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.55-57
    • /
    • 2005
  • 유비쿼터스 환경이 도래함에 따라 데이터 흐름이 신속하고 연속적으로 변화하고 있다. 이러한 스트림형태의 데이터는 데이터의 치명적 변화, 자주 발생하지 않는 패턴 등의 관점에서 데이터 분석을 필요로 하고 있다. 본 논문에서는 다단계의 추상화 데이터 분석이 용이한 다차원 분석에 기반하여 고정적인 공간활용만이 가능했던 기존 방식을 살펴본 후 이를 유동적으로 보완하여 공간 비용을 최소화 하면서 평균응답시간을 줄여주는 방법에 대해 논의한다. 또한 제안 방법의 시공간 비용을 수식으로 증명하고 기존 방법과의 비교 실험을 통하여 성능을 평가해 본다.

  • PDF

A Design on a Streaming Big Data Processing System (스트리밍 빅데이터 처리 시스템 설계)

  • Kim, Sungsook;Kim, GyungTae;Park, Kiejin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.99-101
    • /
    • 2015
  • 현재 다양한 센서 기기에서 쏟아지는 대용량의 정형/비정형의 스트림 데이터의 경우 기존의 단일 스트리밍 처리 시스템 만으로 처리하기에는 한계가 있다. 클러스터의 디스크가 아닌 메모리들을 사용하여 대용량 데이터 처리를 할 수 있는 Spark 는 분산 처리 임에도 불구하고 강력한 데이터 일관성과 실시간성을 확보할 수 있는 플랫폼이다. 본 연구에서는 대용량 스트림 데이터 분석 시 발생하는 메모리 공간 부족과 실시간 병렬 처리 문제를 해결하고자, 클러스터의 메모리를 이용하여 대용량 데이터의 분산 처리와 스트림 실시간 처리를 동시에 할 수 있도록 구성하였다. 실험을 통하여, 기존 배치 처리 방식과 제안 시스템의 성능 차이를 확인 할 수 있었다.

Real-time Stream Data Monitoring Using Windows (윈도우를 이용한 스트림 데이터의 실시간 모니터링 기법)

  • Han, Xiaoyue;Choi, Ok-Ju;Lee, Min-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1231-1233
    • /
    • 2011
  • WBAN(Wireless Body Area Network)과 같은 스트림 데이터의 환경에서는 데이터가 아닌 질의들이 등록되어 있고 데이터들이 끊임없이 시스템에 도착한다. 때문에 도착한 데이터에 대해서 처리할 수 있는 질의만을 찾아 해당 질의들만을 수행하도록 해서 시스템의 질의 부담을 덜어주는 방법이 필요하다. 기존의 단순하고 단편적인 질의의 문제점을 해결하고자 본 연구에서는 Interval Skip List 자료 구조와 시간기반 윈도우를 이용하여 효율적인 실시간 모니터링 시스템을 구현하였다. 특히 산소포화도 생체 센서들로부터 연속적으로 전송되는 스트림 데이터에 대해 다양한 조건을 포함하는 질의들이 실행 되는데 이러한 실시간 모니터링 질의들을 효율적으로 식별하기 위한 질의 인덱스를 설계하였다.

A Study on Buffer Optimization System for Improving Performance in Spark Cluster (Spark 클러스터 환경에서 분산 처리 성능 향상을 위한 Buffer 최적화 시스템 연구)

  • Seok-Min Hong;So-Yeoung Lee;Yong-Tae Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.396-398
    • /
    • 2023
  • Statista 통계 조사에 따르면 데이터의 규모는 매년 증가할 것으로 예상하고 빅데이터 처리 프레임워크의 관심이 높아지고 있다. 빅데이터 처리 프레임워크 Spark는 Shuffle 과정에서 노드 간 데이터 전송이 일어난다. 이때 분산 처리한 데이터를 네트워크로 전송하기 위해 객체를 바이트 스트림으로 변환하여 메모리 buffer에 담는 직렬화 작업이 필요하다. 그러나 바이트 스트림을 buffer에 담는 과정에서 바이트 스트림의 크기가 메모리 buffer보다 클 경우, 메모리 할당 과정이 추가로 발생하여 전체적이 Spark의 성능 저하로 이어질 수 있다. 이에 본 논문에서는 Spark 환경에서 분산 처리 성능 향상을 위한 직렬화 buffer 최적화 시스템을 제안한다. 제안하는 방법은 Spark Driver가 Executor에게 작업을 할당하기 전 직렬화된 데이터 크기 측정과 직렬화 옵션 설정을 통해 Executor에게 적절한 buffer를 할당할 수 있다. 향후 제안하는 방법의 검증을 위해 실제 Spark 클러스터 환경에서 성능 평가가 필요하다.

Supporting Sliding Windows of Trigger for Continuous Query Processing System (연속질의 처리 시스템을 위한 트리거의 슬라이딩 윈도우 지원)

  • Lee, Keun-Joo;Jin, S.I.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10c
    • /
    • pp.171-176
    • /
    • 2006
  • 데이터 스트림(data stream)을 처리하기 위해서는 기본적으로 질의 대상이 되는 슬라이딩 윈도우에 대한 지원과 이에 대한 연속질의를 수행할 수 있어야 한다. 기존의 관계형 DBMS는 성능 문제로 인하여 데이터 스트림 처리에 한계가 있었으나 고성능 메인메모리 DBMS의 등장으로 빈번히 발생하는 스트림에 대한 충분한 질의 처리 능력을 갖추게 되었다. 본 논문에서는 메인메모리 DBMS기반에서의 데이터 스트림에 대한 연속질의 처리를 위해서 새로운 접근방법을 제공한다. 즉. 고성능 메인 메모리 DBMS의 높은 삽입과 갱신 성능을 전제로 트리거를 통한 슬라이딩 윈도우의 지원방법을 제시하고. 윈도우에 대한 연속질의는 응용에서 지원하되 효율적인 질의처리를 위해 저장프로시저를 적용한다. 이러한 메커니즘의 연속질의 처리 시스템은 CQL에서 정의한 세 가지 윈도우 유형을 모두 지원할 수 있다.

  • PDF

The Structure of Synchronized Data Broadcasting Applications (연동형 데이터 방송 애플리케이션의 구조)

  • 정문열;백두원
    • Journal of Broadcast Engineering
    • /
    • v.9 no.1
    • /
    • pp.74-82
    • /
    • 2004
  • In digital broadcasting, applications are computer programs executed by the set-top box(TV receiver) , and synchronized applications are those that perform tasks at the specified moments in the underlying video. This paper describes important concepts, standards, and skills needed to implement synchronized applications and explains how to integrate them to implement these applications. This Paper assumes the European data broadcasting standard, DVB-MHP. In DVB-MHP, scheduled stream events are recommended as a means of synchronizing applications with video streams. In this method, the application receives each stream event, and executes the action associated with the stream event at the time specified in the stream event. Commercially available stream generators, i.e., multiplexers, do not generate transport streams that support scheduled stream events. So we used a stream generator implemented in our lab. We implemented a synchronized application where the actions triggered by stream events are to display graphic images. We found that our synchronized application processes scheduled stream events successfully. In our experimentation, the stream events were synchronized with the video and the deviation from the intended time was within 240 ㎳, which is a tolerance for synchronization skew between graphic images and video.

Analysis on the reception performance of using dual stream for terrestrial DTV (이중 스트림 기술이 지상파 DTV 수신 성능 개선에 미치는 영향 분석)

  • 지금란;김대진;김성훈;심용훈;김승원
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2002.11a
    • /
    • pp.37-42
    • /
    • 2002
  • 본 논문은 ATSC T3/S9에 수신 성능 개선을 위해 제안된 방식 중 이중 스트림 기술을 알아보고 Robust 8-VSB와 Pseudo 2-VSB의 등화기에서 강인 데이터가 일반 데이터의 성능에 미치는 영향을 비교 분석하기 위해 전산 모의 실험을 실시하였다. 그 결과 Robust 8-VSB 방식은 이용된 모든 채널 환경에서 강인 데이터가 일반데이터의 성능 개선에 도움을 주지만, Pseudo 2-VSB방식의 경우는 채널 환경이 나쁜 경우에 강인 데이터가 일반 데이터의 성능 개선에 도움을 주는 것을 보여주었다.

  • PDF