• 제목/요약/키워드: stream big data

검색결과 68건 처리시간 0.024초

Performance Evaluation and Analysis of Multiple Scenarios of Big Data Stream Computing on Storm Platform

  • Sun, Dawei;Yan, Hongbin;Gao, Shang;Zhou, Zhangbing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권7호
    • /
    • pp.2977-2997
    • /
    • 2018
  • In big data era, fresh data grows rapidly every day. More than 30,000 gigabytes of data are created every second and the rate is accelerating. Many organizations rely heavily on real time streaming, while big data stream computing helps them spot opportunities and risks from real time big data. Storm, one of the most common online stream computing platforms, has been used for big data stream computing, with response time ranging from milliseconds to sub-seconds. The performance of Storm plays a crucial role in different application scenarios, however, few studies were conducted to evaluate the performance of Storm. In this paper, we investigate the performance of Storm under different application scenarios. Our experimental results show that throughput and latency of Storm are greatly affected by the number of instances of each vertex in task topology, and the number of available resources in data center. The fault-tolerant mechanism of Storm works well in most big data stream computing environments. As a result, it is suggested that a dynamic topology, an elastic scheduling framework, and a memory based fault-tolerant mechanism are necessary for providing high throughput and low latency services on Storm platform.

Hazelcast Vs. Ignite: Opportunities for Java Programmers

  • Maxim, Bartkov;Tetiana, Katkova;S., Kruglyk Vladyslav;G., Murtaziev Ernest;V., Kotova Olha
    • International Journal of Computer Science & Network Security
    • /
    • 제22권2호
    • /
    • pp.406-412
    • /
    • 2022
  • Storing large amounts of data has always been a big problem from the beginning of computing history. Big Data has made huge advancements in improving business processes by finding the customers' needs using prediction models based on web and social media search. The main purpose of big data stream processing frameworks is to allow programmers to directly query the continuous stream without dealing with the lower-level mechanisms. In other words, programmers write the code to process streams using these runtime libraries (also called Stream Processing Engines). This is achieved by taking large volumes of data and analyzing them using Big Data frameworks. Streaming platforms are an emerging technology that deals with continuous streams of data. There are several streaming platforms of Big Data freely available on the Internet. However, selecting the most appropriate one is not easy for programmers. In this paper, we present a detailed description of two of the state-of-the-art and most popular streaming frameworks: Apache Ignite and Hazelcast. In addition, the performance of these frameworks is compared using selected attributes. Different types of databases are used in common to store the data. To process the data in real-time continuously, data streaming technologies are developed. With the development of today's large-scale distributed applications handling tons of data, these databases are not viable. Consequently, Big Data is introduced to store, process, and analyze data at a fast speed and also to deal with big users and data growth day by day.

Squall: 실시간 이벤트와 마이크로-배치의 동시 처리 지원을 위한 TMO 모델 기반의 실시간 빅데이터 처리 프레임워크 (Squall: A Real-time Big Data Processing Framework based on TMO Model for Real-time Events and Micro-batch Processing)

  • 손재기;김정국
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.84-94
    • /
    • 2017
  • 최근 다양하고 방대한 양의 데이터를 처리하기 위해 빅데이터의 특성인 5V(Volume, Variety, Velocity, Veracity, Value) 중에서도 속도(Velocity)의 중요성이 강조되면서 대량의 데이터를 빠르고 정확하게 처리하는 기술인 실시간 스트림 처리(Real-time Stream processing)를 위해 많은 연구가 진행되고 있다. 본 논문에서는 실시간 빅데이터 처리를 위해 대표적인 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object) 개념을 도입한 Squall 프레임워크를 제시하고, 단일 노드에서 동작하는 Squall 프레임워크와 그 동작들에 대해 기술한다. TMO는 작업을 수행할 때, 특정 조건에 대해 실시간으로 처리하는 비주기적인 처리방법과 일정 시간 간격동안 주기적인 처리를 지원하는 객체 모델이다. 따라서 Squall 프레임워크는 실시간 빅데이터의 실시간 이벤트 스트림 및 마이크로-배치 처리를 동시에 지원하고, 기존 아파치 스톰과 스파크 스트리밍 대비 상대적으로 우수한 성능을 제공한다. 하지만 Squall은 대부분의 프레임워크에서 제공되는 다중 노드에서의 실시간 분산처리를 위한 추가적인 개발이 필요하다. 결론적으로, TMO 모델의 장점은 실시간 빅데이터 처리시 기존 아파치의 스톰이나 스파크 스트리밍의 단점들을 극복할 수 있다. 이러한 TMO 모델은 실시간 빅데이터 처리에 있어 유용한 모델로서의 가능성을 가지고 있다.

빅데이터 스트림 환경에서의 센서 데이터 분류와 상황추론 (Context Inference and Sensor Data Classification of Big Data Stream Environment)

  • 유창근
    • 한국전자통신학회논문지
    • /
    • 제9권10호
    • /
    • pp.1079-1085
    • /
    • 2014
  • 변화하는 연속적인 데이터가 대량으로 유입되는 스트림 형태의 센서 데이터에 대한 분석은 궁극적으로 상황인식에 도달할 수 있어야 한다. 본 연구에서 가변적이며 연속적으로 입수되는 센서 데이터 스트림을 분석하여 상황을 추론하는 방안을 제안한다. 연속적인 스트림 형태를 가지는 센서 데이터를 분류하기 위하여 센서로 부터 보내온 각 센서 데이터에 내포된 값들을 평가하고, 시간에 따른 변화를 토대로 신뢰도를 계산하였다. 각 데이터들이 구성하는 상황요인을 설정하였고 각 요인들의 변화를 추정할 수 있도록 함으로써 상황 추론이 가능함을 보였다.

계절성 시계열 자료의 concept drift 탐지를 위한 새로운 창 전략 (A novel window strategy for concept drift detection in seasonal time series)

  • 이도운;배수민;김강섭;안순홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.377-379
    • /
    • 2023
  • Concept drift detection on data stream is the major issue to maintain the performance of the machine learning model. Since the online stream is to be a function of time, the classical statistic methods are hard to apply. In particular case of seasonal time series, a novel window strategy with Fourier analysis however, gives a chance to adapt the classical methods on the series. We explore the KS-test for an adaptation of the periodic time series and show that this strategy handles a complicate time series as an ordinary tabular dataset. We verify that the detection with the strategy takes the second place in time delay and shows the best performance in false alarm rate and detection accuracy comparing to that of arbitrary window sizes.

스트림-리즈닝을 위한 실시간 사물인터넷 빅-데이터 처리 (Real-Time IoT Big-data Processing for Stream Reasoning)

  • 윤창호;박종원;정혜선;이용우
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.1-9
    • /
    • 2017
  • 스마트-시티는 스마트-시티의 사물인터넷(Internet of Things: IoT) 디바이스를 비롯한 수많은 인프라를 지능적으로 관리하고, 다양한 스마트 어플리케이션을 도시민에게 제공한다. 스마트-시티에서는 스마트-시티 어플리케이션에서 필요한 다양한 정보를 제공하기 위하여 수많은 사물인터넷 기기들로부터 끊임없이 발생하는 대규모의 스트림 빅-데이터를 지능적으로 처리하는 기능이 필요하다. 하지만, 스마트-시티에서 대규모의 스트림 빅-데이터를 처리하는 것에는 실시간 처리와 관련된 제약들이 존재한다. 본 스마트-시티-사업단에서는 선행 연구에서 스마트-시티미들웨어와 이를 이용한 스트림-리즈닝 방법론 및 시스템을 개발하였다. 스마트-시티에서 스마트 서비스를 제공하기 위하여, 스마트-시티-사업단에서는 스트림-리즈닝을 사용하는 방법론을 사용한다. 이 스트림-리즈닝은 대용량 데이터의 실시간 처리를 필요로 한다. 따라서, 후속연구로서 스마트-시티미들웨어의 클라우드-컴퓨팅 플랫폼을 이용하여 스트림-리즈닝을 위한 실시간 분산병렬처리 클라우드-컴퓨팅 방법론과 시스템을 개발하였다. 본 논문에서는 스마트-시티에서 발생하는 사물인터넷 빅-데이터를 스트림-리즈닝에 사용하기 위하여 이 후속연구에서 개발된 클라우드 기반 실시간 분산병렬처리 연구결과를 소개한다. 스마트-시티의 각종 센서들로부터 전송되어지는 사물인터넷 빅-데이터를 사용하여 스트림-리즈닝하는 데 필요한 클라우드-컴퓨팅 기반의 실시간 분산처리 방법론과 시스템을 소개하고 있으며, 이 방법론을 선행연구에서 개발한 스마트-시티 미들웨어에 구현하여 실시간 분산처리 성능을 평가한 것을 소개한다.

해양플랜트의 예지보전을 위한 실시간 데이터 스트림 처리 구현 (Implementation of Real-time Data Stream Processing for Predictive Maintenance of Offshore Plants)

  • 김성수;원종호
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.840-845
    • /
    • 2015
  • 최근 빅데이터는 전사적 자원관리 분야뿐만 아니라 해양플랜트내 생산 및 운영 작업 분야에서도 큰 관심을 받고 있다. 이력데이터를 기반으로 미래의 설비에 대한 성능을 예측하는 것은 설비들의 생산성을 향상 시킬 수 있다. 특히 해양플랜트의 주요설비 중 하나인 원심압축기는 고장 시 폭발 할 수 있는 위험한 설비이기 때문에 실시간으로 설비성능을 모니터링 해야 한다. 본 논문에서 원심압축기의 성능을 계산하기 위한 스트림 데이터 처리 구조를 제안한다. 제안하는 시스템은 크게 가상태그 스트림 생성기와 실시간 데이터 스트림 관리자와 같이 두 가지 컴포넌트로 구성된다. 시스템 성능 확장성을 제공하기 위해, 멀티 코어 CPU를 사용하여 대용량 스트림 데이터를 처리할 수 있는 병렬 프로그래밍 접근 방식을 이용하였다. 또한, 실험을 통해 원심압축기의 스트림 데이터 처리에 대한 성능 개선을 보여주었다.

IoT 환경에서 실시간 빅 데이터 수신을 위한 센서 게이트웨이에 관한 연구 (Study on the Sensor Gateway for Receive the Real-Time Big Data in the IoT Environment)

  • 신승혁
    • 한국항행학회논문지
    • /
    • 제19권5호
    • /
    • pp.417-422
    • /
    • 2015
  • IoT 환경의 서비스 규모는 센서의 수량에 의하여 결정된다. 센서의 수량이 증가함은 IoT 환경에서 발생하는 데이터의 양도 증가함을 의미한다. 네트워크 환경에서 데이터 폭주 시 네트워크 혼잡제어를 위한 연구와 동적 버퍼운영으로 네트워크를 안정적으로 운영하기 위한 연구들이 있다. 또한 비연결형 네트워크 환경에서 스트림 데이터 처리에 대한 연구들이 있다. 본 연구에서는 IoT환경의 빅데이터를 처리하기 위한 센서 게이트웨이를 제안한다. 이를 위하여 센서 미들웨어를 설계하기 위한 RESTful 을 확인하고, 스트림 데이터를 효율적으로 처리하기 위한 이중버퍼 알고리즘을 적용한다. 마지막으로 제안하는 시스템을 평가하기 위하여 TCP 상의 HTTP 프로토콜을 기반으로 하는 MJpeg 스트림을 이용하여 빅 데이터 트래픽을 발생 시키며, 오픈소스 미디어 플레이어인 VLC를 이용하여 영상 수신 처리율을 이용하여 성능을 비교한다.

Scalable Big Data Pipeline for Video Stream Analytics Over Commodity Hardware

  • Ayub, Umer;Ahsan, Syed M.;Qureshi, Shavez M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권4호
    • /
    • pp.1146-1165
    • /
    • 2022
  • A huge amount of data in the form of videos and images is being produced owning to advancements in sensor technology. Use of low performance commodity hardware coupled with resource heavy image processing and analyzing approaches to infer and extract actionable insights from this data poses a bottleneck for timely decision making. Current approach of GPU assisted and cloud-based architecture video analysis techniques give significant performance gain, but its usage is constrained by financial considerations and extremely complex architecture level details. In this paper we propose a data pipeline system that uses open-source tools such as Apache Spark, Kafka and OpenCV running over commodity hardware for video stream processing and image processing in a distributed environment. Experimental results show that our proposed approach eliminates the need of GPU based hardware and cloud computing infrastructure to achieve efficient video steam processing for face detection with increased throughput, scalability and better performance.

빅데이터 환경에서 스트림 질의 처리를 위한 인메모리 기반 점진적 처리 기법 (In-Memory Based Incremental Processing Method for Stream Query Processing in Big Data Environments)

  • 복경수;육미선;노연우;한지은;김연우;임종태;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제16권2호
    • /
    • pp.163-173
    • /
    • 2016
  • 최근 대용량의 스트림 데이터를 분산 처리하기 위한 연구들이 진행되고 있다. 본 논문에서는 빅데이터 환경에서 실시간 스트림 데이터의 점진적 처리 기법을 제안한다. 제안하는 기법은 처음 스트림 데이터가 입력되면 임시 큐에 데이터를 저장하고 마스터 노드에 저장되어 데이터와 비교과정을 통해 마스터 노드에 동일한 데이터가 있는 경우 마스터 노드에서 가지고 있는 노드의 정보를 이용하여 해당 노드의 메모리에서 기존 처리 결과를 재사용한다. 기존 처리 결과가 없다면 처리하고 처리 결과를 메모리에 저장한다. 분산 환경에서 점진적인 스트리밍 데이터 처리를 위해 노드의 작업 지연을 계산하여 노드의 부하를 파악하고 처리 시간 계산을 통해 각 노드의 성능을 고려한 잡 스케쥴링 기법을 제안한다. 제안하는 기법의 우수성을 보이기 위해 기존 기법과의 질의 수행 시간 비교를 위한 성능평가를 수행한다.