• 제목/요약/키워드: Apache Spark Streaming

검색결과 7건 처리시간 0.021초

Distributed Moving Objects Management System for a Smart Black Box

  • Lee, Hyunbyung;Song, Seokil
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.28-33
    • /
    • 2018
  • In this paper, we design and implement a distributed, moving objects management system for processing locations and sensor data from smart black boxes. The proposed system is designed and implemented based on Apache Kafka, Apache Spark & Spark Streaming, Hbase, HDFS. Apache Kafka is used to collect the data from smart black boxes and queries from users. Received location data from smart black boxes and queries from users becomes input of Apache Spark Streaming. Apache Spark Streaming preprocesses the input data for indexing. Recent location data and indexes are stored in-memory managed by Apache Spark. Old data and indexes are flushed into HBase later. We perform experiments to show the throughput of the index manager. Finally, we describe the implementation detail in Scala function level.

Apache Spark를 활용한 실시간 주가 예측 (Real-Time Stock Price Prediction using Apache Spark)

  • 신동진;황승연;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.79-84
    • /
    • 2023
  • 최근 분산 및 병렬 처리 기술 중 빠른 처리 속도를 제공하는 Apache Spark는 실시간 기능 및 머신러닝 기능을 제공하고 있다. 이러한 기능에 대한 공식 문서 가이드가 제공되고 있지만, 기능들을 융합하여 실시간으로 특정 값을 예측하는 방안은 제공되고 있지 않다. 따라서 본 논문에서는 이러한 기능들을 융합하여 실시간으로 데이터의 값을 예측할 수 있는 연구를 진행했다. 전체적인 구성은 Python 프로그래밍 언어에서 제공하는 주가 데이터를 다운로드하여 수집한다. 그리고 머신러닝 기능을 통해 회귀분석의 모델을 생성하고, 실시간 스트리밍 기능을 머신러닝 기능과 융합하여 실시간으로 주가 데이터 중 조정종가를 예측한다.

An Abnormal Worker Movement Detection System Based on Data Stream Processing and Hierarchical Clustering

  • Duong, Dat Van Anh;Lan, Doi Thi;Yoon, Seokhoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제14권4호
    • /
    • pp.88-95
    • /
    • 2022
  • Detecting anomalies in human movement is an important task in industrial applications, such as monitoring industrial disasters or accidents and recognizing unauthorized factory intruders. In this paper, we propose an abnormal worker movement detection system based on data stream processing and hierarchical clustering. In the proposed system, Apache Spark is used for streaming the location data of people. A hierarchical clustering-based anomalous trajectory detection algorithm is designed for detecting anomalies in human movement. The algorithm is integrated into Apache Spark for detecting anomalies from location data. Specifically, the location information is streamed to Apache Spark using the message queuing telemetry transport protocol. Then, Apache Spark processes and stores location data in a data frame. When there is a request from a client, the processed data in the data frame is taken and put into the proposed algorithm for detecting anomalies. A real mobility trace of people is used to evaluate the proposed system. The obtained results show that the system has high performance and can be used for a wide range of industrial applications.

Apache Spark를 활용한 대용량 데이터의 처리 (Processing large-scale data with Apache Spark)

  • 고세윤;원중호
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1077-1094
    • /
    • 2016
  • 아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵 리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

아파치 스파크 활용 극대화를 위한 성능 최적화 기법 (Performance Optimization Strategies for Fully Utilizing Apache Spark)

  • 명노영;유헌창;최수경
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권1호
    • /
    • pp.9-18
    • /
    • 2018
  • 분산 처리 플랫폼에서 다양한 빅 데이터 처리 어플리케이션들의 수행 성능 향상에 대한 관심이 높아지고 있다. 이에 따라 범용적인 분산 처리 플랫폼인 아파치 스파크에서 어플리케이션들의 처리 성능 최적화에 대한 연구들이 활발하게 진행되고 있다. 스파크에서 데이터 처리 어플리케이션들의 수행 성능을 향상시키기 위해서는 스파크의 분산처리모델인 Directed Acyclic Graph(DAG)에 알맞은 형태로 어플리케이션을 최적화시켜야 하고 어플리케이션의 처리 특징을 고려하여 스파크 시스템 파라미터들을 설정해야 하기 때문에 매우 어렵다. 기존 연구들은 각각의 어플리케이션의 처리 성능에 영향을 주는 하나의 요소에 대한 부분적인 연구를 수행했고, 최종적으로 어플리케이션의 성능개선을 이뤄냈지만 스파크의 전반적인 처리과정을 고려한 성능 최적화를 다루지 않았을 뿐만 아니라 처리성능과 상관관계를 갖는 다양한 요소들의 복합적인 상호작용을 고려하지 못했다. 본 연구에서는 스파크에서 일반적인 데이터 처리 어플리케이션의 수행 과정을 분석하고, 분석된 결과를 토대로 어플리케이션의 처리과정 중 스테이지 내부와 스테이지 사이에서 성능 향상을 위한 처리 전략을 제안한다. 또한 스파크의 시스템 설정 파라미터 중 분산 병렬처리와 밀접한 관계를 갖는 파티션 병렬화에 따른 어플리케이션의 수행성능을 분석하고 적합한 파티셔닝 최적화 기법을 제안한다. 3가지 성능 향상 전략의 실효성을 입증하기 위해 일반적인 데이터 처리 어플리케이션: WordCount, Pagerank, Kmeans에 각각의 방법을 사용했을 때의 성능 향상률을 제시한다. 또한 제안한 3가지 성능 최적화 기법들이 함께 적용될 때 복합적인 성능향상 시너지를 내는지를 확인하기 위해 모든 기법들이 적용됐을 때의 성능 향상률을 제시함으로써 본 연구에서 제시하는 전략들의 실효성을 입증한다.

Squall: 실시간 이벤트와 마이크로-배치의 동시 처리 지원을 위한 TMO 모델 기반의 실시간 빅데이터 처리 프레임워크 (Squall: A Real-time Big Data Processing Framework based on TMO Model for Real-time Events and Micro-batch Processing)

  • 손재기;김정국
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.84-94
    • /
    • 2017
  • 최근 다양하고 방대한 양의 데이터를 처리하기 위해 빅데이터의 특성인 5V(Volume, Variety, Velocity, Veracity, Value) 중에서도 속도(Velocity)의 중요성이 강조되면서 대량의 데이터를 빠르고 정확하게 처리하는 기술인 실시간 스트림 처리(Real-time Stream processing)를 위해 많은 연구가 진행되고 있다. 본 논문에서는 실시간 빅데이터 처리를 위해 대표적인 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object) 개념을 도입한 Squall 프레임워크를 제시하고, 단일 노드에서 동작하는 Squall 프레임워크와 그 동작들에 대해 기술한다. TMO는 작업을 수행할 때, 특정 조건에 대해 실시간으로 처리하는 비주기적인 처리방법과 일정 시간 간격동안 주기적인 처리를 지원하는 객체 모델이다. 따라서 Squall 프레임워크는 실시간 빅데이터의 실시간 이벤트 스트림 및 마이크로-배치 처리를 동시에 지원하고, 기존 아파치 스톰과 스파크 스트리밍 대비 상대적으로 우수한 성능을 제공한다. 하지만 Squall은 대부분의 프레임워크에서 제공되는 다중 노드에서의 실시간 분산처리를 위한 추가적인 개발이 필요하다. 결론적으로, TMO 모델의 장점은 실시간 빅데이터 처리시 기존 아파치의 스톰이나 스파크 스트리밍의 단점들을 극복할 수 있다. 이러한 TMO 모델은 실시간 빅데이터 처리에 있어 유용한 모델로서의 가능성을 가지고 있다.

Combined time bound optimization of control, communication, and data processing for FSO-based 6G UAV aerial networks

  • Seo, Seungwoo;Ko, Da-Eun;Chung, Jong-Moon
    • ETRI Journal
    • /
    • 제42권5호
    • /
    • pp.700-711
    • /
    • 2020
  • Because of the rapid increase of mobile traffic, flexible broadband supportive unmanned aerial vehicle (UAV)-based 6G mobile networks using free space optical (FSO) links have been recently proposed. Considering the advancements made in UAVs, big data processing, and artificial intelligence precision control technologies, the formation of an additional wireless network based on UAV aerial platforms to assist the existing fixed base stations of the mobile radio access network is considered a highly viable option in the near future. In this paper, a combined time bound optimization scheme is proposed that can adaptively satisfy the control and communication time constraints as well as the processing time constraints in FSO-based 6G UAV aerial networks. The proposed scheme controls the relation between the number of data flows, input data rate, number of worker nodes considering the time bounds, and the errors that occur during communication and data processing. The simulation results show that the proposed scheme is very effective in satisfying the time constraints for UAV control and radio access network services, even when errors in communication and data processing may occur.