• 제목/요약/키워드: apache spark

검색결과 58건 처리시간 0.025초

Distributed Moving Objects Management System for a Smart Black Box

  • Lee, Hyunbyung;Song, Seokil
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.28-33
    • /
    • 2018
  • In this paper, we design and implement a distributed, moving objects management system for processing locations and sensor data from smart black boxes. The proposed system is designed and implemented based on Apache Kafka, Apache Spark & Spark Streaming, Hbase, HDFS. Apache Kafka is used to collect the data from smart black boxes and queries from users. Received location data from smart black boxes and queries from users becomes input of Apache Spark Streaming. Apache Spark Streaming preprocesses the input data for indexing. Recent location data and indexes are stored in-memory managed by Apache Spark. Old data and indexes are flushed into HBase later. We perform experiments to show the throughput of the index manager. Finally, we describe the implementation detail in Scala function level.

빅데이터 처리를 위한 PC와 라즈베리파이 클러스터에서의 Apache Spark 성능 비교 평가 (Performance Evaluation Between PC and RaspberryPI Cluster in Apache Spark for Processing Big Data)

  • 서지혜;박미림;양혜경;용환승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1265-1267
    • /
    • 2015
  • 최근 IoT 기술의 등장으로 저전력 소형 컴퓨터인 라즈베리파이 클러스터가 IoT 데이터 처리를 위해 사용되고 있다. IoT 기술이 발전하면서 다양한 데이터가 생성되고 있으며 IoT 환경에서도 빅데이터 처리가 요구되고 있다. 빅데이터 처리 프레임워크에는 일반적으로 하둡이 사용되고 있으며 이를 대체하는 솔루션으로 Apache Spark가 등장했다. 본 논문에서는 PC와 라즈베리파이 클러스터에서의 성능을 Apache Spark를 통해 비교하였다. 본 실험을 위해 Yelp 데이터를 사용하며 데이터 로드 시간과 Spark SQL을 이용한 데이터 처리 시간을 통해 성능을 비교하였다.

Apache Spark를 활용한 쿠버네티스 클라우드 취약점 진단 시스템 설계 (Design of Kubernetes cloud vulnerability diagnosis System using Apache Spark)

  • 문주현;김상훈;신용태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.543-544
    • /
    • 2020
  • 최근 급증하는 클라우드 도입 정책에 비해 클라우드 취약점 진단 및 관리 기술은 상대적으로 미비하여 오픈소스로 사용되고 있는 클라우드 기술의 신규 취약점이 발생하고 있다. 본 논문에서는 Apache Spark를 활용한 쿠버네티스 클라우드 취악점 진단 시스템을 제안한다. 제안하는 시스템은 Apache Spark를 활용하여 쿠버네티스 클라우드를 구성할 때 작성되는 Object Spec의 데이터 중 취약점을 유발하는 값을 진단 및 분석, 대응이 가능하도록 설계하였다.

  • PDF

Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경 대용량 이미지 머신러닝 시스템 (Image Machine Learning System using Apache Spark and OpenCV on Distributed Cluster)

  • 김하윤;김원집;이협건;김영운
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.33-34
    • /
    • 2023
  • 성장하는 빅 데이터 시장과 빅 데이터 수의 기하급수적인 증가는 기존 컴퓨팅 환경에서 데이터 처리의 어려움을 야기한다. 특히 이미지 데이터 처리 속도는 데이터양이 많을수록 현저하게 느려진다. 이에 본 논문에서는 Apache Spark와 OpenCV를 활용한 분산 클러스터 컴퓨팅 환경의 대용량 이미지 머신러닝 시스템을 제안한다. 제안하는 시스템은 Apache Spark를 통해 분산 클러스터를 구성하며, OpenCV의 이미지 처리 알고리즘과 Spark MLlib의 머신러닝 알고리즘을 활용하여 작업을 수행한다. 제안하는 시스템을 통해 본 논문은 대용량 이미지 데이터 처리 및 머신러닝 작업 속도 향상 방법을 제시한다.

Apache Spark를 활용한 실시간 주가 예측 (Real-Time Stock Price Prediction using Apache Spark)

  • 신동진;황승연;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.79-84
    • /
    • 2023
  • 최근 분산 및 병렬 처리 기술 중 빠른 처리 속도를 제공하는 Apache Spark는 실시간 기능 및 머신러닝 기능을 제공하고 있다. 이러한 기능에 대한 공식 문서 가이드가 제공되고 있지만, 기능들을 융합하여 실시간으로 특정 값을 예측하는 방안은 제공되고 있지 않다. 따라서 본 논문에서는 이러한 기능들을 융합하여 실시간으로 데이터의 값을 예측할 수 있는 연구를 진행했다. 전체적인 구성은 Python 프로그래밍 언어에서 제공하는 주가 데이터를 다운로드하여 수집한다. 그리고 머신러닝 기능을 통해 회귀분석의 모델을 생성하고, 실시간 스트리밍 기능을 머신러닝 기능과 융합하여 실시간으로 주가 데이터 중 조정종가를 예측한다.

OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크 (Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제67권2호
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

빅데이터 천문학 : PySpark를 이용한 천문자료 분석 (Big Data Astronomy : Let's "PySpark" the Universe)

  • Hong, Sungryong
    • 천문학회보
    • /
    • 제43권1호
    • /
    • pp.63.1-63.1
    • /
    • 2018
  • The modern large-scale surveys and state-of-the-art cosmological simulations produce various kinds of big data composed of millions and billions of galaxies. Inevitably, we need to adopt modern Big Data platforms to properly handle such large-scale data sets. In my talk, I will briefly introduce the de facto standard of modern Big Data platform, Apache Spark, and present some examples to demonstrate how Apache Spark can be utilized for solving data-driven astronomical problems.

  • PDF

병렬 분산 처리를 이용한 영상 기반 실내 위치인식 시스템의 프레임워크 구현 (Framework Implementation of Image-Based Indoor Localization System Using Parallel Distributed Computing)

  • 권범;전동현;김종유;김정환;김도영;송혜원;이상훈
    • 한국통신학회논문지
    • /
    • 제41권11호
    • /
    • pp.1490-1501
    • /
    • 2016
  • 본 논문에서는 인메모리(In-memory) 병렬 분산 처리 시스템 Apache Spark(이하 Spark)를 활용하여 사용자에게 실시간 측위 정보를 제공할 수 있는 영상 기반 실내 위치인식 시스템을 제안한다. 제안하는 시스템에서는 사용자에게 실시간 측위 정보를 제공하기 위해서, Spark를 이용한 영상 특징점 추출 알고리즘의 병렬 분산화를 통해 알고리즘 연산 시간을 단축시킨다. 하지만 기존의 Spark 플랫폼에서는 영상 처리를 위한 인터페이스가 존재하지 않아, 영상 처리와 관련된 연산을 수행하는 것이 불가능하였다. 이에 본 논문에서는 Spark 영상 입출력 인터페이스를 구현하여 측위 연산을 위한 영상 처리를 Spark에서 수행 가능하게 하였다. 또한 무손실 압축(lossless compression)기법을 이용하여 특징점 기술자(descriptor)를 압축된 형태로 데이터베이스에 저장하여, 대용량의 실내 지도 데이터를 효율적으로 저장 및 관리하는 방법을 소개한다. 측위 실험은 실제 실내 환경에서 수행하였으며, 싱글 코어(Single-core) 시스템과의 성능 비교를 통해 제안하는 시스템이 최대 약 3.6배 단축된 시간으로 사용자에게 측위 정보를 제공 할 수 있다는 것을 입증하였다.

IoT 기반 Apache Spark 분석기법을 이용한 과수 수확 불량 영역 모니터링 아키텍처 모델 (Using IoT and Apache Spark Analysis Technique to Monitoring Architecture Model for Fruit Harvest Region)

  • 오정원;김행곤
    • 스마트미디어저널
    • /
    • 제6권4호
    • /
    • pp.58-64
    • /
    • 2017
  • 현대 사회는 급속한 세계인구의 증가, 농촌 인구의 고령화, 산업화로 인한 농작물 재배 지역의 감소, 농촌 지역의 수익 구조의 불량 등으로 농부들의 탈농촌화 등으로 먹거리 문제 해결이 중요한 화두로 떠오르고 있다. 최근 농촌의 수익을 증대시키기 위해서 스마트 팜(Smart Farm) 분야의 연구가 활발하게 이루어지고 있다. 기존의 스마트 팜 연구는 주로 온실의 농작물의 재배 환경을 모니터링 하여 온실의 조도, 습도, 토양 등이 불량해지면 재배 환경인자를 제어하는 시스템을 자동으로 가동시켜 농작물의 재배 환경을 최적의 상태로 유지하는 데 중점을 두어 연구되고 있다. 즉, 실내에서 재배하는 농작물에 중점을 두어 연구가 이루어지고 있으며 실외에서 재배되는 농작물의 재배환경에 적용되는 연구는 많이 이루어지지 않았다. 본 논문에서는 과수원에서 자라는 과수의 수확 시기를 정확하게 예측하여 최상의 품질로 과일이 수확되게 지원하고 수확이 불량한 지역을 빅데이터 분석을 통해 모니터링하여 불량 지역의 수확성을 향상시키기 위해서 집중 관리할 수 있은 기능을 제공하는 아키텍처를 제안한다. 수확에 관련된 인자는 과일 색상 정보와 과일 무게 정보를 사용하며 실시간으로 수집되는 수확 상관인자 데이터를 Apache Spark 엔진을 이용하여 분석하도록 제안한다. Apache Spark 엔진은 대용량 배치성 데이터 분석 뿐만 아니라 실시간 데이터 분석에서도 우수한 성능을 보인다. 서비스를 수신하는 사용자 디바이스는 PC User 와 Smart Phone User를 지원한다. 센싱 데이터 수신 장치는 센싱되는 데이터를 수신한 후 서버로 전송하는 단순한 처리만 필요하므로 Arduino를 적용하였다. 과일의 수확시기를 조절하여 좋은 품질의 과일을 생산하려면 수확이 불량한 지역을 판단하여 불량지역을 집중 관리해야 한다. 본 논문에서는 빅 데이터 분석 기법을 이용해서 과일 수확의 불량지역을 판단하는 아키텍처 모델을 제안한다.

An Abnormal Worker Movement Detection System Based on Data Stream Processing and Hierarchical Clustering

  • Duong, Dat Van Anh;Lan, Doi Thi;Yoon, Seokhoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제14권4호
    • /
    • pp.88-95
    • /
    • 2022
  • Detecting anomalies in human movement is an important task in industrial applications, such as monitoring industrial disasters or accidents and recognizing unauthorized factory intruders. In this paper, we propose an abnormal worker movement detection system based on data stream processing and hierarchical clustering. In the proposed system, Apache Spark is used for streaming the location data of people. A hierarchical clustering-based anomalous trajectory detection algorithm is designed for detecting anomalies in human movement. The algorithm is integrated into Apache Spark for detecting anomalies from location data. Specifically, the location information is streamed to Apache Spark using the message queuing telemetry transport protocol. Then, Apache Spark processes and stores location data in a data frame. When there is a request from a client, the processed data in the data frame is taken and put into the proposed algorithm for detecting anomalies. A real mobility trace of people is used to evaluate the proposed system. The obtained results show that the system has high performance and can be used for a wide range of industrial applications.