• Title/Summary/Keyword: Apache Kafka

Search Result 13, Processing Time 0.055 seconds

Monitoring Tools for Efficient Overload Measurements in Apache Kafka (Apache Kafka에서 효율적인 과부하 측정을 위한 모니터링 도구)

  • Bang, Jiwon;Son, Siwoon;Moon, Yang-Sae;Choi, Mi-Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.11a
    • /
    • pp.52-54
    • /
    • 2017
  • 실시간으로 빠르게 발생하는 대용량 데이터를 다루기 위해 Apache Storm, Apache Spark 등 실시간 데이터 스트림 처리 기술에 대한 연구가 활발하다. 대부분의 실시간 처리 기술들은 단독으로 사용하기에 어려움이 있으며, 데이터 스트림의 입출력을 위해 메시징 시스템과 함께 사용하는 것이 일반적이다. Apache Kafka는 대표적인 분산 메시징 시스템으로써, 실시간으로 발생하는 대용량의 로그 데이터를 전달하는데 특화된 시스템이다. 현재 Kafka를 위한 다양한 성능 모니터링 도구들이 존재한다. 이러한 모니터링 도구들은 Kafka에서 처리되는 데이터의 양 이외에도 유입 데이터의 크기, 수집 속도, 처리 속도 등 다양한 데이터들을 관찰할 수 있다. 본 논문은 Kafka에서 제공하는 도구와 오픈 소스로 제공되는 여러 개의 도구들을 비교하여, 향후 Kafka의 로드 쉐딩에 대한 연구에 적용할 수 있는 최적의 모니터링 도구를 선별하고자 한다.

Distributed Moving Objects Management System for a Smart Black Box

  • Lee, Hyunbyung;Song, Seokil
    • International Journal of Contents
    • /
    • v.14 no.1
    • /
    • pp.28-33
    • /
    • 2018
  • In this paper, we design and implement a distributed, moving objects management system for processing locations and sensor data from smart black boxes. The proposed system is designed and implemented based on Apache Kafka, Apache Spark & Spark Streaming, Hbase, HDFS. Apache Kafka is used to collect the data from smart black boxes and queries from users. Received location data from smart black boxes and queries from users becomes input of Apache Spark Streaming. Apache Spark Streaming preprocesses the input data for indexing. Recent location data and indexes are stored in-memory managed by Apache Spark. Old data and indexes are flushed into HBase later. We perform experiments to show the throughput of the index manager. Finally, we describe the implementation detail in Scala function level.

Designing Digital Twin Concept Model for High-Speed Synchronization (고속 동기화를 위한 디지털트윈 개념 모델 설계)

  • Chae-Young Lim;Chae-Eun Yeo;Ho-jin Sung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.6
    • /
    • pp.245-250
    • /
    • 2023
  • Digital twin technology, which copies information from real space into virtual space, is being used in a variety of fields.Interest in digital twins is increasing, especially in advanced manufacturing fields such as Industry 4.0-based smart manufacturing. Operating a digital twin system generates a large amount of data, and the data generated has different characteristics depending on the technology field, so it is necessary to efficiently manage resources and use an optimized digital twin platform technology. Research on digital twin pipelines has continued, mainly in the advanced manufacturing field, but research on high-speed pipelines suitable for data in the plant field is still lacking. Therefore, in this paper, we propose a pipeline design method that is specialized for digital twin data in the plant field that is rapidly poured through Apache Kafka. The proposed model applies plant information on a Revit basis. and collect plant-specific data through Apache Kafka. Equipped with a lightweight CFD engine, it is possible to create a digital twin model that is more suitable for the plant field than existing digital twin technology for the manufacturing field.

SaaS application mashup based on High Speed Message Processing

  • Chen, Zhiguo;Kim, Myoungjin;Cui, Yun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.16 no.5
    • /
    • pp.1446-1465
    • /
    • 2022
  • Diversified SaaS applications allow users more choices to use, according to their own preferences. However, the diversification of SaaS applications also makes it impossible for users to choose the best one. Furthermore, users can't take advantage of the functionality between SaaS applications. In this paper, we propose a platform that provides an SaaS mashup service, by extracting interoperable service functions from SaaS-based applications that independent vendors deploy and supporting a customized service recommendation function through log data binding in the cloud environment. The proposed SaaS mashup service platform consists of a SaaS aggregation framework and a log data binding framework. Each framework was concreted by using Apache Kafka and rule matrix-based recommendation techniques. We present the theoretical basis of implementing the high-performance message-processing function using Kafka. The SaaS mashup service platform, which provides a new type of mashup service by linking SaaS functions based on the above technology described, allows users to combine the required service functions freely and access the results of a rich service-utilization experience, using the SaaS mashup function. The platform developed through SaaS mashup service technology research will enable various flexible SaaS services, expected to contribute to the development of the smart-contents industry and the open market.

A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data (대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템)

  • Son, Siwoon;Kim, Dasol;Moon, Yang-Sae;Choi, Hyung-Jin
    • Database Research
    • /
    • v.34 no.3
    • /
    • pp.58-68
    • /
    • 2018
  • Distributed computing helps to efficiently store and process large data on a cluster of multiple machines. The performance of distributed computing is greatly influenced depending on the state of the servers constituting the distributed system. In this paper, we propose a self-diagnosis system that collects log data in a distributed system, detects anomalies and visualizes the results in real time. First, we divide the self-diagnosis process into five stages: collecting, delivering, analyzing, storing, and visualizing stages. Next, we design a real-time self-diagnosis system that meets the goals of real-time, scalability, and high availability. The proposed system is based on Apache Flume, Apache Kafka, and Apache Storm, which are representative real-time distributed techniques. In addition, we use simple but effective moving average and 3-sigma based anomaly detection technique to minimize the delay of log data processing during the self-diagnosis process. Through the results of this paper, we can construct a distributed real-time self-diagnosis solution that can diagnose server status in real time in a complicated distributed system.

A Kafka-based Data Sharing Method for Educational Video Services (교육 동영상 공유 서비스의 카프카 기반 데이터 공유 방안)

  • Lee, Hyeon sup;Kim, Jin-Deog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.574-576
    • /
    • 2021
  • It is necessary to introduce micro-service techniques when constructing large-scale operating systems or systems that take into account scalability. Kafka is a message queue with the pub/sub model, which has features that are well applied to distributed environments and is also suitable for microservices in that it can utilize various data sources. In this paper, we propose a data sharing method for educational video sharing services using Apache's Kafka. The proposed system builds a Kafka cluster for the educational video sharing service to share various data, and also uses a spark cluster to link with recommendation systems based on similarities in educational videos. We also present a way to share various data sources, such as files, various DBMS, etc.

  • PDF

Message Latency-based Load Shedding Mechanism in Apache Kafka (아파치 카프카의 메시지 지연시간 기반 로드 쉐딩 메커니즘)

  • Kim, Hajin;Bang, Jiwon;Son, Siwoon;Choi, Mi-Jung;Moon, Yang-Sae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.573-576
    • /
    • 2018
  • 아파치 카프카(Apache Kafka)는 데이터 스트림을 실시간 전달하는 분산 메시지 큐잉 플랫폼이다. 카프카는 대다수의 실시간 처리 응용에 사용되는데, 흔히 데이터 스트림의 발생지와 실시간 처리 시스템 사이(입력) 또는 실시간 처리 시스템과 처리 결과의 목적지 사이(출력)에 배치된다. 분산 기술을 도입한 카프카는 다른 메시지 큐잉 기술에 비해 대용량 데이터 스트림을 더욱 빠르게 전달 할 수 있다는 장점을 갖는다. 하지만, 카프카에 적재되는 데이터 스트림의 양과 실시간 처리 응용의 수가 증가할수록 메시지 지연시간은 매우 높아질 수 밖에 없다. 본 논문은 이러한 카프카의 메시지 지연 문제를 해결하고자 카프카의 로드 쉐딩 엔진을 제안한다. 로드 쉐딩의 세 가지 필수적인 결정에 따라, 제안하는 로드 쉐딩 엔진은 카프카의 프로뷰서에서 지연시간이 기준치를 초과할 경우 일부 메시지 전송을 제한하여 지연시간을 줄인다. 실제 실시간 처리 응용으로 실험한 결과, 단일/다중 데이터 스트리 모두 로드 쉐딩이 바르게 작동하여 지연시간이 지속적으로 증가하지 않고 오르내림이 반복되는 추세를 보였다. 본 연구는 데이터 스트림의 입출력을 카프카로 관리하는 실시간 처리 응용에 로드 쉐딩 기법을 적용한 첫 번째 시도로서, 앞으로 데이터 스트림 처리에 사용될 의미 있는 연구라 사료된다.

Scalable Big Data Pipeline for Video Stream Analytics Over Commodity Hardware

  • Ayub, Umer;Ahsan, Syed M.;Qureshi, Shavez M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.16 no.4
    • /
    • pp.1146-1165
    • /
    • 2022
  • A huge amount of data in the form of videos and images is being produced owning to advancements in sensor technology. Use of low performance commodity hardware coupled with resource heavy image processing and analyzing approaches to infer and extract actionable insights from this data poses a bottleneck for timely decision making. Current approach of GPU assisted and cloud-based architecture video analysis techniques give significant performance gain, but its usage is constrained by financial considerations and extremely complex architecture level details. In this paper we propose a data pipeline system that uses open-source tools such as Apache Spark, Kafka and OpenCV running over commodity hardware for video stream processing and image processing in a distributed environment. Experimental results show that our proposed approach eliminates the need of GPU based hardware and cloud computing infrastructure to achieve efficient video steam processing for face detection with increased throughput, scalability and better performance.

Apache Storm based Query Filtering System for Multivariate Data Streams (다변량 데이터 스트림을 위한 아파치 스톰 기반 질의 필터링 시스템)

  • Kim, Youngkuk;Son, Siwoon;Moon, Yang-Sae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.561-564
    • /
    • 2018
  • 최근 빠르게 발생하는 빅데이터 스트림이 다양한 분야에서 활용되고 있다. 이러한 빅데이터 전체를 수집하고 처리하는 것은 매우 비경제적이므로, 데이터 스트림 중 필요한 데이터를 걸러내는 필터링 과정이 필요하다. 본 논문에서는 아파치 스톰(Apache Storm)을 사용하여 데이터 스트림의 질의 필터링 시스템을 구축한다. 스톰은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이다. 하지만, 스톰은 입력 데이터 구조나 알고리즘 변경 시, 코드의 수정과 재배포, 재시작 등이 필요하다. 따라서, 본 논문에서는 이 같은 문제를 해결하기 위해 아파치 카프카(Apache Kafka)를 사용하여 데이터 수집 모듈과 스톰의 처리 모듈을 분리함으로써 시스템의 가용성을 크게 높인다. 또한, 시스템을 웹 기반 클라이언트-서버 모델로 구현하여 사용자가 언제 어디에서든 질의 필터링 시스템을 사용할 수 있게 하며, 웹 클라이언트를 통해 입력한 질의를 자동적 분석하는 쿼리 파서를 구현하여 별도의 프로그램의 수정 없이 질의 필터링을 적용할 수 있다.

License plate recognition technique on black box using Apache Kafka (아파치 카프카를 활용한 블랙박스 영상에서의 차량 번호판 인식 방법)

  • Jung, Sang-Won;Jung, Seung-Won;Hwang, Een-Jun;Jeong, Chang-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.87-89
    • /
    • 2017
  • 차량의 블랙박스와 CCTV, 드론 등 다양한 채널에서 촬영된 영상의 증가로, 차량 및 교통 상황과 관련된 데이터의 양 또한 폭발적으로 증가하고 있다. 본 연구에서는 이러한 데이터들의 고속 처리를 위해, 실시간 메시지 분산처리 시스템인 아파치 카프카를 활용하여 블랙박스 영상의 프레임을 여러 노드에 분배하였다. 또한, 각각의 노드에 들어온 블랙박스 영상의 프레임을 입력으로 하여, 영상처리 기법을 통한 차량 번호판의 지역화와 문자 분할 및 이를 인식하기 위한 연구를 수행하였다.