• 제목/요약/키워드: Apache Kafka

검색결과 13건 처리시간 0.028초

Apache Kafka에서 효율적인 과부하 측정을 위한 모니터링 도구 (Monitoring Tools for Efficient Overload Measurements in Apache Kafka)

  • 방지원;손시운;문양세;최미정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.52-54
    • /
    • 2017
  • 실시간으로 빠르게 발생하는 대용량 데이터를 다루기 위해 Apache Storm, Apache Spark 등 실시간 데이터 스트림 처리 기술에 대한 연구가 활발하다. 대부분의 실시간 처리 기술들은 단독으로 사용하기에 어려움이 있으며, 데이터 스트림의 입출력을 위해 메시징 시스템과 함께 사용하는 것이 일반적이다. Apache Kafka는 대표적인 분산 메시징 시스템으로써, 실시간으로 발생하는 대용량의 로그 데이터를 전달하는데 특화된 시스템이다. 현재 Kafka를 위한 다양한 성능 모니터링 도구들이 존재한다. 이러한 모니터링 도구들은 Kafka에서 처리되는 데이터의 양 이외에도 유입 데이터의 크기, 수집 속도, 처리 속도 등 다양한 데이터들을 관찰할 수 있다. 본 논문은 Kafka에서 제공하는 도구와 오픈 소스로 제공되는 여러 개의 도구들을 비교하여, 향후 Kafka의 로드 쉐딩에 대한 연구에 적용할 수 있는 최적의 모니터링 도구를 선별하고자 한다.

Distributed Moving Objects Management System for a Smart Black Box

  • Lee, Hyunbyung;Song, Seokil
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.28-33
    • /
    • 2018
  • In this paper, we design and implement a distributed, moving objects management system for processing locations and sensor data from smart black boxes. The proposed system is designed and implemented based on Apache Kafka, Apache Spark & Spark Streaming, Hbase, HDFS. Apache Kafka is used to collect the data from smart black boxes and queries from users. Received location data from smart black boxes and queries from users becomes input of Apache Spark Streaming. Apache Spark Streaming preprocesses the input data for indexing. Recent location data and indexes are stored in-memory managed by Apache Spark. Old data and indexes are flushed into HBase later. We perform experiments to show the throughput of the index manager. Finally, we describe the implementation detail in Scala function level.

고속 동기화를 위한 디지털트윈 개념 모델 설계 (Designing Digital Twin Concept Model for High-Speed Synchronization)

  • 임채영;여채은;성호진
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.245-250
    • /
    • 2023
  • 현실공간의 정보를 가상의 공간으로 모사하는 디지털 트윈 기술은 다양한 분야에서 채택되고 있다. 디지털 트윈에 대한 관심은 Industry 4.0 기반의 스마트제조와 같은 첨단 제조 분야를 중심으로 관심이 커지고 있다. 그리고 디지털 트윈의 시스템을 운영하면 수많은 데이터가 발생하며 기술의 분야에 따라 발생하는 데이터는 특성이 다르기때문에 효율적으로 자원을 관리하고, 최적화된 디지털 트윈 플랫폼 기술이 필요하다. 첨단 제조 분야를 중심으로 디지털 트윈의 파이프라인에 대한 연구가 지속적으로 진행되어 왔으나 플랜트 분야의 데이터에 적합한 고속의 파이프라인 연구는 아직 부족하다. 그렇기에 본 논문에서는 Apache Kafka를 통해 고속으로 쏟아지는 플랜트분야의 디지털 트윈 데이터에 특화된 파이프라인 설계 방식을 제안한다. 제안된 모델은 플랜트의 정보를 revit 기반으로 적용하고, 플랜트에 특화된 데이터를 Apache Kafka 통해 수집하며, 경량화된 CFD엔진을 탑재하여 기존의 제조 분야의 디지털 트윈 기술보다 플랜트분야에 적합한 디지털 트윈의 모델을 구현할 수 있다.

SaaS application mashup based on High Speed Message Processing

  • Chen, Zhiguo;Kim, Myoungjin;Cui, Yun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권5호
    • /
    • pp.1446-1465
    • /
    • 2022
  • Diversified SaaS applications allow users more choices to use, according to their own preferences. However, the diversification of SaaS applications also makes it impossible for users to choose the best one. Furthermore, users can't take advantage of the functionality between SaaS applications. In this paper, we propose a platform that provides an SaaS mashup service, by extracting interoperable service functions from SaaS-based applications that independent vendors deploy and supporting a customized service recommendation function through log data binding in the cloud environment. The proposed SaaS mashup service platform consists of a SaaS aggregation framework and a log data binding framework. Each framework was concreted by using Apache Kafka and rule matrix-based recommendation techniques. We present the theoretical basis of implementing the high-performance message-processing function using Kafka. The SaaS mashup service platform, which provides a new type of mashup service by linking SaaS functions based on the above technology described, allows users to combine the required service functions freely and access the results of a rich service-utilization experience, using the SaaS mashup function. The platform developed through SaaS mashup service technology research will enable various flexible SaaS services, expected to contribute to the development of the smart-contents industry and the open market.

대용량 로그 데이터 처리를 위한 분산 실시간 자가 진단 시스템 (A Distributed Real-time Self-Diagnosis System for Processing Large Amounts of Log Data)

  • 손시운;김다솔;문양세;최형진
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.58-68
    • /
    • 2018
  • 분산 컴퓨팅이란 다수의 서버로 구성된 분산 시스템에서 데이터를 효율적으로 저장 및 처리하는 기술이다. 따라서 분산 시스템을 구성하는 서버의 상태에 따라 분산 컴퓨팅의 성능에 큰 영향을 미친다. 본 논문은 분산 시스템에서 실시간으로 발생하는 시스템 자원의 로그 데이터를 수집하고 이상을 탐지하여 결과를 시각화하는 자가 진단 시스템을 제안한다. 먼저, 자가 진단 과정을 수집, 전달, 분석, 저장, 시각화의 다섯 단계로 구분한다. 다음으로, 자가 진단 과정이 실시간성, 확장성, 고가용성의 목표를 만족하도록 실시간 자가 진단 시스템을 설계한다. 본 시스템은 대표적인 실시간 분산 기술인 Apache Flume, Apache Kafka, Apache Storm을 기반으로 구현되어 실시간성, 확장성, 고가용성의 세 가지 목표를 만족할 수 있다. 또한, 자가 진단 과정에서 로그 데이터 처리의 지연을 최소화하도록 간단하지만 효과적인 이동 평균 및 3-시그마 기반 이상 탐지 기법을 사용한다. 본 논문의 결과를 통해, 분산 시스템 내에서 서버 상태를 실시간으로 진단할 수 있는 분산 실시간 자가 진단 시스템을 구축할 수 있다.

교육 동영상 공유 서비스의 카프카 기반 데이터 공유 방안 (A Kafka-based Data Sharing Method for Educational Video Services)

  • 이현섭;김진덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.574-576
    • /
    • 2021
  • 대규모 운영시스템이나 확장성을 고려한 시스템을 구성할 때 마이크로서비스 기법을 도입하는 것이 필요하다. 카프카는 pub/sub 모델을 가지는 메시지 큐로서 분산환경에 잘 적용되는 특징을 가지며, 다양한 데이터 소스를 활용할 수 있다는 점에서 마이크로서비스에 적합하다. 이 논문에서는 아파치의 카프카를 이용한 교육동영상 공유 서비스의 데이터 공유 방안을 제안하고자 한다. 제안하는 시스템은 교육 동영상 공유서비스이 다양한 데이터를 공유하기 위해 카프카 클러스터를 구축하며, 아울러 교육동영상의 유사도를 기반으로 하는 추천 시스템과 연계하기 위해 스파크 클러스터를 이용한다. 그리고 파일, RDBMS의 DB등과 같은 다양한 데이터 소스를 공유하는 방안을 제시한다.

  • PDF

아파치 카프카의 메시지 지연시간 기반 로드 쉐딩 메커니즘 (Message Latency-based Load Shedding Mechanism in Apache Kafka)

  • 김하진;방지원;손시운;최미정;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.573-576
    • /
    • 2018
  • 아파치 카프카(Apache Kafka)는 데이터 스트림을 실시간 전달하는 분산 메시지 큐잉 플랫폼이다. 카프카는 대다수의 실시간 처리 응용에 사용되는데, 흔히 데이터 스트림의 발생지와 실시간 처리 시스템 사이(입력) 또는 실시간 처리 시스템과 처리 결과의 목적지 사이(출력)에 배치된다. 분산 기술을 도입한 카프카는 다른 메시지 큐잉 기술에 비해 대용량 데이터 스트림을 더욱 빠르게 전달 할 수 있다는 장점을 갖는다. 하지만, 카프카에 적재되는 데이터 스트림의 양과 실시간 처리 응용의 수가 증가할수록 메시지 지연시간은 매우 높아질 수 밖에 없다. 본 논문은 이러한 카프카의 메시지 지연 문제를 해결하고자 카프카의 로드 쉐딩 엔진을 제안한다. 로드 쉐딩의 세 가지 필수적인 결정에 따라, 제안하는 로드 쉐딩 엔진은 카프카의 프로뷰서에서 지연시간이 기준치를 초과할 경우 일부 메시지 전송을 제한하여 지연시간을 줄인다. 실제 실시간 처리 응용으로 실험한 결과, 단일/다중 데이터 스트리 모두 로드 쉐딩이 바르게 작동하여 지연시간이 지속적으로 증가하지 않고 오르내림이 반복되는 추세를 보였다. 본 연구는 데이터 스트림의 입출력을 카프카로 관리하는 실시간 처리 응용에 로드 쉐딩 기법을 적용한 첫 번째 시도로서, 앞으로 데이터 스트림 처리에 사용될 의미 있는 연구라 사료된다.

Scalable Big Data Pipeline for Video Stream Analytics Over Commodity Hardware

  • Ayub, Umer;Ahsan, Syed M.;Qureshi, Shavez M.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권4호
    • /
    • pp.1146-1165
    • /
    • 2022
  • A huge amount of data in the form of videos and images is being produced owning to advancements in sensor technology. Use of low performance commodity hardware coupled with resource heavy image processing and analyzing approaches to infer and extract actionable insights from this data poses a bottleneck for timely decision making. Current approach of GPU assisted and cloud-based architecture video analysis techniques give significant performance gain, but its usage is constrained by financial considerations and extremely complex architecture level details. In this paper we propose a data pipeline system that uses open-source tools such as Apache Spark, Kafka and OpenCV running over commodity hardware for video stream processing and image processing in a distributed environment. Experimental results show that our proposed approach eliminates the need of GPU based hardware and cloud computing infrastructure to achieve efficient video steam processing for face detection with increased throughput, scalability and better performance.

다변량 데이터 스트림을 위한 아파치 스톰 기반 질의 필터링 시스템 (Apache Storm based Query Filtering System for Multivariate Data Streams)

  • 김영국;손시운;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.561-564
    • /
    • 2018
  • 최근 빠르게 발생하는 빅데이터 스트림이 다양한 분야에서 활용되고 있다. 이러한 빅데이터 전체를 수집하고 처리하는 것은 매우 비경제적이므로, 데이터 스트림 중 필요한 데이터를 걸러내는 필터링 과정이 필요하다. 본 논문에서는 아파치 스톰(Apache Storm)을 사용하여 데이터 스트림의 질의 필터링 시스템을 구축한다. 스톰은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이다. 하지만, 스톰은 입력 데이터 구조나 알고리즘 변경 시, 코드의 수정과 재배포, 재시작 등이 필요하다. 따라서, 본 논문에서는 이 같은 문제를 해결하기 위해 아파치 카프카(Apache Kafka)를 사용하여 데이터 수집 모듈과 스톰의 처리 모듈을 분리함으로써 시스템의 가용성을 크게 높인다. 또한, 시스템을 웹 기반 클라이언트-서버 모델로 구현하여 사용자가 언제 어디에서든 질의 필터링 시스템을 사용할 수 있게 하며, 웹 클라이언트를 통해 입력한 질의를 자동적 분석하는 쿼리 파서를 구현하여 별도의 프로그램의 수정 없이 질의 필터링을 적용할 수 있다.

아파치 카프카를 활용한 블랙박스 영상에서의 차량 번호판 인식 방법 (License plate recognition technique on black box using Apache Kafka)

  • 정상원;정승원;황인준;정창성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.87-89
    • /
    • 2017
  • 차량의 블랙박스와 CCTV, 드론 등 다양한 채널에서 촬영된 영상의 증가로, 차량 및 교통 상황과 관련된 데이터의 양 또한 폭발적으로 증가하고 있다. 본 연구에서는 이러한 데이터들의 고속 처리를 위해, 실시간 메시지 분산처리 시스템인 아파치 카프카를 활용하여 블랙박스 영상의 프레임을 여러 노드에 분배하였다. 또한, 각각의 노드에 들어온 블랙박스 영상의 프레임을 입력으로 하여, 영상처리 기법을 통한 차량 번호판의 지역화와 문자 분할 및 이를 인식하기 위한 연구를 수행하였다.