• Title/Summary/Keyword: 아파치 카프카

Search Result 7, Processing Time 0.03 seconds

Apache Storm based Query Filtering System for Multivariate Data Streams (다변량 데이터 스트림을 위한 아파치 스톰 기반 질의 필터링 시스템)

  • Kim, Youngkuk;Son, Siwoon;Moon, Yang-Sae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.561-564
    • /
    • 2018
  • 최근 빠르게 발생하는 빅데이터 스트림이 다양한 분야에서 활용되고 있다. 이러한 빅데이터 전체를 수집하고 처리하는 것은 매우 비경제적이므로, 데이터 스트림 중 필요한 데이터를 걸러내는 필터링 과정이 필요하다. 본 논문에서는 아파치 스톰(Apache Storm)을 사용하여 데이터 스트림의 질의 필터링 시스템을 구축한다. 스톰은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이다. 하지만, 스톰은 입력 데이터 구조나 알고리즘 변경 시, 코드의 수정과 재배포, 재시작 등이 필요하다. 따라서, 본 논문에서는 이 같은 문제를 해결하기 위해 아파치 카프카(Apache Kafka)를 사용하여 데이터 수집 모듈과 스톰의 처리 모듈을 분리함으로써 시스템의 가용성을 크게 높인다. 또한, 시스템을 웹 기반 클라이언트-서버 모델로 구현하여 사용자가 언제 어디에서든 질의 필터링 시스템을 사용할 수 있게 하며, 웹 클라이언트를 통해 입력한 질의를 자동적 분석하는 쿼리 파서를 구현하여 별도의 프로그램의 수정 없이 질의 필터링을 적용할 수 있다.

Video Big Data Processing Scheme for Spatio-Temporal Analysis of Moving Objects (움직이는 물체의 시공간 분석을 위한 동영상 빅 데이터 처리 방안)

  • Jung, Seungwon;Kim, Yongsung;Jung, Sangwon;Kim, Yoonki;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.833-836
    • /
    • 2017
  • 최근 블랙박스 및 CCTV 같은 영상 촬영 장치가 보편화되면서, 방대한 양의 영상 데이터가 실시간으로 생성되고 있다. 만약 이 대용량 데이터 안의 차량 정보를 추출할 수 있다면 범죄 차량 추적, 교통 혼잡도 측정 등의 활용이 가능할 것이다. 이를 구현하기 위해서는 수많은 자동차에서 실시간으로 생성되는 영상 데이터를 처리할 수 있는 시스템이 필수적이나, 이러한 시스템을 찾기 힘든 것이 현실이다. 이를 위해 이 논문에서는 아파치 카프카, Hbase를 이용한 영상 빅데이터 처리 시스템을 제안한다. 아파치 카프카는 시스템 내에서 영상 손실이 없는 전송과 영상 처리 노드의 스케줄링을 수행하며, Hbase는 처리된 데이터를 테이블로 저장하고 사용자가 보낸 쿼리를 처리한다. 더불어, Hbase에 인덱스를 구성하여 빠른 쿼리 처리가 가능하도록 만든다. 실험 결과, 제안된 시스템은 인덱스가 없을 때보다 뛰어난 쿼리 처리 성능을 보이는 것을 확인할 수 있었다.

Message Latency-based Load Shedding Mechanism in Apache Kafka (아파치 카프카의 메시지 지연시간 기반 로드 쉐딩 메커니즘)

  • Kim, Hajin;Bang, Jiwon;Son, Siwoon;Choi, Mi-Jung;Moon, Yang-Sae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.573-576
    • /
    • 2018
  • 아파치 카프카(Apache Kafka)는 데이터 스트림을 실시간 전달하는 분산 메시지 큐잉 플랫폼이다. 카프카는 대다수의 실시간 처리 응용에 사용되는데, 흔히 데이터 스트림의 발생지와 실시간 처리 시스템 사이(입력) 또는 실시간 처리 시스템과 처리 결과의 목적지 사이(출력)에 배치된다. 분산 기술을 도입한 카프카는 다른 메시지 큐잉 기술에 비해 대용량 데이터 스트림을 더욱 빠르게 전달 할 수 있다는 장점을 갖는다. 하지만, 카프카에 적재되는 데이터 스트림의 양과 실시간 처리 응용의 수가 증가할수록 메시지 지연시간은 매우 높아질 수 밖에 없다. 본 논문은 이러한 카프카의 메시지 지연 문제를 해결하고자 카프카의 로드 쉐딩 엔진을 제안한다. 로드 쉐딩의 세 가지 필수적인 결정에 따라, 제안하는 로드 쉐딩 엔진은 카프카의 프로뷰서에서 지연시간이 기준치를 초과할 경우 일부 메시지 전송을 제한하여 지연시간을 줄인다. 실제 실시간 처리 응용으로 실험한 결과, 단일/다중 데이터 스트리 모두 로드 쉐딩이 바르게 작동하여 지연시간이 지속적으로 증가하지 않고 오르내림이 반복되는 추세를 보였다. 본 연구는 데이터 스트림의 입출력을 카프카로 관리하는 실시간 처리 응용에 로드 쉐딩 기법을 적용한 첫 번째 시도로서, 앞으로 데이터 스트림 처리에 사용될 의미 있는 연구라 사료된다.

A Kafka-based Data Sharing Method for Educational Video Services (교육 동영상 공유 서비스의 카프카 기반 데이터 공유 방안)

  • Lee, Hyeon sup;Kim, Jin-Deog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.574-576
    • /
    • 2021
  • It is necessary to introduce micro-service techniques when constructing large-scale operating systems or systems that take into account scalability. Kafka is a message queue with the pub/sub model, which has features that are well applied to distributed environments and is also suitable for microservices in that it can utilize various data sources. In this paper, we propose a data sharing method for educational video sharing services using Apache's Kafka. The proposed system builds a Kafka cluster for the educational video sharing service to share various data, and also uses a spark cluster to link with recommendation systems based on similarities in educational videos. We also present a way to share various data sources, such as files, various DBMS, etc.

  • PDF

Distributed processing system for blockchain processing a large number of transactions (대량의 트랜잭션을 처리하는 블록체인을 위한 분산처리 시스템)

  • Ko, Hyug-Jun;Han, Seong-Soo;Jeong, Chang-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.65-67
    • /
    • 2019
  • 최근 비트코인(Bitcoin)과 이더리움(Etherium)과 같은 퍼블릭 블록체인(Public Blockchain) 사용자의 급격한 증가로 인하여 블록체인 지갑 사용자가 늘어나고 있다. 또한, 암호화폐 거래소의 거래량이 증가와 이로 인한 지갑의 잔액 조회와 코인 이체를 위한 트랜잭션이 빈번하게 이루어 지고 있다. 한편, 최신의 잔액 조회와 빠른 이체를 위하여 마이닝 풀(Mining Pool)에서 사용되는 노드(Node)를 사용하는 것 같이 트래픽이 일부 노드에 집중되는 현상이 발생하여 시스템의 성능이 저하되는 문제가 있다. 이러한 문제를 해결하기 위하여 본 연구에서는 아파치 카프카(Apache Kafka)를 이용하여 트래픽 분산처리를 통한 효율적인 시스템을 제안한다. 또한, 시스템의 구조 설계 및 상세 모듈 설계를 제안한다. 제안 시스템은 기존 블록체인 시스템과의 연계가 가능하며, 기존 시스템의 변경 없이 구축할 수 있다. 또한, 주키퍼(ZooKeeper)의 분산처리를 통해 고성능과 가용성 및 안정성을 확보할 수 있다.

A System Design for Real-Time Monitoring of Patient Waiting Time based on Open-Source Platform (오픈소스 플랫폼 기반의 실시간 환자 대기시간 모니터링 시스템 설계)

  • Ryu, Wooseok
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.22 no.4
    • /
    • pp.575-580
    • /
    • 2018
  • This paper discusses system for real-time monitoring of patient waiting time in hospitals based on open-source platform. It is necessary to make use of open-source projects to develop a high-performance stream processing system, which analyzes and processes stream data in real time, with less cost. The Hadoop ecosystem is a well-known big data processing platform consisting of numerous open-source subprojects. This paper first defines several requirements for the monitoring system, and selects a few projects from the Hadoop ecosystem that are suited to meet the requirements. Then, the paper proposes system architecture and a detailed module design using Apache Spark, Apache Kafka, and so on. The proposed system can reduce development costs by using open-source projects and by acquiring data from legacy hospital information system. High-performance and fault-tolerance of the system can also be achieved through distributed processing.

Designing Digital Twin Concept Model for High-Speed Synchronization (고속 동기화를 위한 디지털트윈 개념 모델 설계)

  • Chae-Young Lim;Chae-Eun Yeo;Ho-jin Sung
    • The Journal of the Convergence on Culture Technology
    • /
    • v.9 no.6
    • /
    • pp.245-250
    • /
    • 2023
  • Digital twin technology, which copies information from real space into virtual space, is being used in a variety of fields.Interest in digital twins is increasing, especially in advanced manufacturing fields such as Industry 4.0-based smart manufacturing. Operating a digital twin system generates a large amount of data, and the data generated has different characteristics depending on the technology field, so it is necessary to efficiently manage resources and use an optimized digital twin platform technology. Research on digital twin pipelines has continued, mainly in the advanced manufacturing field, but research on high-speed pipelines suitable for data in the plant field is still lacking. Therefore, in this paper, we propose a pipeline design method that is specialized for digital twin data in the plant field that is rapidly poured through Apache Kafka. The proposed model applies plant information on a Revit basis. and collect plant-specific data through Apache Kafka. Equipped with a lightweight CFD engine, it is possible to create a digital twin model that is more suitable for the plant field than existing digital twin technology for the manufacturing field.