DOI QR코드

DOI QR Code

Lambda Architecture Used Apache Kudu and Impala

Apache Kudu와 Impala를 활용한 Lambda Architecture 설계

  • Received : 2020.07.13
  • Accepted : 2020.08.14
  • Published : 2020.09.30

Abstract

The amount of data has increased significantly due to advances in technology, and various big data processing platforms are emerging, to handle it. Among them, the most widely used platform is Hadoop developed by the Apache Software Foundation, and Hadoop is also used in the IoT field. However, the existing Hadoop-based IoT sensor data collection and analysis environment has a problem of overloading the name node due to HDFS' Small File, which is Hadoop's core project, and it is impossible to update or delete the imported data. This paper uses Apache Kudu and Impala to design Lambda Architecture. The proposed Architecture classifies IoT sensor data into Cold-Data and Hot-Data, stores it in storage according to each personality, and uses Batch-View created through Batch and Real-time View generated through Apache Kudu and Impala to solve problems in the existing Hadoop-based IoT sensor data collection analysis environment and shorten the time users access to the analyzed data.

데이터의 양은 기술의 발전으로 크게 증가하였고 이를 처리하기 위해 다양한 빅데이터 처리 플랫폼이 등장하고 있다. 이 중 가장 널리 사용되고 있는 플랫폼이 Apache 소프트웨어 재단에서 개발한 하둡이며, 하둡은 IoT 분야에도 사용된다. 그러나 기존에 하둡 기반 IoT 센서 데이터 수집 분석 환경은 하둡의 코어 프로젝트인 HDFS의 Small File로 인한 네임노드의 과부하 문제와 임포트된 데이터의 업데이트나 삭제가 불가능하다는 문제가 있다. 본 논문에서는 Apache Kudu와 Impala를 활용해 Lambda Architecture를 설계한다. 제안하는 구조는 IoT 센서 데이터를 Cold-Data와 Hot-Data로 분류해 각 성격에 맞는 스토리지에 저장하고 배치를 통해 생성된 배치뷰와 Apache Kudu와 Impala를 통해 생성된 실시간뷰를 활용해 기존 하둡 기반 IoT 센서 데이터 수집 분석 환경의 문제를 해결하고 사용자가 분석된 데이터에 접근하는 시간을 단축한다.

Keywords

References

  1. S. Bende and R. Shedge, "Dealing with small files problem in hadoop distributed file system," Procedia Computer Science, Vol.79, pp.1001-1012, 2016. https://doi.org/10.1016/j.procs.2016.03.127
  2. M. Kiran, P. Murphy, I. Monga, J. Dugan, and S. Baveja "Lambda architecture for cost- effective batch and speed big data processing," In: 2015 IEEE International Conference on Big Data (Big Data). IEEE, pp.2785-2792, 2015.
  3. T. Lipcon, D. Alves, D. Burkert, J.Cryans, A. Dembo, M. Percy, S. Rus, D. Wang, M. Bertozzi, C. McCabe, and A. Wang "Kudu: Storage for fast analytics on fast data," Cloudera, inc, Vol.28, 2015.
  4. M. Kornacker and J. Erickson, "Cloudera impala: Real time queries in apache hadoop, for real," Ht Tpblog Cloudera Comblog201210cloudera-Impala-Real-Time-Queries- Apache-Hadoop--Real, 2012.