DOI QR코드

DOI QR Code

Squall: A Real-time Big Data Processing Framework based on TMO Model for Real-time Events and Micro-batch Processing

Squall: 실시간 이벤트와 마이크로-배치의 동시 처리 지원을 위한 TMO 모델 기반의 실시간 빅데이터 처리 프레임워크

  • 손재기 (한국외국어대학교 컴퓨터및정보통신공학과) ;
  • 김정국 (한국외국어대학교 컴퓨터.전자시스템공학과)
  • Received : 2016.09.13
  • Accepted : 2016.11.07
  • Published : 2017.01.15

Abstract

Recently, the importance of velocity, one of the characteristics of big data (5V: Volume, Variety, Velocity, Veracity, and Value), has been emphasized in the data processing, which has led to several studies on the real-time stream processing, a technology for quick and accurate processing and analyses of big data. In this paper, we propose a Squall framework using Time-triggered Message-triggered Object (TMO) technology, a model that is widely used for processing real-time big data. Moreover, we provide a description of Squall framework and its operations under a single node. TMO is an object model that supports the non-regular real-time processing method for certain conditions as well as regular periodic processing for certain amount of time. A Squall framework can support the real-time event stream of big data and micro-batch processing with outstanding performances, as compared to Apache storm and Spark Streaming. However, additional development for processing real-time stream under multiple nodes that is common under most frameworks is needed. In conclusion, the advantages of a TMO model can overcome the drawbacks of Apache storm or Spark Streaming in the processing of real-time big data. The TMO model has potential as a useful model in real-time big data processing.

최근 다양하고 방대한 양의 데이터를 처리하기 위해 빅데이터의 특성인 5V(Volume, Variety, Velocity, Veracity, Value) 중에서도 속도(Velocity)의 중요성이 강조되면서 대량의 데이터를 빠르고 정확하게 처리하는 기술인 실시간 스트림 처리(Real-time Stream processing)를 위해 많은 연구가 진행되고 있다. 본 논문에서는 실시간 빅데이터 처리를 위해 대표적인 실시간 객체 모델인 TMO(Time-triggered Message-triggered Object) 개념을 도입한 Squall 프레임워크를 제시하고, 단일 노드에서 동작하는 Squall 프레임워크와 그 동작들에 대해 기술한다. TMO는 작업을 수행할 때, 특정 조건에 대해 실시간으로 처리하는 비주기적인 처리방법과 일정 시간 간격동안 주기적인 처리를 지원하는 객체 모델이다. 따라서 Squall 프레임워크는 실시간 빅데이터의 실시간 이벤트 스트림 및 마이크로-배치 처리를 동시에 지원하고, 기존 아파치 스톰과 스파크 스트리밍 대비 상대적으로 우수한 성능을 제공한다. 하지만 Squall은 대부분의 프레임워크에서 제공되는 다중 노드에서의 실시간 분산처리를 위한 추가적인 개발이 필요하다. 결론적으로, TMO 모델의 장점은 실시간 빅데이터 처리시 기존 아파치의 스톰이나 스파크 스트리밍의 단점들을 극복할 수 있다. 이러한 TMO 모델은 실시간 빅데이터 처리에 있어 유용한 모델로서의 가능성을 가지고 있다.

Keywords

References

  1. Apache Hadoop. Avaliable: http://hadoop.apache.org
  2. J.-H. Um, T.-H. Kim, S. Lee, C.-H. Jung, and H. Jung, "Next-generation distributed systems in real time big data trends," Week Technology Trends of Institute for Information & communications Technology Promotion, Vol. 1661, Sep. 2014. (in Korean)
  3. Apache Storm. Avaliable: http://storm.apache.org
  4. Apache Spark. Spark Overview [Online]. Avaliable: https://spark.apache.org/docs/latest/
  5. J. Dean and S. Ghemawat, "MapReduce: Simplified Data Processing on Large Clusters," Communications of ACM, Vol. 51, No. 1, pp. 107-113, Jan. 2008. https://doi.org/10.1145/1327452.1327492
  6. Apache Samza. Avaliable: http://samza.apache.org
  7. L. Neumeyer, B. Robbins, A. Nair, and A. Kesari, S4: Distributed Stream Computing Platform. Proc. of The 10th IEEE International Conference on Data Mining, pp. 170-177, 2010.
  8. Storm: Distributed and fault-tolerant realtime computation. Avaliable: http://storm.apache.org.
  9. Apache Storm-Trident. Apache Storm-Trident API Overview [Online]. Avaliable: http://storm.apache.org/ documentation/Trident-API-Overview.html.
  10. Apache Kafka. Avaliable: http://kafka.apache.org
  11. X. Liao, Z. Gao, W. Ji, and Y. Wang, "An Enforcement of Real Time Scheduling in Spark Streaming," Proc. of International Green Computing Conference and Sustainable Computing Conference, pp. 1-6, 2015.
  12. Project Tungsten. Deep Dive into Project Tungsten: Bringing Spark Closer to Bare Metal [Online]. Avaliable: https://spark-summit.org/2015/events/deep-dive-into-pr oject-tungsten-bringing-spark-closer-to-bare-metal
  13. K. H. Kim and H. Kopetz, "A Real-Time Object Model RTO,k and an Experimental Investigation of Its Potentials," Proc. of 18th IEEE Computer Software and Applications Conference, pp. 392-402, Nov. 1994.
  14. J. Lee and J.-G. Kim, "Design and Implementation of TMO.p Model and its Scheduler for Partition Computing," KIISE Transactions on Computing Practices, Vol. 18, No. 11, pp. 733-741, Nov. 2012. (in Korean)
  15. Go Language. Avaliable: http://golang.org
  16. J. Son, J.-W. Kang, J. An, H.-J. Ahn, H.-J. Chun, and J.-G. Kim, "Parallel Job Processing Technique for Real-time Big-Data Processing Framework," Proc. of th Research in Adaptive and Convergent Systems 2016, Oct. 2016. (accepted)