DOI QR코드

DOI QR Code

하둡 기반 대규모 작업 배치 및 처리 기술 설계

Design of a Large-scale Task Dispatching & Processing System based on Hadoop

  • 김직수 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 구엔 카오 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 김서영 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 황순욱 (한국과학기술정보연구원 슈퍼컴퓨팅본부)
  • 투고 : 2016.02.04
  • 심사 : 2016.03.24
  • 발행 : 2016.06.15

초록

본 논문에서는 대규모의 작업을 고성능으로 처리하기 위한 Many-Task Computing(MTC) 기술을 기존의 빅데이터 처리 플랫폼인 Hadoop에 적용하기 위한 MOHA(Many-Task Computing on Hadoop) 프레임워크에 대해 기술한다. 세부적으로는 MOHA의 기본 개념과 개발 동기, 분산 작업 큐에 기반한 PoC(Proof-of-Concept) 수행 결과를 제시하고 향후 연구 방향에 대해서 논의하고자 한다. MTC 응용은 각각의 태스크들이 요구하는 I/O 처리량은 상대적으로 많지 않지만, 동시에 대량의 태스크들을 고성능으로 처리해야하고 이들이 파일을 통해서 통신한다는 특징을 가지고 있다. 따라서 기존의 상대적으로 큰 데이터 블록 사이즈에 기반한 Hadoop 응용과는 또 다른 패턴의 데이터 집약형 워크로드라고 할 수 있다. 이러한 MTC 기술과 빅데이터 기술의 융합을 통해 멀티 응용 플랫폼으로 진화하고 있는 Hadoop 생태계에 신규 프레임워크로서 대규모 계산과학 응용을 실행할 수 있는 MOHA를 추가하여 기여할 수 있을 것이다.

This paper presents a MOHA(Many-Task Computing on Hadoop) framework which aims to effectively apply the Many-Task Computing(MTC) technologies originally developed for high-performance processing of many tasks, to the existing Big Data processing platform Hadoop. We present basic concepts, motivation, preliminary results of PoC based on distributed message queue, and future research directions of MOHA. MTC applications may have relatively low I/O requirements per task. However, a very large number of tasks should be efficiently processed with potentially heavy inter-communications based on files. Therefore, MTC applications can show another pattern of data-intensive workloads compared to existing Hadoop applications, typically based on relatively large data block sizes. Through an effective convergence of MTC and Big Data technologies, we can introduce a new MOHA framework which can support the large-scale scientific applications along with the Hadoop ecosystem, which is evolving into a multi-application platform.

키워드

과제정보

연구 과제번호 : 빅데이터 처리 고도화 핵심 기술개발 사업 총괄 및 고성능컴퓨팅 기술을 활용한 성능 가속화 기술 개발

연구 과제 주관 기관 : 정보통신기술진홍센터

참고문헌

  1. D. Thain, T. Tannenbaum, and M. Livny, "Distributed computing in practice: the Condor experience," Concurrency and Computation: Practice and Experience, Vol. 17, No. 2-4, pp. 323-356, 2005. https://doi.org/10.1002/cpe.938
  2. B. Bode, D. M. Halstead, R. Kendall, Z. Lei, and D. Jackson, "The Portable Batch Scheduler and the Maui Scheduler on Linux Clusters," Proc. of the Usenix, Proceedings of the 4th Annual Linux Showcase & Conference, Nov. 2000.
  3. IBM Tivoli Workload Scheduler LoadLeveler, [Online]. Available: http://www03.ibm.com/systems/software/loadleveler/.
  4. W. Gentzsch, "Sun Grid Engine: Towards Creating a Compute Power Grid," Proc. of the 1st IEEE International Symposium on Cluster Computing and the Grid (CCGrid 2001), May 2001.
  5. J. J. Dongarra, S. W. Otto, M. Snir, and D. Walker, "A message passing standard for MPP and workstations," Communications of the ACM, Vol. 39, No. 7, pp. 84-90, 1996. https://doi.org/10.1145/233977.234000
  6. I. Raicu, I. Foster and Y. Zhao, "Many-Task Computing for Grids and Supercomputers," Proc. of the IEEE/ACM Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS'08), 2008.
  7. Workshop on Many-Task Computing on Clouds, Grids, and Supercomputers, [Online]. Available: http://datasys.cs.iit.edu/events/MTAGS15/
  8. Ioan Raicu et al., "Middleware Support for Many-Task Computing," Cluster Computing, Vol. 13, Issue 3, Sep. 2010.
  9. A. Luckow, M. Santcroos, O. Weidner, A. Merzky, P. Mantha, and S. Jha, "P* : A Model of Pilot Abstractions," Proc. of the 8th IEEE International Conference on eScience (eScience 2012), Oct. 2012.
  10. J-S. Kim, S. Kim, S. Kim, S. Rho, S. Kim, and S. Hwang, "An Analysis of Multi-level Scheduling Mechanism for Large-scale Scientific Computing," Journal of KIISE: Computing Practice and Letters, Vol. 20, No. 7, Jul. 2014.
  11. Apache Hadoop: https://hadoop.apache.org/
  12. Vinod Kumar Vavilapalli et. al., "Apache Hadoop YARN: yet another resource negotiator," Proc. of the 4th annual Symposium on Cloud Computing (SOCC'13), Oct. 2013.
  13. Arun C. Murthy et. al., Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2, Addison-Wesley, 2014.
  14. J.-S. Kim, S. Rho, S. Kim, S. Kim, S. Kim, and S. Hwang, "HTCaaS: Leveraging Distributed Supercomputing Infrastructures for Large-Scale Scientific Computing," Proc. of the 6th Workshop on Many-Task Computing on Clouds, Grids, and Supercomputers (MTAGS'13) held with SC13, Nov. 2013.
  15. J. Kreps, N. Narkhede, and J. Rao, "Kafka: A distributed messaging system for log processing," NetDB, 2011.
  16. B. Snyder, D. Bosanac, And R. Davies, ActiveMQ in action, Manning, 2011.