DOI QR코드

DOI QR Code

Implementation and Performance Analysis of Hadoop MapReduce over Lustre Filesystem

러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석

  • 곽재혁 (한국과학기술정보연구원 슈퍼컴퓨팅기술개발실) ;
  • 김상완 (한국과학기술정보연구원 슈퍼컴퓨팅기술개발실) ;
  • 허태상 (한국과학기술정보연구원 슈퍼컴퓨팅기술개발실) ;
  • 황순욱 (한국과학기술정보연구원 슈퍼컴퓨팅기술개발실)
  • Received : 2015.03.24
  • Accepted : 2015.06.08
  • Published : 2015.08.15

Abstract

Hadoop is becoming widely adopted in scientific and commercial areas as an open-source distributed data processing framework. Recently, for real-time processing and analysis of data, an attempt to apply high-performance computing technologies to Hadoop is being made. In this paper, we have expanded the Hadoop Filesystem library to support Lustre, which is a popular high-performance parallel distributed filesystem, and implemented the Hadoop MapReduce execution environment over the Lustre filesystem. We analysed Hadoop MapReduce over Lustre by using Hadoop standard benchmark tools. We found that Hadoop MapReduce over Lustre execution has a performance 2-13 times better than a typical Hadoop MapReduce execution.

하둡은 오픈소스 기반의 분산 데이터 처리 프레임워크로서 과학 및 상용 분야에서 널리 사용되고 있는데 최근에 대규모 데이터의 실시간 처리 및 분석을 위해 고성능 컴퓨팅(HPC) 기술을 활용하여 하둡을 고성능화하기 위한 연구가 시도되고 있다. 본 논문에서는 하둡의 기본 파일시스템 구현인 하둡 분산파일시스템(HDFS)을 고성능 병렬 분산파일시스템인 러스터 파일시스템으로 대체하여 사용할 수 있도록 하둡 파일시스템 라이브러리를 확장하여 구현하였고 하둡이 제공하는 표준 벤치마크 도구를 사용하여 성능을 분석하였다. 실험 결과 러스터 파일시스템 기반으로 하둡 맵리듀스 응용을 수행하는 경우에 2-13배의 성능 향상이 있음을 확인할 수 있었다.

Keywords

References

  1. S. Conway, C. DeKate, "High-Performance Data Analysis: Big Data Meets HPC," IDC Directions Conference 2013, 2013.
  2. R. Appuswamy, C. Gkantsidis, D. Narayanan, O. Hodson, A. Rowstron, "Scale-up vs Scale-out for Hadoop: time to rethink?," Proc. of the 4th annual Symposium on Cloud Computing, pp. 1-13, 2013.
  3. Apache Hadoop [Online]. Available: http://hadoop.apache.org
  4. T. White, Hadoop: The Definitive Guide, OREILLY, 2010.
  5. Lustre [Online]. Available: http://lustre.opensfs.org
  6. Top500 Supercomputing System [Online]. Available: http://www.top500.org
  7. O. Kulkarni, "Hadoop MapReduce over Lustre," Lustre User Group Conference 2013, 2013.
  8. S. Huang, J. Huang, Y. Liu, J. Dai, "HiBench: A Representative and Comprehensive Hadoop Benchmark Suite," Proc. of ICDE Workshops, pp. 1-2, 2010.