DOI QR코드

DOI QR Code

Sort-Based Distributed Parallel Data Cube Computation Algorithm using MapReduce

맵리듀스를 이용한 정렬 기반의 데이터 큐브 분산 병렬 계산 알고리즘

  • 이수안 (강원대학교 컴퓨터과학과) ;
  • 김진호 (강원대학교 컴퓨터과학과)
  • Received : 2012.06.11
  • Published : 2012.09.25

Abstract

Recently, many applications perform OLAP(On-Line Analytical Processing) over a very large volume of data. Multidimensional data cube is regarded as a core tool in OLAP analysis. This paper focuses on the method how to efficiently compute data cubes in parallel by using a popular parallel processing tool, MapReduce. We investigate efficient ways to implement PipeSort algorithm, a well-known data cube computation method, on the MapReduce framework. The PipeSort executes several (descendant) cuboids at the same time as a pipeline by scanning one (ancestor) cuboid once, which have the same sorting order. This paper proposed four ways implementing the pipeline of the PipeSort on the MapReduce framework which runs across 20 servers. Our experiments show that PipeMap-NoReduce algorithm outperforms the rest algorithms for high-dimensional data. On the contrary, Post-Pipe stands out above the others for low-dimensional data.

최근 많은 응용 분야에서 대규모 데이터에 대해 온라인 다차원 분석(OLAP)을 사용하고 있다. 다차원 데이터 큐브는 OLAP 분석에서 핵심 도구로 여긴다. 본 논문에서는 맵리듀스 분산 병렬 처리를 이용하여 효율적으로 데이터 큐브를 계산하는 방법을 연구하고자 한다. 이를 위해, 맵리듀스 프레임워크에서 데이터 큐브 계산 방법으로 잘 알려진 PipeSort 알고리즘을 구현하는 효율적인 방법에 대해서 살펴본다. PipeSort는 데이터 큐브의 한 큐보이드에서 동일한 정렬 순서를 갖는 여러 큐보이드를 한 파이프라인으로 한꺼번에 계산하는 효율적인 방식이다. 이 논문에서는 맵리듀스 프레임워크에서 PipeSort의 파이프라인을 구현한 네 가지 방법을 20대의 서버에서 수행하였다. 실험 결과를 보면, 고차원 데이터에 대해서는 PipeMap-NoReduce 알고리즘이 우수한 성능을 보였으며, 저차원 데이터에 대해서는 Post-Pipe 알고리즘이 더 우수함을 보였다.

Keywords

References

  1. Gray, J., et al., "Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals," In Proc. Conf. on Data Engineering, New Orleans, LA, pp. 152-199, Feb. 1996.
  2. Ghemawat, S., Gobioff, H., and Leung, S. T., "The Google File System," In Proc. 19th on Operating Systems Principles, Bolton Landing, NY, pp. 29-43, Dec. 2003.
  3. Hadoop, http://hadoop.apache.org/.
  4. HDFS, http://hadoop.apache.org/hdfs/.
  5. Dean, J. and Ghemawat, S., "MapReduce: Simplified Data Processing on Large Clusters," Communication of the ACM, Vol. 51, No. 1, pp. 107-113, Jan. 2008.
  6. Harinarayan, V., Rajaraman, A., and Ullman, J. D., "Implementing Data Cubes Efficiently," In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Montreal, Canada, pp. 205-216, June, 1996.
  7. Agarwal, S., et al., "On the Computation of Multidimensional Aggregates," In Proc. the 22nd Int'l Conf. on Very Large Data Bases, pp. 506-521, Sept. 1996.
  8. Ross, K A., and Srivastava, D., "Fast Computation of Sparse Datacubes," In Proc. the 23rd Int'l Conf. on Very Large Data Bases, pp. 116-125, Aug. 1997.
  9. Chen, Y., Dehne, F. A. A. Eavis, T., and Rau-Chaplin, A., "PnP: Parallel And External Memory Iceberg Cube Computation," Distributed and Parallel Databases, Vol. 23, No. 2, Apr. 2008.
  10. T. Ng, R., Wagner, A., and Yin, Y., "Iceberg-cube computation with PC clusters," In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Santa Barbara, CA, pp. 25-36, June, 2001.
  11. Jinguo, Y. Jianging, X. Pingjian, Z. and Hu, C. "A Parallel Algorithm for Closed Cube Computation," In Proc. 7th Int'l Conf. on Computer and Information Science, Portland, OR, pp. 95-99, May, 2008.
  12. Yuxiang, W. Aibo, S. and Junzhou, L. "A MapReduceMerge-based Data Cube Construction Method," In Proc. 9th Int'l Conf. on Grid and Cooperative Computing, Nanjing, China, pp. 1-6, Nov. 2010.
  13. Arnab, N. Cong, Y. Philip, B. and Raghu, R. "Distributed Cube Materialization on Holistic Measures," In Proc. 27th Int'l Conf. on Data Engineering, Hannover, Germany, pp. 183-194, Apr. 2011.
  14. Suan, L. Yang-Sae Moon, Jinho. K. "Distributed Parallel Top-Down Computation of Data Cube using MapReduce," In Proc. 3rd Int'l Conf. on Emerging Databases, Inchoen, Korea, pp. 303-306, Aug. 2011.