DOI QR코드

DOI QR Code

Efficient Computation of Data Cubes in MapReduce

맵리듀스에서 데이터 큐브의 효율적인 계산 기법

  • Lee, Ki Yong (Division of Computer Science, Sookmyung Women's University) ;
  • Park, Sojeong (Division of Computer Science, Sookmyung Women's University) ;
  • Park, Eunju (Division of Computer Science, Sookmyung Women's University) ;
  • Park, Jinkyung (Division of Computer Science, Sookmyung Women's University) ;
  • Choi, Yeunjung (Division of Computer Science, Sookmyung Women's University)
  • 이기용 (숙명여자대학교 컴퓨터과학부) ;
  • 박소정 (숙명여자대학교 컴퓨터과학부) ;
  • 박은주 (숙명여자대학교 컴퓨터과학부) ;
  • 박진경 (숙명여자대학교 컴퓨터과학부) ;
  • 최연정 (숙명여자대학교 컴퓨터과학부)
  • Published : 2014.04.22

Abstract

맵리듀스(MapReduce)는 대용량 데이터의 병렬 처리에 사용되는 프로그래밍 모델이다. 데이터 큐브(data cube)는 대용량 데이터의 다차원 분석에 널리 사용되는 연산자로서, 주어진 차원 애트리뷰트들의 모든 가능한 조합에 대한 group-by 를 계산한다. 차원 애트리뷰트가 n 개일 때, 데이터 큐브는 총 $2^n$ 개의 group-by 를 계산한다. 본 논문은 맵리듀스 환경에서 데이터 큐브를 효율적으로 계산하는 방법을 제안한다. 제안 방법은 $2^n$ 개의 group-by 를 분할하고 이들을 ${\lceil}n/2{\rceil}$개의 맵리듀스 잡(job)을 통해 단계적으로 계산한다. 제안 방법은 각 맵리듀스 잡에서 맵 함수가 출력하는 중간결과의 크기를 최소화함으로써 총 계산 비용을 크게 줄인다. 실험을 통해 제안 방법은 기존 방법에 비해 데이터 큐브를 더 빠르게 계산함을 보인다.

Keywords

Acknowledgement

Supported by : 한국연구재단