A Z-Index based MOLAP Cube Storage Scheme

Z-인덱스 기반 MOLAP 큐브 저장 구조

  • 김명 (이화여자대학교 컴퓨터학과) ;
  • 임윤선 (이화여자대학교 컴퓨터학과)
  • Published : 2002.08.01

Abstract

MOLAP is a technology that accelerates multidimensional data analysis by storing data in a multidimensional array and accessing them using their position information. Depending on a mapping scheme of a multidimensional array onto disk, the sliced of MOLAP operations such as slice and dice varies significantly. [1] proposed a MOLAP cube storage scheme that divides a cube into small chunks with equal side length, compresses sparse chunks, and stores the chunks in row-major order of their chunk indexes. This type of cube storage scheme gives a fair chance to all dimensions of the input data. Here, we developed a variant of their cube storage scheme by placing chunks in a different order. Our scheme accelerates slice and dice operations by aligning chunks to physical disk block boundaries and clustering neighboring chunks. Z-indexing is used for chunk clustering. The efficiency of the proposed scheme is evaluated through experiments. We showed that the proposed scheme is efficient for 3~5 dimensional cubes that are frequently used to analyze business data.

MOLAP(multi-dimensional online analytical processing)은 데이타의 다차원적 분석 기술로서, 이는 질의 처리 속도를 높이기 위해 데이타를 큐브(cube)라고 불리는 다차원 배열에 저장하고 배열 인덱스를 사용하여 데이타를 엑세스한다. 큐브는 다양한 방식으로 디스크에 저장될 수 있으며 이 때 사용되는 방식에 따라 MOLAP의 주요 연산인 슬라이스와 다이스 연산 속도가 크게 영향을 받는다. 이러한 연산들을 효율적으로 처리하기 위해 다차원 배열을 작은 크기의 청크로 나누고 이 들 중에서 희박한 청크들을 압축하여 저장하는 기법이 [1]에 제안되어 있다. 이 방식에서는 청크들을 행우선 순서로 디스크에 저장한다. 본 연구에서는 청크들을 밀도와 인접도 기준으로 배치시킴으로써 슬라이스와 다이스 연산 속도를 향상시키는 방법을 제시한다. 청크 밀도를 이용하여 청크들을 디스크 블록 경계에 가능한 한 맞추었고, Z 인덱싱을 사하여 인접한 저밀도 청크들을 군집화 함으로써 디스크 I/O의 속도를 높였다. 제안한 큐브 저장 방식은 일반적 비즈니스 데이타의 분석에 흔히 사용되는 3~5차원의 큐브 저장에 효율적이라는 것을 실험적으로 보였다.

Keywords

References

  1. Yihong Zhao, Prasad Deshpande, Jeffrey Naughton, 'An Array-Based Algorithm for Simultaneous Multidimensional Aggregates,' Proc. of the 1997 ACM-SIGMOD Conference, pp. 159-170, 1997
  2. Won Kim and Myung Kim, 'Performance and Scalability in Knowledge Engineering: Issues and Solutions,' Journal of Object-Oriented Programming, Vol. 12, No.7, pp. 39-43, Nov/Dec. 1999
  3. Pilot Software, 'An Introduction to OLAP: Multidimensional Terminology and Technology,' http://www.pilotsw.com/olap/olap.htm
  4. Erik Thomsen, OLAP Solutions: Building Multidimensional Information Systems, John Wiley & Sons, New York, 1997
  5. OLAP Counsil, http://www.olapreport.com/DatabaseExplosion.htm.
  6. Oracle Corp., 'Sparsity Management System for Multi-dimensional Databases,' United States Patent 5,943,677 , Aug. 24, 1999
  7. Sunita Sarawagi and Michael Stonebraker, 'Efficient Organization of Large Multidimensional Arrays,' Proc. of 1994 Data Engineering Conference, Feb. 1994 https://doi.org/10.1109/ICDE.1994.283048
  8. Kenneth C. Sevcik and Nikos Koudas, 'Filter Trees for Managing Spatial Data over a Range of Size Granularities,' Proc of the 1996 International Conference on Very Large Databases (VLDBJ, pp.16-27, 1996
  9. Myung Kim and Jisook Song, 'Efficient Summary Table Generation for ROLAP,' Ewha Institute of Science and Technology, EIST TR-2001-01, 2001
  10. H. V. jagadish, Laks V. S. Lakshmanan, and Divesh Srivastava, 'Snakes and Sandwiches: Optimal Clustering Strategies for a Data Warehouse,' Proc. of the 1999 ACM-SIGMOD Conference, pp, 37-48, 1999 https://doi.org/10.1145/304182.304186
  11. Prasad M. Deshpande, Karthikeyan Ramasamy, Amit Shukla and Jeffrey F. Naughton, 'Caching multidimensional queries using chunks,' Proc. of the 1999 ACM-SIGMOD Conference, pp. 259-270, 1999 https://doi.org/10.1145/276304.276328
  12. Arbor Software Corporation, 'Method and Apparatus for Storing and Retrieving Multi-dimensional Data in Computer Memory,' United States Patent 5,359,724, Oct. 25, 1994
  13. Hanan Samet, Application of Spatial Data Structures-Computer Graphics, Image Processing, and GIS, Addison Wesley, 1990