SPEC : 데이타 웨어하우스를 위한 저장 공간 효율적인 큐브

SPEC: Space Efficient Cubes for Data Warehouses

  • 전석주 (서울교육대학교 컴퓨터교육과) ;
  • 이석룡 (한국외국어대하교 산업정보시스템공학부) ;
  • 강흠근 (우송공업대학 컴퓨터정보통신계열) ;
  • 정진완 (한국과학기술원 전산학과)
  • 발행 : 2005.01.01

초록

군집 질의는 사용자에 의해 명시된 질의 영역 내에서 큐브상의 군집 정보를 계산한다. 프리픽스-섬 기법에 기초한 기존의 방법론은 데이타의 누적된 합을 저장하기 위해 프리픽스-섬 큐브(PC)로 불리는 부가적인 큐브를 사용하므로 높은 저장공간 오버헤드를 초래한다. 이러한 저장공간 오버헤드는 기억장치의 추가적인 비용뿐만 아니라 업데이트의 부가적인 증식(propagation)과 더 많은 물리적 장치로의 접근시간을 유발시킨다. 본 논문에서는 대용량 데이타 웨어하우스에서 PC의 저장공간을 획기적으로 감소시킬 수 있는 'SPEC'으로 불리는 새로운 프리픽스-섬 큐브를 제안한다. SPEC은 PC내 셀들간의 종속에 의한 업데이트 증식을 감소시킨다. 이를 위해 대용량 데이타 큐브로부터 조밀한 서브큐브들을 발견하는 효과적인 알고리즘을 개발한다 다양한 차원의 데이타 큐브와 여러 가지 크기의 질의에 대해 폭 넓은 실험을 행하여 본 논문에서 제안한 방법의 효과와 성능을 조사한다. 실험적인 결과는 SPEC이 적절한 질의 성능을 유지하면서도 PC 저장공간을 상당히 감소시킴을 보여준다.

An aggregation query computes aggregate information over a data cube in the query range specified by a user Existing methods based on the prefix-sum approach use an additional cube called the prefix-sum cube(PC), to store the cumulative sums of data, causing a high space overhead. This space overhead not only leads to extra costs for storage devices, but also causes additional propagations of updates and longer access time on physical devices. In this paper, we propose a new prefix-sum cube called 'SPEC' which drastically reduces the space of the PC in a large data warehouse. The SPEC decreases the update propagation caused by the dependency between values in cells of the PC. We develop an effective algorithm which finds dense sub-cubes from a large data cube. We perform an extensive experiment with respect to various dimensions of the data cube and query sizes, and examine the effectiveness and performance ot our proposed method. Experimental results show that the SPEC significantly reduces the space of the PC while maintaining a reasonable query performance.

키워드

참고문헌

  1. W. Liang, H. Wang, and M. E. Orlowska, 'Range Queries in dynamic OLAP data cubes,' Data & Knowledge Engineering, Vol. 34, pp. 21-38, 2000 https://doi.org/10.1016/S0169-023X(00)00007-0
  2. C. Ho, R. Agrawal, N. Megido, and R. Srikant, 'Range queries in OLAP Data Cubes,' ACM SIGMOD Conference, pp. 73-88. 1997
  3. C.-Y. Chan, and Y. E. Ioannidis, 'Hierarchical cubes for range-sum queries.' VLDB Conference, Scotland, pp. 675-686. 1999
  4. Seok-Ju Chun, Chin-Wan Chung, Ju-Hong Lee, and Seok-Lyong Lee, 'Dynamic Update Cube for Range-Sum Queries,' VLDB Conference, Italy, pp. 521-530, 2001
  5. S. Geffner, D. Agrawal, and A. El Abbadi, 'The Dynamic Data Cube, EDBT Conference,' Germany, pp. 237-253, 2000
  6. S. Geffner, D. Agrawal, A. El Abbadi, and T. Smith, 'Relative prefix sums : an efficient approach for quering dynamic OLAP Data Cubes,' ICDE Conference, Australia, pp. 328-335, 1999
  7. M. Riedewald, D. Agrawal, A. E. Abbadi, and R. Pajarola, 'Space-Efficient Data Cubes for Dynamic Environments,' DaWaK conference, pp. 24-33, 2000 https://doi.org/10.1007/3-540-44466-1_3
  8. M. Riedewald, D. Agrawal, and A. E. Abbadi, 'pCube : Update-Efficient Online Aggregation with Progressive Feedback and Error Bounds,' SSDBM conference, pp. 95-108, 2000 https://doi.org/10.1109/SSDM.2000.869781
  9. S. Goil and A. Choudhary, 'BESS : Sparse data storage of multi-dimensional data for OLAP and data mining,' Technical report, Northwestern University, 1997
  10. N. Beckmann, H. Kriegel, R. Schneider, and B. Seeger, 'The R*-tree : an efficient and robust access method for points and rectangles,' ACM SIGMOD Conference, New Jersey, pp. 322-331, 1990
  11. R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan, 'Automatic subspace clustering of high dimensional data for data mining applications,' ACM SIGMOD Conference, Washington, pp. 94-105, 1998 https://doi.org/10.1145/276305.276314
  12. M. Ester, H. P. Kriegel, J. Sander, and X. Xu, 'A density-based algorithm for discovering clusters in large spatial databases with noise,' KDD Conference, Oregon, pp. 226-231, 1996
  13. R. T. Ng and J. Han, 'Efficient and effective clustering methods for spatial data mining,' VLDB Conference, Chile, pp. 144-155, 1994
  14. S. Guha, R. Rastogi, and K. Shim, 'CURE : An efficient clustering algorithm for large databases,' ACM SIGMOD Conference, Washington, pp. 73-84, 1998 https://doi.org/10.1145/276304.276312
  15. T. Zhang, R. Ramakrishnan, and M. Livny, 'BIRCH : An efficient data clustering method for very large databases,' ACM SIGMOD Conference, Canada, pp. 103-114, 1996 https://doi.org/10.1145/233269.233324