A One-Pass Aggregation Algorithm using the Disjoint-Inclusive Partition Multidimensional Files in Multidimensional OLAP

다차원 온라인 분석처리에서 분리-포함 분할 다차원 파일 구조를 사용한 원-패스 집계 알고리즘

  • Lee, Yeong-Gu (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Mun, Yang-Se (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Hwang, Gyu-Yeong (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology)
  • 이영구 (한국과학기술원 전자전산학과) ;
  • 문양세 (한국과학기술원 전자전산학과) ;
  • 황규영 (한국과학기술원 전자전산학과)
  • Published : 2001.06.01

Abstract

다차원 온라인 분석처리(Multidimensional On-Line Analytical Processing: MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열 구조를 기반으로 한 파일 구조에 대해서 연구되어 왔다. 이러한 파일 구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 집계 알고리즘을 제안한다. 먼저, 새로운 분리-포함 분할이라는 개념을 사용한 집계 연산 처리 모델을 제안한다. 집계 연산 처리에서 분리-포함 분할 개념을 사용하면 페이지들의 액세스 순서를 미리 알아 낼 수 있다는 특징을 가진다. 그리고, 제안한 모델에 기반하여 원-패스 버퍼 크기(one-pass buffer size)를 사용하여 집계 연산을 처리하는 원-패스 집계 알고리즘을 제안한다. 원-패스 버퍼 크기란 페이지 당 한 번의 디스크 액세스를 보장하기 위해 필요한 최소 버퍼 크기이다. 또한, 제안한 집계 연산 처리 모델 하에서 제안된 알고리즘이 최소의 원-패스 버퍼 크기를 갖는다는 것을 증명한다. 마지막으로, 많은 실험을 통하여 이론적으로 구한 원-패스 버퍼 크기가 실제 환경에서 정확히 동작함을 실험적으로 확인하였다. 리 알고리즘은 미리 알려진 페이지 액세스 순서를 이용하는 버퍼 교체 정책을 사용함으로써 최적의 원-패스 버퍼 크기를 달성한다. 제안하는 알고리즘을 여 러 집계 질의가 동시에 요청되는 다사용자 환경에서 특히 유용하다. 이는 이 알고리즘이 정규화 된 디스크 액세스 횟수를 1.0으로 유지하기 위해 반드시 필요한 크기의 버퍼만을 사용하기 때문이다.

Keywords

References

  1. Chaudhuri, S. and Dayal, U., 'An Overview of Data Warehousing and OLAP Technology,' ACM SIGMOD Record, Vol. 26, No. 1, pp. 65-74, Mar. 1997 Chaudhuri, Surajit;Dayal, Umeshwar https://doi.org/10.1145/248603.248616
  2. Agarwal, S., Agarwal, R., Deshpande, P.M. et al., 'On the Computation of Multidimensional Aggregations,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 506-521, Mumbai (Bombay), India, Sept. 1996
  3. Kotidis, Y. and Roussopoulos, N., 'An Alternative Storage Organization for ROLAP Aggregate Views Based on Cubetrees,' In Proc. Int'l Conf. on Management of Data, pp. 249-258, ACM SIGMOD, Seattle, Washington, June 1998 https://doi.org/10.1145/276304.276327
  4. Li, J., Rotem, D., and Srivastava, J., 'Aggregation Algorithms for Very Large Compressed Data Warehouses,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 651-662, Edinburgh, Scotland, UK, Sept. 1999
  5. Zhao, Y., Deshpande, P.M., and Naughton, J.F., 'An Array-Based Algorithm for Simultaneous Multidimensional Aggregates,' In Proc. Int'l Conf. on Management of Data, pp. 159-170, ACM SIGMOD, Tucson, Arizona, June 1997 https://doi.org/10.1145/253260.253288
  6. Graefe, G., 'Query Evaluation Techniques for Large Databases,' ACM Computing Surveys, Vol. 25, No. 2, pp. 73-170, June 1993 https://doi.org/10.1145/152610.152611
  7. Whang, K. and Krishnamurthy, R., Multilevel Grid Files, IBM Research Report RC 11516(51719), 1985
  8. Whang, K. et al., 'Dynamic Maintenance of Data Distribution for Selectivity Estimation,' The VLDB Journal, Vol. 3, No. 1, pp. 29-51, Jan. 1994 https://doi.org/10.1007/BF01231357
  9. Effelsberg, W. and Haerder, T., 'Principles of Database Buffer Management,' ACM Trans. on Database Systems, Vol. 9, No. 4, pp. 560-595, Dec. 1984 https://doi.org/10.1145/1994.2022
  10. Coffman, E.G. Jr. and Denning, P.J., Operating Systems Theory, Prentice-Hall, 1973
  11. O'Neil, E.J., O'Neil, P.E., and Weikum, G., 'The LRU-K Page Replacement Algoritm for Database Disk Buffering,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Washington, DC, May 1993 https://doi.org/10.1145/170035.170081
  12. Korth, H.F. and Silberschatz, A., Database System Concepts, McGraw-Hill, New York, Second Ed., 1991
  13. Gaede, V. and Gunther, O., 'Multidimensional Access Methods,' ACM Computing Surveys, Vol. 30, No. 2, pp. 170-231, June 1998 https://doi.org/10.1145/280277.280279