OLAP에서 MAX-of-SUM 질의의 효율적인 처리 기법

Efficient Processing of MAX-of-SUM Queries in OLAP

  • 발행 : 2000.06.30

초록

OLAP 분야에서 지금까지 연구되어온 영역 질의는 주어진 영역에 대한 집단 연산의 결과를 구하는 단순한 형태이다. 그러나 실제 데이타 분석 과정에서는 이러한 단순한 형태의 영역 질의뿐만 아니라, 집단 연산이 포함된 특정 조건을 만족하는 데이타 큐브 내의 영역을 찾는 형태의 확장된 영역 질의에 대한 필요성이 존재한다. 본 논문에서는 이러한 확장된 영역 질의 유형의 일반적인 형태를 정의하고, 이에 대한 대표적인 예인 'MAX-of-SUM 질의'의 효율적인 처리 기법을 제안한다. MAX-of-SUM 질의는 데이타 큐브 상에서 영역합(SUM)이 최대(MAX)가 되는 영역을 찾는 질의를 의미한다. 본 논문에서는 MAX-of-SUM 질의 처리 시 검색의 대상이 되는 영역들에 대한 SUM 연산의 결과값이 취할 수 있는 범위를 미리 예측하는 기법을 제안한다. 즉, 영역에 대한 SUM 값의 범위를 예측함으로써, 이들 중에서 최대값을 찾기 위해 실제로 계산하여야 하는 영역의 개수를 줄여 빠른 질의 처리를 보장한다.

Recent researches about range queries in OLAP are only concerned with applying an aggregation operator over a certain region. However, data analysts in real world need not only the simple range query pattern but also an extended range query pattern that finds ranges which satisfy a special condition specified by using several aggregation operators. In this work, we define the general form of the extended range query and propose an efficient processing method for the 'MAX -of-SUM' query, which is the representative form of the extended range query pattern. The MAX-of-SUM query finds the range which has the maximum range sum value in data cube where the size of the range is given. The proposed query processing method is based on the prediction of the scope of the range sum values. That is, the search space on the query processing can be reduced by using the result of the prediction, and hence, the query response time is also reduced.

키워드

참고문헌

  1. E.F. Codd, S.B. Codd, C.T. Salley. 'Providing olap(on-line analytical processing) to user-analysts: An it mandate'. Technical report, 1993
  2. S. Chaudhuri and U. Dayal. 'An Overview of Data Warehousing and OLAP Technology'. ACM SIGMOD Record, Vol.26, No.1, pp.65-74, 1997 https://doi.org/10.1145/248603.248616
  3. 'The Case for Relational OLAP'. Technical report, MicroStrategy White Paper, 1995
  4. E. Baralis and S. Paraboschi and E. Teniente. 'Materialized view selection in a multidimensional database'. In Proceedings of the 23rd VLDB Conference, pp.156-165, 1997
  5. H. Gupta and V. Harinaarayan and A. Rajaraman and J.D. Ullman. 'Index selection for olap'. In Proceedings of the 13th ICDE, pp.208-219, 1997 https://doi.org/10.1109/ICDE.1997.581755
  6. V. Harinarayan and A. Rajaraman and J.D. Ullman. 'Implementing data cubes efficiently'. In Proceedings of the ACM SIGMOD Conference, pp.205-227, 1996 https://doi.org/10.1145/235968.233333
  7. A. Shukla and P.M. Deshpande and J.F. Naughton and K. Ramasamy. 'Storage estimation for multidimensional aggregates In the presence of hierarchies'. In Proceedings of the 22nd VLDB Conference, pp.522-531, 1996
  8. S. Sarawagi, R. Agarwal, A. Gupta. 'Modeling multidimensional databases'. In Proceedings of the 13th ICDE, pp.232-243, 1997
  9. S. Agarwal, R. Agrawal, P.M. Deshpande, A. Gupta, J.F. Naughton, R. Ramakrishnan, S. Sarawagi. 'On the computation of multidimensional aggregates', In Proceedings of the 22nd VLDB Conference, pp.606-521, 1996
  10. J. Gray, A. Bosworth, A. Layman, H. Pirahesh. 'Data cube: A relational aggregation operator generalizing group-by, cross-tabs and sub-totals'. In Proceedings of the ACM SIGMOD Conference, pp.152-159, 1997 https://doi.org/10.1109/ICDE.1996.492099
  11. Y. Zhao, P.M. Deshpande, J.F. Naughton. 'An array-based algorithm for simultaneous multidimensional aggregates'. In Proceedings of the ACM SIGMOD Conference, pp.159-170, 1997 https://doi.org/10.1145/253262.253288
  12. C.T. Ho, R. Agrawal, N. Megiddo, R. Srikant. 'Range Queries in OLAP Data Cubes'. In Proceedings ACM SIGMOD International Conference on Management of Data, pp.73-88, 1997 https://doi.org/10.1145/253260.253274