An Improved Algorithm for Building Multi-dimensional Histograms with Overlapped Buckets

중첩된 버킷을 사용하는 다차원 히스토그램에 대한 개선된 알고리즘

  • 문진영 (한국과학기술원 전산학과) ;
  • 심규석 (서울대학교 전기컴퓨터공학부)
  • Published : 2003.06.01

Abstract

Histograms have been getting a lot of attention recently. Histograms are commonly utilized in commercial database systems to capture attribute value distributions for query optimization Recently, in the advent of researches on approximate query answering and stream data, the interests in histograms are widely being spread. The simplest approach assumes that the attributes in relational tables are independent by AVI(Attribute Value Independence) assumption. However, this assumption is not generally valid for real-life datasets. To alleviate the problem of approximation on multi-dimensional data with multiple one-dimensional histograms, several techniques such as wavelet, random sampling and multi-dimensional histograms are proposed. Among them, GENHIST is a multi-dimensional histogram that is designed to approximate the data distribution with real attributes. It uses overlapping buckets that allow more efficient approximation on the data distribution. In this paper, we propose a scheme, OPT that can determine the optimal frequencies of overlapped buckets that minimize the SSE(Sum Squared Error). A histogram with overlapping buckets is first generated by GENHIST and OPT can improve the histogram by calculating the optimal frequency for each bucket. Our experimental result confirms that our technique can improve the accuracy of histograms generated by GENHIST significantly.

히스토그램은 최근들어 많은 관심을 끌고 있다. 히스토그램은 주로 상용 데이타베이스 관리 시스템에서 질의 최적화를 위해 속성의 값에 대한 데이타 분포를 추정하는데 사용되었다. 최근에는 근사 질의와 스트림 데이타에 대한 연구 분야에서 히스토그램에 대한 관심이 커지고 있다. 관계형 데이타베이스에서 두 개 이상의 속성에 대한 결합 데이타 분포를 근사시키는 가장 간단한 방법은 각 속성의 데이타 분포가 결합 데이타 분포에 독립적이라고 가정하는 속성 값 독립(Attribute Value Independence: AVI) 가정하 에서 각각의 속성에 대해서 히스토그램을 만드는 것이다 그러나 실제 데이타에서 이 가정은 잘 맞지 않는다. 따라서 이 문제를 해결하기 위해서 웨이블릿, 랜덤 샘플링, 다차원 히스토그램과 같은 기법들이 제안되 었다. 그 중에서 GENHIST는 실수형 속성에 대한 데이타 분포를 근사시키기 위해 고안된 다차원의 히스토그램이다. GENHIST는 데이타 분포를 좀 더 효과적으로 근사시키기 위해서 중첩되는 버킷을 사용한다. 본 논문에서는 SSE(Sum Squared Error)를 최소화시키는 중첩되는 버킷들의 최적 빈도를 결정하는 OPT 알고리즘을 제안한다. 처음에 GENHIST에 의해 중첩되는 버킷으로 구성되는 히스토그램을 만든 후에 OPT 알고리즘에 의해서 각 버킷의 빈도를 다시 계산해서 GENHIST를 개선시킬 수 있다. 실험 결과는 OPT 알고리즘이 GENHIST에 의해 만들어진 히스토그램의 정확도를 크게 개선시킴을 보여준다.

Keywords

References

  1. V. Poosala, Y. E. Ioannidis, P. J. Haas, and E. J. Shekita, 'Improved histograms for selectivity estimation of range predicates', In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Montreal, Canada, pp. 294-305, June 1996 https://doi.org/10.1145/233269.233342
  2. M. Muralikrishan and D. J. DeWitt, 'Equi-depth histograms for estimatng selectivity factors for multidimensional queries,' In Proc. Int'l Con[. on Management of Data, ACM SIGMOD, Chicago, Illinois, pp. 28-36, June 1988 https://doi.org/10.1145/50202.50205
  3. V. Poosala and Y. E. Ioannidis, 'Selectivity estimation without the attribute value independence assumption', In Proc. the 23rd Int'l Conf. on Very Large Data Bases, Athens, Greece, pp. 486-495, August 1997
  4. Y. Matias, J. S. Vitter, and M. Wang, 'Waveletbased histograms for selectivity estimation', In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Seattle, Washington, pp, 448-459, June 1998 https://doi.org/10.1145/276305.276344
  5. J. Lee, D. Kim, and C. Chung, 'Multi-dimensional Selectivity Estimation Using Compressed Histogram Information', In Proc. Ini'l Conf. on Management of Data, ACM SIGMOD, Philadelphia, Pennsylvania, pp. 205-214, June 1999 https://doi.org/10.1145/304182.304200
  6. D. Gunopulos, G. Kollios, V. J. Tsotras, and C. Dorneniconi, 'Approximating multi-dimensional aggregate range queries over real attributes', In Proc. Ini'l Conf. on Management of Data, ACM SIGMOD, Dallas, Texas, pp. 463-474, June 2000 https://doi.org/10.1145/342009.335448
  7. E. Ioannidis and V. Poosala, 'Balancing histogram optimality and practicality for query result size estimation', In Proc. Ini'l Conf. on Management of Data, ACM SIGMOD, San Jose, California, pp, 233-244, May 1995 https://doi.org/10.1145/223784.223841
  8. H. V. Jagadish, N. Koudas, S. Muthukrishnan, V. Poosala, K C. Sevcik, and T. Suel, 'Optimal histograms with quality guarantees', In Proc. the 24th Int'l Conf. on Very Large Data Bases, New York, NY, pp. 275-286, August 1998
  9. S. Muthukrishnan, V. Poosala, and T. Suel, 'On rectangular partitionings in two dimensions: Algorithms, complexity, and applications', In Proc. Ini'l Conf. on Database Theory, Jerusalem, Israel, pp. 236-256, January 1999
  10. S. A. William, H. Press, B. P. Flannery, and W. T. Vettrling, Numerical recipes in C The art of scientific computing, Cambridge University Press, 1993
  11. V. Poosala, Histogram-Based Estimation Techniques in Database Systems, Ph. D. dissertation, University of Wisconsine-Madison, 1997