인터넷 질의 처리를 위한 웨이블릿 변환에 기반한 통합 요약정보의 관리

  • 조문증 (LG전자기술원 정보기술연구소) ;
  • 황규영 (한국과학기술원 전자전산학과) ;
  • 김상욱 (강원대학교 컴퓨터정보통신학부) ;
  • 심규석 (한국과학기술원 전자전산학과)
  • 발행 : 2001.12.01

초록

최근, 인터넷 기술의 급격한 발전으로 인하여 다수의 정보원들을 처리 대상으로 하는 인터넷 질 의의 사용이 점차 확대되고 있다. 인터넷 질의 처리를 위해서는 여러 정보원들에 분산된 전체 데이타분포를 함축적으로 표현한 통합 요약정보가 필요하다 본 논문에서는 웨이블릿 변환을 기반으로 한 통합 요약정보의 관리 및 이를 이용한 인터넷 질의 최적처리에 관하여 논의한다. 통합 요약정보의 구성을 위한 가장 단순한 방법은 각 정보원에 분산된 데이타분포들을 합병한 후, 이를 기반으로 퉁합 요약정보를 구성하는 것이다. 그러나 이 방법은 큰 용량의 데이타분포를 전송, 저장. 통합하는 비용이 매우 크므로 실용적이지 야다. 본 논문 에서는 이러한 문점을 극복하기 위하여 웨이블릿 변환을 기반으로 요약정보들을 합병함으로써 통합 요약 정보를 구성하는 새로운 방법과 이를 이용한 인터넷 질의 최적화 방안을 제시한다. 웨이블릿 요약정보는 합 병 조건을 만족하도록 변환되며. 합병 과정이 웨이블릿의 특성으로 인하여 매우 단순하다는 장점을 갖는다 본 논문에서는 제안된 방법으로 구성된 통합 요약정보의 오타 상한선을 정량적으로 유도한다. 제안된 방법에 대한 실험 결과에 의하면, 히스토그램 요약정보의 합병과 웨이블릿 요약정보의 합병을 비교한 선택률 추정 실험은 통합 히스토그램에 비해 퉁합 웨이블릿 요약정보가 1.6 ~ 5.5배 더 정확하다는 결과를 보였다 또한,56개개의 정보원이 참여하는 인터넷 top-N 질의를 처리할 때, 통합 요약정보를 사용하지 않는 방법과 비교하 여 이를 사용하는 경우 약 44배의 성능 개건 효과를 보였다.

As Internet technology evolves, there is growing need of Internet queries involving multiple information sources. Efficient processing of such queries necessitates the integrated summary data that compactly represents the data distribution of the entire database scattered over many information sources. This paper presents an efficient method of managing the integrated summary data based on the wavelet transform and addresses Internet query processing using the integrated summary data. The simplest method for creating the integrated summary data would be to summarize the integrated data sidtribution obtained by merging the data distributions in multiple information sources. However, this method suffers from the high cost of transmitting storing and merging a large amount of data distribution. To overcome the drawbacks, we propose a new wavelet transform based method that creates the integrated summary data by merging multiple summary data and effective method for optimizing Internet queries using it A wavelet transformed summary data is converted to satisfy conditions for merging. Moreover i the merging process is very simpe owing to the properties of the wavelet transform. we formally derive the upper bound of the error of the wavelet transformed intergrated summary data. Compared with the histogram-based integrated summary data the wavelet transformedintegrated summary data provesto be 1.6~5.5 time more accurate when used for selectivity estimation in experiments. In processing Internet top-N queries involving 56 information sources using the integrated summary data reduces the processing cost to 1/44 of the cost of not using it.

키워드

참고문헌

  1. Bernstein, P. et al., The Asilomar Report on Database Research, SIGMOD Record, Vol. 27, No.4, pp. 74-80, 1998 https://doi.org/10.1145/306101.306137
  2. Papakonstantinou, Y., Garcia-Molina, H., and Ullman, J., Medmaker: A Mediation System Based on Declarative Specifications, In Proc. Int'l Conf, on Data Engineeringt (ICDE), pp, 132-141, 1996 https://doi.org/10.1109/ICDE.1996.492097
  3. Gravano,L., Garcia-Molina, H., and Tomasic,A., The Effectiveness of GIOSS for Text Database Discovery Problem, Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp.126-137, 1994 https://doi.org/10.1145/191839.191869
  4. Papakonstantinou, Y, Abiteboul, S. and GarciaMolina, H., Object Fusion in Mediator Systems, In Proc. Int'l Conf. on Very Large Data Bases (VLDB), pp. 413-424, 1996
  5. Florescu, D., Levy, A., and Mendelzon, A., Database Techniques for the World-Wide Web: A Survey, SIGMOD Record, Vol. 27, No.3, pp. 59-74, 1998 https://doi.org/10.1145/290593.290605
  6. Barbara, D. et al., The New Jersey Data Reduction Report, IEEE Data Engineering Bulletin, Vol. 20, No.4, pp, 3-45, 1997
  7. Selinger, P. et al., Access Path Selection in a Relational Database Management System, In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 23-34, 1979 https://doi.org/10.1145/582095.582099
  8. Whang, K., Wiederhold, G., and Sagalowicz, D., SeparabilityAn Approach to Physical Database Design, IEEE Trans. on Computers, Vol. c -33, No.3, pp. 209-222, Mar. 1984 https://doi.org/10.1109/TC.1984.1676418
  9. Vrbsky, S. and Liu, J, APPROXIMATE - A Query Processor that Produces Monotonically Improving Approximate Answers, IEEE Trans. on Knowledge and Data Engineering, Vol. 5, No.6, pp. 1056-1068, Dec. 1993 https://doi.org/10.1109/69.250091
  10. Widorn, J., Research Problems in Data Warehousing, In Proc. Int'l Conf. on Information and Knowledge Management(CICM), pp. 25-30, 1995 https://doi.org/10.1145/221270.221319
  11. Chaudhuri, S. and Gravano, L., Evaluating Top-k Selection Queries,' In Proc. Int'l Conf. on Very Large Data Bases(VLDB), pp. 397-410, 1999
  12. Stollnitz, E., DeHose, T., and Salesin, D., Wavelets for Computer Graphics: Theory and Applications, Morgan Kaufmann, 1996
  13. Poosala, V. et al., Improved Histograms for Selectivity Estimation of Range Predicates, In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 294-305, 1996 https://doi.org/10.1145/233269.233342
  14. Piatetskv-Shapiro, G. and Connell, C, Accurate Estimation of the Number of Tuples Satisfying a Condition, In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 256-276, 1984 https://doi.org/10.1145/602259.602294
  15. Jagadish, H. et al., Optimal Histograms with Quality Guarantees, In Proc. Int'l Conf. on Very Large Data Bases(VLDB), pp. 275-286, 1998
  16. Vetterli, M. and Kovacevic, J., Wavelets and Subband Coding, Prentice Hall, 1995
  17. Matias, Y., Vitter, J., and Wang, M., WaveletRased Histograms for Selectivity Estimation, In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp, 448-459, 1998 https://doi.org/10.1145/276304.276344
  18. Whang, K., Kim,S., and Wiederhold, G., Dynamic Maintenance of Data Distribution for Selectivity Estimation, VLDB Journal, Vol. 3, No.1, pp. 29-51, 1994 https://doi.org/10.1007/BF01231357
  19. Bernstein, P. et al., Query Processing in a System for Distributed Databases(SDD- 1), ACM Trans. on Database Systems, Vol. 6, No.4, pp. 602-625, Dec. 1981 https://doi.org/10.1145/319628.319650
  20. Ozsu, M. and Valduriez, P., Principles of Distributed Database Systems, Prentice Hall. 1999
  21. Carey, M. and Kossmann, D., On Saying Enough Already! in SQL, In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 219-230, 1997 https://doi.org/10.1145/253260.253302