시공간 데이타베이스의 엔트로피 기반 동적 히스토그램

Entropy-based Dynamic Histogram for Spatio-temporal Databases

  • 박현규 (한국과학기술원 전자전산학과 전산학) ;
  • 손진현 (한양대학교 컴퓨터공학과) ;
  • 김명호 (한국과학기술원 전자전산학과 전산학)
  • 발행 : 2003.04.01

초록

질의 최적화에 사용하기 위한 선택도 추정 방법은 히스토그램, 샘플링 그리고 패러미터에 의한 요약 방법 등이 제시되고 있다. 히스토그램을 이용한 선택도 추정은 상용 데이타베이스 시스템에서 가장 보편적으로 사용되는 방법이지만, 이동 객체를 위한 시공간 데이타베이스에서는 데이타 분포가 지속적으로 변화함으로써 기존의 히스토그램 방법을 이용하는 것은 제한이 많게 된다. 특히 미래 질의를 위해서는 데이타 갱신을 반영하는 동적 관리가 가능하며, 정화도를 유지할 수 있는 다른 접근 방법이 필요하다. 따라서 시공간 객체를 위한 선택도 추정 방법은 질의 술어가 요구하는 데이타 분포에 대한 히스토그램이 필요하며, 본 논문에서는 미래의 시공간 영역 질의 술어에 대하여 신속히 히스토그램을 생성할 수 있도록 쌍대성과 한계 분포 방법을 이용한 히스토그램을 제안한다. 쌍대 공간에서 이동 객체에 대한 데이타 시놉시스를 이용하여 구성된 시공간 히스토그램은 이동 궤적의 선형성이 유지하는 시간 동안 정확성을 보장하면서 빠른 시간에 생성이 가능하다. 또한 동적 갱신을 점증적으로 지원함으로써 효율적으로 갱신된 정보를 반영할 수 있고 추정 결과의 정확성을 향상시킬 수 있다.

Various techniques including histograms, sampling and parametric techniques have been proposed to estimate query result sizes for the query optimization. Histogram-based techniques are the most widely used form for the selectivity estimation in relational database systems. However, in the spatio-temporal databases for the moving objects, the continual changes of the data distribution suffer the direct utilization of the state of the art histogram techniques. Specifically for the future queries, we need another methodology that considers the updated information and keeps the accuracy of the result. In this paper we propose a novel approach based upon the duality and the marginal distribution to construct a histogram with very little time since the spatio-temporal histogram requires the data distribution defined by query predicates. We use data synopsis method in the dual space to construct spatio-temporal histograms. Our method is robust to changing data distributions during a certain period of time while the objects keep the linear movements. An additional feature of our approach supports the dynamic update incrementally and maintains the accuracy of the estimated result.

키워드

참고문헌

  1. Kollios, G., Gunopulos, D., Tsotras, V., 'On Indexing Mobile Objects,' Proceedings of PODS, pp. 262-272, 1999 https://doi.org/10.1145/303976.304002
  2. Park, H.K., Son, J.H., Kim, M.H., 'An Efficient Spatioternporal Indexing Method for Moving Objects in Mobile Communication Environments,' The Int. Conf. on MDM, LNCS 2574, pp78-91. 2003
  3. Wolfson, O., Sistla, P., Chamberlain, S., Yesha, Y., 'Updating and Querying Databases that track Mobile Units,' J. of Distributed and Parallel Databases, Vol. 7, pp257-287, 1999 https://doi.org/10.1023/A:1008782710752
  4. Saltcnis, S., Jensen, C, 'Indexing of Moving Objects for Location-Based Services,' Proceedings of ICDE, pp. 463-472, 2002 https://doi.org/10.1109/ICDE.2002.994759
  5. Choi, Y.. Chung, C., 'Selectivity Estimation for Spatia-Temporal Queries to Moving Objects,' Proceedings of SIGMOD Conference, pp. 440-451, 2002 https://doi.org/10.1145/564691.564742
  6. Thaper, N., Guha, S., Indyk, P., Koudas, N., 'Dynamic Multidimensional Histograms,' Proceedings of SIGMOD Conference, pp. 427-439, 2002 https://doi.org/10.1145/564691.564741
  7. Acharya, S., Poosala, V., Ramaswamy, S., 'Selectivity Estimation in Spatial Databases,' Proceedings of SIGMOD, pp. 13-24, 1999 https://doi.org/10.1145/304182.304184
  8. Aboulnaga, A., Naughton, J., 'Accurate Estimation of the Cost of Spatial Selections,' Proceedings of ICDE, pp. 123-134, 2000 https://doi.org/10.1109/ICDE.2000.839399
  9. Poosala, V., et al., 'Improved Histograms for Selectivity Estimation of Range Predicates,' Proceedings of SIGMOD Conference, pp. 294 - 305, 1996 https://doi.org/10.1145/233269.233342
  10. Wang, M., Vitter, J.. Lim, L., Padmanabhan, S., 'Wavelet-Based Cost Estimation for Spatial Queries,' The Int. Conf. on SSTD, LNCS 2121, pp. 175-193, 2001
  11. Chakrabarti, K., et al., 'Approximate Query Processing Using Wavelets,' Proceedings of the VLDB Conference, pp.111-122, 2000
  12. Matias, Y., Vitter, J., Wang, M., 'Dynamic Maintenance of Wavelet-Based Histograms,' Proceedings of 26th VLDB, pp. 101-110, 2000
  13. Muthukrishnan, S., Poosala, V., Suel, T., 'On Rectangular Partitioning in Two Dimensions: Algorithms, Complexity and Applications,' The Int. Conf. on DT, LNCS 1540, pp. 236-256, 1998
  14. Bertimas, D., Tsitsiklis, J.. Introduction to Linear Optimization, Athena Scientific, 1997
  15. Devore, J.. Probability and Statistics for Engineering and the Sciences, 5th Ed. Duxbury, Pacific Grove, CA., 2000
  16. Baeza-Yates, R., Ribeiro-Neto, B., Modem Information Retrieval, Addison-Wesley, 1999