Optimizing Multi-way Join Query Over Data Streams

데이타 스트림에서의 다중 조인 질의 최적화 방법

  • 박홍규 (연세대학교 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • Published : 2008.12.15

Abstract

A data stream which is a massive unbounded sequence of data elements continuously generated at a rapid rate. Many recent research activities for emerging applications often need to deal with the data stream. Such applications can be web click monitoring, sensor data processing, network traffic analysis. telephone records and multi-media data. For this. data processing over a data stream are not performed on the stored data but performed the newly updated data with pre-registered queries, and then return a result immediately or periodically. Recently, many studies are focused on dealing with a data stream more than a stored data set. Especially. there are many researches to optimize continuous queries in order to perform them efficiently. This paper proposes a query optimization algorithm to manage continuous query which has multiple join operators(Multi-way join) over data streams. It is called by an Extended Greedy query optimization based on a greedy algorithm. It defines a join cost by a required operation to compute a join and an operation to process a result and then stores all information for computing join cost and join cost in the statistics catalog. To overcome a weak point of greedy algorithm which has poor performance, the algorithm selects the set of operators with a small lay, instead of operator with the smallest cost. The set is influenced the accuracy and execution time of the algorithm and can be controlled adaptively by two user-defined values. Experiment results illustrate the performance of the EGA algorithm in various stream environments.

데이타 스트림이란 실시간에 연속적으로 빠르게 생성되는 데이타 집합을 의미한다. 이러한 데이타 스트림들은 최근 사회가 발달과 더불어 정보 환경도 급속도로 발전함에 따라 센서 데이타, 교통상황 수집 자료, 웹 클릭 모니터링 등과 같은 많은 응용 분야에서 적용되고 있다. 이러한 형태의 데이트 스트립을 처리하기 위해서는 미리 등록된 질의에 대하여 새롭게 들어오는 스트림 데이타의 결과를 계속적으로 생성하게 된다. 이와 같은 이유로 끊임없이 들어오는 스트링 데이타들을 빠르게 처리하는 것이 이 분야에서 주된 이슈가 되었으며, 이를 위한 방법으로 등록된 질의들을 효율적으로 처리하기 위한 질의 최적화분야에 많은 연구가 있었다. 그러므로 본 논문에서는 기존 연구에서 사용되었던 그리디 방법을 기반으로 비용 모델을 이용하여 최소의 비용을 갖는 질의 계획을 선택하는 확장된 그리디 방법(EGA)을 제시한다. 화장된 그리디 방법은 알고리즘의 정확성이 떨어지는 그리디 알고리즘의 단점을 극복하기 위하여 비용이 가장 작은 연산하나를 선택하는 대신 비용이 자은 연산들의 집합을 선택한다. 이 연산들의 집합의 크기는 알고리즘의 정확성과 수행 시간에 영향을 끼치며, 투 개의 변수에 의해서 적응적으로 조절 수 있다. 실험에서는 다양한 스트림 환경에서 대부분 그리디 알고리즘보다 향상된 성능을 보장하고, 두 변수에 의한 알고리즘의 성능 및 수행 시간 차이를 보여줌으로써 본 알고리즘의 효율성을 검증하였다.

Keywords

References

  1. A. Krishnamurthy, H. boral, and C. Zaniolo. Optimization of nonrecursive queries. In proc. Of the 1986 Intl. Conf. ln Very Large Data Bases, pages 128-137, Aug. 1986
  2. Terry, D. et al., "Continuous Queries over Append-Only Databases," In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, San Diego, California, pp. 321-330, June 1992
  3. B. Babcock, S. Babu, M. Datar, R. Motwani, and J. Widom. Models and Issues in Data Stream Systems Invited paper In Proc. of PODS 2002, June 2002
  4. Lukasz Golab M. Tamer Ozsu. "Processing Sliding Window Multi-Joins in Continuous Queries over Data Streams," Proceedings of the 29th VLDB Conference, Berlin, Germany, 2003
  5. Motwani, R. et al., "Query Processing, Approximation, and Resource Management in a Data Stream Management System," In Proc. the First Biennial Conf. on Innovative Data Systems Research, Asiloma, California, pp. 245-256, Jan. 2003
  6. The STREAM groups STREAM: The Stanford Stream Data Manager (short overview paper) IEEE Data Engineering Bulletin, March 2003
  7. S. Babu, R. Motwani, K. Munagala, I. Nishizawa, J. Widom, Adaptive ordering of pipelined stream filters, In Proceedings of the 2004 ACM SIGMOD International Conference on Management of Data. pp. 407-418 2004
  8. Carney, D., Cetintemel, U., Rasin, A., Zdonik, S., Cherniack, M., Stonebraker, M. "Operator Scheduling in a Data Stream Manager," Proceedings of the 29th VLDB Conference, Berlin, Germany, 2003
  9. U. Srivastava, K. Munagala and J. Widom. "Operator Placement for In-Network Query Processing," In Proc. of PODS 2005, June 2005
  10. Shivnath Babu, Kamesh Munagala, Jennifer Widom, and Rajeev Motwani. Adaptive Caching for Continuous Queries In Proc. Int. Conf. on Data Engineering (ICDE), 2005
  11. S. Madden, M. Shah, J. Hellerstein, and V. Raman. Continuously adaptive continuous queries over streams. In Proc. Of the 2002 ACM SIGMOD Intl. Conf. on Management of Data, pages 49-60, June 2002
  12. R. avnur and J.M. Hellerstein. Eddies: Continuous Adaptive Query Processing. In ACM SIGMOD, Dallas, TX, May 2000
  13. Abadi, D. J. Carney,D., Centintemel, U., Cherniack, M., Convey, C., Lee, S., Stonebraker, M., Tatbul, N., Zdonik, S. Aurora: A New Model and Architecture for Data Stream Management. VLDB Journal, 2003
  14. J. Chen, D. DeWitt, F. Tian, and Y. Wang. NiagaraCQ: A scalable continuous query system for internet databases. In ACM SIGMOD, 2000
  15. J. Kang, J. F. Naughton, and S. Viglas. Evaluating window joins over unbounded streams. In Proc. of the 2003 Intl. Conf. on Data Engineering, Mar. 2003
  16. Michael Cammert, Jurgen Kramer, Bernhard Seeger, Sonny Vaupel A Cost model for adaptive Resource Management in data stream systems IEEE Transactions on Knowledge and Data Engineering Volume 20, Issue 2 February 2008
  17. Stratis Viglas, Jeffrey F. Naughton, and Josef Burger. Maximizing the output rate of multi-way join queries over streaming information sources. Proceedings of the 29th VLDB Conference, Berlin, Germany, 2003
  18. S. Viglas and J. F. Naughton. Rate-based Optimization for Streaming Information Sources, In Proc. ACM SIGMOD Int. Conf. on Management of data, 2002, pp. 37-48