다중 윈도우 조인을 위한 튜플의 도착 순서에 기반한 효과적인 부하 감소 기법

Effective Load Shedding for Multi-Way windowed Joins Based on the Arrival Order of Tuples on Data Streams

  • 권태형 (한국과학기술원 전산학과) ;
  • 이기용 (한국과학기술원 전산학과) ;
  • 손진현 (한양대학교 전자컴퓨터공학부) ;
  • 김명호 (한국과학기술원 전산학과)
  • 발행 : 2010.02.15

초록

최근 다중 데이터 스트림에 대한 연속 질의 처리에 관한 연구가 활발하게 진행되고 있다. 데이터 스트림에서 튜플들의 도착 속도가 폭증하여 시스템의 메모리 용량을 초과하는 경우, 일부 튜플을 버림으로써 시스템이 과부하 상태가 되지 않도록 하는 기법을 부하 감소(load shedding)라 한다. 본 논문에서는 다중 데이터 스트림에 대한 다중 윈도우 조인을 위한 효과적인 부하 감소 기법을 제안한다. 기존의 부하 감소 기법들은 버릴 튜플을 선택하기 위해 튜플들의 조인 키 값을 이용하여 각 튜플이 생성할 조인 결자 개수(생산성)를 예측하고, 생산성이 최소가 되는 튜플을 버린다. 그러나 이러한 방법들은 조인 키 값이 다시 나타나지 않거나, 조인 키 값의 분포가 일정하게 유지되지 않는 경우 튜플들의 생산성을 올바르게 예측하기 어렵다. 본 논문은 이러한 경우를 위해 튜플들의 조인 키 값 대신, 튜플의 데이터 스트림에 대한 도착 순서를 사용하여 튜플들의 생산성을 예측하는 방법을 사용한다. 제안하는 방법은 조인 키 값으로 튜플들의 생산성을 예측하가 어려운 상황에서 튜플의 도착 순서를 통해 각 튜플의 생산성을 효과적으로 예측할 수 있도록 해준다. 다양한 실험과 분석을 통해 제안하는 새로운 부하 감소 기법이 기존 기법에 비해 더욱 효과적이고 효율적으로 부하를 감소시킬 수 있음을 보인다.

Recently, there has been a growing interest in the processing of continuous queries over multiple data streams. When the arrival rates of tuples exceed the memory capacity of the system, a load shedding technique is used to avoid the system becoming overloaded by dropping some subset of input tuples. In this paper, we propose an effective load shedding algorithm for multi-way windowed joins over multiple data streams. Most previous load shedding algorithms estimate the productivity of each tuple, i.e., the number of join output tuples produced by the tuple, based on its "join attribute value" and drop tuples with the lowest productivity. However, the productivity of a tuple cannot be accurately estimated from its join attribute value when the join attribute values are unique and do not repeat, or the distribution of the join attribute values changes over time. For these cases, we estimate the productivity of a tuple based on its "arrival order" on data streams, rather than its join attribute value. The proposed method can effectively estimate the productivity of a tuple even when the productivity of a tuple cannot be accurately estimated from its join attribute value. Through extensive experiments and analysis, we show that our proposed method outperforms the previous methods in terms of effectiveness and efficiency.

키워드

참고문헌

  1. A. Das, J. Gehrke and M. Riedewald. Approximate Join Processing over Data Streams. Proceedings of the 2003 ACM SIGMOD international conference on Management of data, San Diego, California, USA, pp.40-51, 2003.
  2. C. Cranor, T. Johnson, O. Spataschek and V. Shkapenyuk. Gigascope: A Stream Database for Network Applications, Proceedings of the ACM SIGMOD International Conference On Management of Data, San Diego, California, USA, pp.647-651, 2003.
  3. J. Gehrke and S. Madden. Query Processing in Sensor Networks. IEEE Pervasive computing, vol.3, no.1, pp.46-55, 2004. https://doi.org/10.1109/MPRV.2004.1269131
  4. L. Golab and M. T. Ozsu. Processing Sliding Window Multi-Joins in Continuous Queries over Data Streams. Proceedings of the 29th International Conference on Very Large Data Bases, Berlin, Germany, vol.29, pp.500-511, 2003.
  5. M. A. Hammad, W. G. Aref and A. K. Elmagarmid. Stream Window Join: Tracking Moving Objects in Sensor-Network Databases. Proceedings of 15th International Conference on Scientific and Statistical Database Management, Cambridge, Massachusetts, USA, pp.75-84, 2003.
  6. A. Dobra, M. Garofalakis, J. Gehrke, and R. Rastogi. Processing complex aggregate queries over data streams. Proceedings of the 2002 ACM SIGMOD international conference on Management of data, Madison, Wisconsin, USA, pp.61-72, 2002.
  7. B. Gredik, K. Wu, P. S. Yu and L. Liu. A Load Shedding Framework and Optimizations for Mway Windowed Stream Joins. IEEE 23rd International Conference on Data Engineering, pp. 536-545, 2007.
  8. Y. Bai, H. Wang and C. Zaniolo. Load Shedding in Classifying Multi-Source Streaming Data: A Bayes Risk Approach. Proceedings of the Seventh SIAM International Conference on Data Mining, Minneapolis, Minnesota, USA, pp.425-430, 2007.
  9. Y. Law and C. Zaniolo. Load Shedding for Window Joins on Multiple Data Streams. IEEE 23rd International Conference on Data Engineering, pp.674- 683, 2007.
  10. U. Srivastava and J. Widom. Memory-Limited Execution of Windowed Stream Joins. Proceedings of the 30th VLDB Conference, Toronto, Canada, pp.324-335, 2004.
  11. S. D. Viglas, J. F. Naughton and J. Burger. Maximizing the Output Rate of Multi-Way Join Queries over Streaming Information Sources. Proceedings of the 29th International Conference on Very Large Data Bases, Berlin, Germany, vol.29, pp.285-296, 2003.
  12. T. Kwon, H. Kim, M. Kim and J. Son, An Advanced Join Algorithm for Multiple Data Streams Using a Bit-vector Hash Table. IEICE Transaction on Information and Systems, vol.E92-D, no.7, pp.1429-1434, 2009. https://doi.org/10.1587/transinf.E92.D.1429
  13. H. Yu, EP. Lim and J. Zhang. On In-network Synopsis Join Processing for Sensor Networks. Proceedings of the 7th International Conference on Mobile Data Management, Nara, Japan, pp.32- 39, 2006.