DOI QR코드

DOI QR Code

A Study on the Efficiency of Join Operation On Stream Data Using Sliding Windows

스트림 데이터에서 슬라이딩 윈도우를 사용한 조인 연산의 효율에 관한 연구

  • Yang, Young-Hyoo (Dept. of Information Management, Hanyang Women's University)
  • 양영휴 (한양여자대학 정보경영과)
  • Received : 2011.12.23
  • Accepted : 2012.01.18
  • Published : 2012.02.29

Abstract

In this thesis, the problem of computing approximate answers to continuous sliding-window joins over data streams when the available memory may be insufficient to keep the entire join state. One approximation scenario is to provide a maximum subset of the result, with the objective of losing as few result tuples as possible. An alternative scenario is to provide a random sample of the join result, e.g., if the output of the join is being aggregated. It is shown formally that neither approximation can be addressed effectively for a sliding-window join of arbitrary input streams. Previous work has addressed only the maximum-subset problem, and has implicitly used a frequency based model of stream arrival. There exists a sampling problem for this model. More importantly, it is shown that a broad class of applications for which an age-based model of stream arrival is more appropriate, and both approximation scenarios under this new model are addressed. Finally, for the case of multiple joins being executed with an overall memory constraint, an algorithm for memory allocation across the join that optimizes a combined measure of approximation in all scenarios considered is provided.

이 논문은 슬라이딩 윈도우를 사용하는 스트림 데이터에서 모든 조인 연산의 상태를 저장하기에 메모리가 충분하지 않을 경우에, 연속적인 슬라이딩 윈도우 조인 연산의 근사치 답을 구하는 문제에 대한 연구이다. 근사치를 구하는 두 가지 방법으로는 최대 부분집합으로 근사치를 구하는 방법과 조인 결과에서 임의의 결과를 택하는 방법이 있다. 전자는 잃어버리는 튜플의 수를 최소화 하고, 후자는 조인의 결과가 집계로 나타날 때 사용된다. 이 논문에서는 임의의 입력 데이터에 슬라이딩 윈도우가 사용되는 경우 두 가지 방법으로 얻는 근사치 모두 효율적이지 못함을 보여준다. 기존의 최대 부분집합에 의해 근사치를 구하는 모델에서는 빈도-기반 모델을 사용하였는데. 샘플링이 문제가 되었다. 오히려 스트림 도착한 이후의 연령-기반 모델이 많은 응용분야에서 더 적절하게 사용 될 수 있음을 보여주고 있다. 이 논문에서는 최대 부분 집합과 임의의 결과라는 두 가지 근사치 측정법을 분석, 그 효율성을 비교하여 보여 준다. 또한, 메모리가 제한 되어있는 환경에서 다중 조인 연산이 수행 될 경우에, 어떤 경우에도 근사치 측정을 최적화할 수 있도록, 조인 연산 전체에 필요한 메모리를 적절하게 할당하는 알고리즘의 효율성을 분석한다.

Keywords

References

  1. A. Das, J. Gehrke, and M. Riedewald. "Approximate join processing over data streams", In Proc. of the 2003 ACM SIGMOD Intl. Conf. on Management of Data, June 2003.
  2. J. Kang, J. F. Naughton, and S. Viglas. "Evaluating window joins over unbounded streams", In Proc. of the 2003 Intl. Conf. on Data Engineering, March 2003.
  3. B. Babcock, S. Babu, M. Datar, R. Motwani, and J.Widom. "Models and issues in data stream systems", In Proc. of the 2002 ACM Symp. on Principles of Database Systems, pp. 1-16, June 2002.
  4. A. Dobra, M. Garofalakis, J. Gehrke, and R. Rastogi. "Processing complex aggregate queries over data streams". In Proc. of the 2002 ACM SIGMOD Intl. Conf. on Management of Data, pp. 61-72, 2002.
  5. T. Urhan and M.J. Franklin. Xjoin, "A reactively-scheduled pipelined join operato"r. IEEE Data Engineering Bulletin, 23(2):pp.27-33, June 2000.
  6. N. Tatbul, U. Cetintemel, S. Zdonik, M. Cherniack, and M. Stonebraker. "Load-shedding in a data stream manage"r. In Proc. of the 2003 Intl. Conf. on Very Large Data Bases, September 2003.
  7. B. Babcock, M. Datar, and R. Motwani. "Load-shedding for aggregation queries over data streams". In Proc. of the 2004 Intl. Conf. on Data Engineering, 2004.
  8. N. Alon, P. Gibbons, Y. Matias, and M. Szegedy. "Tracking join and self-join sizes in limited storage". In Proc. of the 1999 ACM Symp. on Principles of Database Systems, pp. 10-20, 1999.
  9. B. Babcock, M. Datar, and R. Motwani. "Sampling from a moving window over streaming data". In Proc. of the 2002 Annual ACMSIAM Symp. on Discrete Algorithms, pp. 633-634, 2002.
  10. S. Chaudhuri, R. Motwani, and V.R. Narasayya. "On random sampling over joins". In Proc. of the 1999 ACM SIGMOD Intl. Conf. on Management of Data, pp. 263-274, June 1999.
  11. W. G. Cochran. "Sampling Technique"s. John Wiley & Sons, 1977.
  12. M. Datar, A. Gionis, P. Indyk, and R. Motwani. "Maintaining stream statistics over sliding windows". In Proc. of the 2002 Annual ACMSIAM Symp. on Discrete Algorithms, pp. 635-644, 2002.
  13. A. Gilbert, S. Guha, P. Indyk, Y. Kotidis, S. "Muthukrishnan, and M. Strauss. Fast, small-space algorithms for approximate histogram maintena nce". In Proc. of the 2002 Annual ACM Symp. on Theory of Computing, 2002.
  14. L. Golab and M. Ozsu. "Issues in data stream managemen"t. SIGMOD Record, 32(2):pp.5-14, June 2003. https://doi.org/10.1145/776985.776986
  15. S. Guha, N. Koudas, and K. Shim. Data-streams and histograms. In Proc. of the 2001 Annual ACM Symp. on Theory of Computing, pp. 471-475, 2001.
  16. S. Krishnamurthy et al. "TelegraphCQ: An Architectural Status Repor"t. IEEE Data Engineering Bulletin, 26(1):pp. 11-18, March 2003.
  17. R. Motwani and P. Raghavan. "Randomized Algorithms". Cambridge University Press, 1995.
  18. The STREAM Group. "STREAM: The Stanford Stream Data Manage"r. IEEE Data Engineering Bulletin, 26(1):pp. 19-26, March 2003.
  19. Hong Shen, Yu Zhang, "Improved Approximate Detection of Duplicates for Data Streams Over Sliding Windows", Journal of computer science and technology, Volume 23, Number 6, pp.973-987 ISSN 1666-6046 , 2008. https://doi.org/10.1007/s11390-008-9192-1
  20. YoungHyoo Yang, "An Efficient Query Processing in Stream DBMS using Query Preprocessor", Journal of The Korea Society of Computer and Information, Vol. 13, No. 1, pp. 65-73, 2008.
  21. Dongeon Lee et al., " A Multi-dimensional Query Processing Scheme for Stream Data Using Range Query Indexing", Journal of The Korea Society of Computer and Information, Vol. 14, No. 2, pp. 69-77, 2009.