Load balancing method of overload prediction for guaranteeing the data completeness in data stream

데이터 스트림 환경에서 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법

  • Published : 2009.09.30

Abstract

A DSMS(Data Stream Management System) in ubiquitous environment processes huge data that input from a number of sensor. The existed system is used with a load shedding method that is eliminated with a part of huge data stream when it doesn't process the huge data stream. The Load shedding method has to filter a part of input data. This is because, data completeness or reliability is decreased. In this paper, we proposed the overload prediction load balancing to maintain data completeness when the system has an overload. The proposed method predicts the overload time. and than it is decreased with data loss when achieves the prediction overload time. The performance evaluation shows that the proposed method performs better than the existed method.

유비쿼터스 환경에서 데이터 스트림 관리 시스템(Data Stream Management System: DSMS)은 수많은 센서로부터 생성되는 대량의 데이터 스트림을 처리한다. 기존의 시스템은 처리 능력 이상의 데이터 스트림이 입력되면 데이터의 일부를 제거하여 적정 부하를 유지하는 부하 제한 기법(Load Shedding)을 사용한다. 부하 제한 기법은 입력되는 데이터의 일부를 의도적으로 손실하여 데이터 완전도(Data Completeness)가 감소하기 때문에 처리 결과의 신뢰도 또한 감소한다. 따라서 본 논문에서는 시스템 처리 능력 이상의 데이터 스트림 입력 시 데이터 완전도 보장을 위한 과부하 예측 부하 분산 기법을 제안한다. 제안 기법은 데이터 손실이 예상되는 부하 시점을 미리 예측하고 예측된 부하 시점에 도달 시 부하를 분산하여 데이터 손실을 감소시킨다. 본 논문에서는 기존의 부하 제한 기법과의 비교 실험을 통해 제안 기법의 성능을 평가한다.

Keywords

References

  1. D. Abadi, D. Carney, U. Centintemel, M. Cherniack, C. Convey, S. Lee, M. Stonebraker, N. Tatbul and S. Zdonik, "Aurora: A New Model and Architecture for Data Stream Management," VLDB J., Vol.12, No.2, pp. 120-139, 2003. https://doi.org/10.1007/s00778-003-0095-z
  2. B. Babcock, S. Babu, M. Datar, R. Motwani and J. Widow, "Model and Issues in Data Stream System," Proc. of ACM PODS, pp. 1-16, 2002.
  3. R. Motwani, J. Widom, A. Arasu, B. Babcock, S. Babu, M. Datar, G. Manku, C. Olston, J. Rosenstein and R. Varma, "Query Processing, Resource Management, and Approximation in a Data Stream Management System," In Proc of CIDR, 2003.
  4. Lukasz Golab and M. Tamer Ozsu, "Issues in Data Stream Management," In SIGMOD Record, Vol.32, No.2, June 2003.
  5. J. Gehrke (ed.), "Special Issue on Data Stream Processing," IEEE Data Eng. Bull., 2003.
  6. B. Babcock, M. Datar and R. Motwani, "Load Shedding for Aggregation Queries over Data Streams," Proc. of the 20th ICDE, pp. 1-12, 2004.
  7. N. Tatbul, U. Cetintemel, S. Zdonik, M. Cherniack and M. Stonebraker, "Load Shedding in a Data Stream Manager," Proc. of the 29th VLDB Conf, pp. 309-320, 2003.
  8. J. Chen, D. J. DeWitt, F. Tian and Y. Wang, "NiagaraCQ: A Scalable Continuous Query System for Internet Databases," SIGMOD, 2000.
  9. S. Chandrasekaran and M. Franklin, "PSoup: A System for Streaming Queries over Streaming Data," VLDB J., Vol.12, No.2, pp. 140-156, 2003. https://doi.org/10.1007/s00778-003-0096-y
  10. J. Considine, F. Li, G. Kollios and J. Byers, "Approximate Aggregation Techniques for Sensor Databases," ICDE, 2004.
  11. G. S. Manku and R. Motwani, "Approximate frequency counts over data streams," In Proa of the 28th Conference on Very Large Databases, 2002.
  12. 백성하, 이동욱, 김경배, 정원일 and 배해영, "공간 슬라이딩 윈도우 집계질의의 정확도 향상을 위한 그리드 해쉬 기반의 부하제한 기법," 한국공간정보시스템학회 논문지, 제11권 제1호, 2009. 3.