Abstract
In distributed spatial data stream processing, processed tuples of downstream nodes are replicated to the upstream node in order to increase the utilization of distributed nodes and to recover the whole system for the case of system failure. However, while the data input rate increases and multiple downstream nodes share the operation result of the upstream node, the data which stores to output queues as a backup can be lost since the deletion operation delay may be occurred by the delay of the tuple processing of upstream node. In this paper, the adaptive upstream backup scheme based on operation throughput in distributed spatial data stream system is proposed. This method can cut down the average load rate of nodes by efficient spatial operation migration as it processes spatial temporal data stream, and it can minimize the data loss by fluid change of backup mode. The experiments show the proposed approach can prevent data loss and can decrease, on average, 20% of CPU utilization by node monitoring.
분산 공간 데이터 스트림 처리에서는 분산 노드의 활용도를 높이고 고장이 발생한 경우 신속하게 시스템을 복구하기 위해 하위 노드에서 처리된 튜플에 대해 상위 노드로 데이터를 백업한다. 그러나 데이터의 유입량이 증가하고 노드의 연산 결과를 다수의 하위 노드들과 공유할 때 튜플 처리가 지연되면 상위 노드의 삭제 지연으로 인해 백업 데이터의 손실을 야기할 수 있다. 본 논문에서는 노드들의 데이터 유입량과 하위 노드의 연산 처리율을 분석하고 적응적 업스트림 백업 방법을 적용하여 노드의 평균 부하율을 감소시키고, 노드 연산 결과의 공유에 따른 데이터 손실을 최소화하는 방법을 제안한다. 그리고 실험에서는 제안 기법을 통해 데이터 손실을 방지하고, 노드 모니터링에 소요되는 CPU 사용률을 평균 20% 감소시키는 결과를 나타낸다.