Abstract
Disordered streams may cause inaccurate or delayed results in window-based queries. Existing approaches usually leverage buffers to hand]e the streams. However, most of the approaches estimate the buffer size simply based on the maximum network delay in the streams, which tends to over-estimate the buffer size and result in high latency. In this paper, we propose a probabilistic approach to estimate the buffer size adaptively according to the fluctuated network delays. We first assume that intervals of tuple generations follow an exponential distribution and network delays have a normal distribution. Then, we derive an estimation function from the assumptions. The function takes a drop ratio as an input parameter, which denotes a percentage of tuple drops permissible during query execution. By describing the drop ratio in a query specification, users can control the quality of query results such as accuracy or latency according to application requirements. Our experimental results show that the proposed function has better adaptivity than the existing function based on the maximum network delay.
비순서화된 스트림은 윈도우 기반의 질의를 처리할 때 부정확하거나 지연된 결과를 유발할 수 있다. 기존의 방식에서는 일반적으로 버퍼를 이용하여 비순서화된 스트림을 정렬하며, 버퍼의 크기를 추정하기 위해 네트워크 지연의 최대값에 기반한 방식을 이용한다. 그러나 이러한 방식은 버퍼의 크기를 불필요하게 큰 값으로 추정할 수 있으며, 지연된 질의 결과를 발생시킬 수 있다. 본 논문에서는 네트워크 지연의 변화에 따라 적응적으로 버퍼의 크기를 추정하기 위한 확률론적인 접근 방법을 제안한다 제안하는 방법에서는 튜플의 생성이 포아송 분포를 따르며 네트워크 지연은 정규 분포를 따른다고 가정한다. 그리고 이러한 가정을 바탕으로 추정식을 유도한다. 추정식은 튜플의 손실율을 입력인자로 요구하며, 이는 실시간에 튜플의 손실에 있어서 허용 가능한 백분율을 나타낸다. 사용자는 손실율을 질의문에서 정의함으로써, 응용의 요구에 따라 질의 결과의 정확성이나 처리속도 중 원하는 특성에 중점을 둘 수 있다. 본 논문의 실험 결과는 제안한 추정식이 기존의 네트워크 지연의 최대값에 기반한 추정식에 비해 적응성이 우수함을 보인다.