Abstract
In this paper, we present the concept of generalization in constructing windows for subsequence matching and propose a new subsequence matching method. GeneralMatch, based on the generalization. The earlier work of Faloutsos et al.(FRM in short) causes a lot of false alarms due to lack of the point-filtering effect. DualMatch, which has been proposed by the authors, improves performance significantly over FRM by exploiting the point filtering effect, but it has the problem of having a smaller maximum window size (half that FRM) given the minimum query length. GeneralMatch, an improvement of DualMatch, offers advantages of both methods: it can use large windows like FRM and, at the same time, can exploit the point-filtering effect like DualMatch. GeneralMatch divides data sequences into J-sliding windows (generalized sliding windows) and the query sequence into J-disjoint windows (generalized disjoint windows). We formally prove that our GeneralMatch is correct, i.e., it incurs no false dismissal. We also prove that, given the minimum query length, there is a maximum bound of the window size to guarantee correctness of GeneralMatch. We then propose a method of determining the value of J that minimizes the number of page accesses, Experimental results for real stock data show that, for low selectivities ($10^{-6}~10^{-4}$), GeneralMatch improves performance by 114% over DualMatch and by 998% iver FRM on the average; for high selectivities ($10^{-6}~10^{-4}$), by 46% over DualMatch and by 65% over FRM on the average.
본 논문에서는 서브시퀀스 매칭에서 윈도우 구성의 일반화 개념을 제안하고, 이에 기반한 새로운 서브시퀀스 매칭 방법인 GeneralMatch를 제안한다. 기존 연구인 Faloutsos 등의 방법 (간단히 FRM이라 한다)은 점 여과 효과의 결여로 인해 많은 착오해답을 발생시켰다. 본 저자들의 DualMatch는 점 여과 효과를 발휘하여 성능을 크게 향상시켰으나, 주어진 최소 질의 시퀀스 길이에 대해 최대 윈도우 크기가 작은(FRM의 1/2) 문제가 있었다. GeneralMatch는 DualMatch를 더욱 개선한 방법으로서, 두 방법의 장점을 모두 취한다. 즉, FRM과 같이 큰 윈우를 사용할 수 있으며, 동시에 DualMatch와 같이 점 여과 효과를 발휘할 수 있다. GeneralMatch는 데이터 시퀀스를 J-슬라이딩 윈도우(일반화된 슬라이딩 윈도우)로 나누고, 질의 시퀀스를 J-디스조인트 윈도우(일반화된 디스조인트 윈도우)로 나누는 방법을 사용한다. 본 논문에서는 GerneralMatch의 정확성, 즉 GeneralMatch가 착오기각이 발생하지 않음을 증명한다. 또한, 주어진 최소 질의 시퀀스 길이에 대해 GeneralMatch가 바르게 동작하기 위한 최대 윈도우 크기가 있음을 증명한다. 그리고, 페이지 액세스 횟수를 최소로 하는 J 값의 결정 방법을 제안하다. 실제 주식 데이터에 대한 실험 결과, GeneralMatch는 낮은 선택률 범위($10^{-6}~10^{-4}$)에서 DualMatch에 비해 평균 114%, FRM에 비해 998% 성능을 향상시켰으며, 높은 선택률 범위($10^{-6}~10^{-4}$)에서도 DualMatch에 비해 평균 46%, FRM에 비해 평균 65% 성능을 향상시켰다.