DOI QR코드

DOI QR Code

Optimization of Post-Processing for Subsequence Matching in Time-Series Databases

시계열 데이터베이스에서 서브시퀀스 매칭을 위한 후처리 과정의 최적화


Abstract

Subsequence matching, which consists of index searching and post-processing steps, is an operation that finds those subsequences whose changing patterns are similar to that of a given query sequence from a time-series database. This paper discusses optimization of post-processing for subsequence matching. The common problem occurred in post-processing of previous methods is to compare the candidate subsequence with the query sequence for discarding false alarms whenever each candidate subsequence appears during index searching. This makes a sequence containing candidate subsequences to be accessed multiple times from disk, and also have a candidate subsequence to be compared with the query sequence multiple times. These redundancies cause the performance of subsequence matching to degrade seriously. In this paper, we propose a new optimal method for resolving the problem. The proposed method stores ail the candidate subsequences returned by index searching into a binary search tree, and performs post-processing in a batch fashion after finishing the index searching. By this method, we are able to completely eliminate the redundancies mentioned above. For verifying the performance improvement effect of the proposed method, we perform extensive experiments using a real-life stock data set. The results reveal that the proposed method achieves 55 times to 156 times speedup over the previous methods.

서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이며, 인덱스 검색 과정과 후처리 과정으로 구성된다. 본 논문에서는 서브시퀀스 매칭을 위한 후처리 과정의 최적화 방안에 관하여 논의한다. 기존의 서브시퀀스 매칭 기법들의 후처리 과정에서 발생하는 공통적인 문제점은 인덱스 검색 과정에서 각 후보 서브시퀀스가 반환될 때마다 이들이 최종 결과에 포함되는가에 대한 여부를 판별하기 위하여 질의 시퀀스와 비교한다는 것이다. 이러한 처리 방식은 후보 서브시퀀스들을 포함하는 동일한 시퀀스를 디스크로부터 여러 번 액세스되도록 할 뿐만 아니라 동일한 후보 서브시퀀스를 질의 시퀀스와 여러 번 비교하도록 한다. 따라서 이러한 중복 작업은 서브시퀀스 매칭의 처리 성능을 심각하게 저하시키는 중요한 원인이 된다. 본 연구에서는 이러한 문제점을 해결하는 새로운 최적의 기법을 제안한다. 제안된 기법은 인덱스 검색 과정에서 반환되는 모든 후보 서브시퀀스들을 이진 탐색 트리 내에 저장하고, 인덱스 검색 과정이 완료된 후에 일괄 처리 방식으로 후처리 작업을 수행한다. 이와 같은 일괄 처리 방식을 채택함으로써 제안된 기법은 위에서 언급한 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 다양한 실험을 수행한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

Keywords

References

  1. R. Agrawal, C. Faloutsos, and A. Swami, 'Efficient Similarity Search in Sequence Databases,' In Proc. Int'l, Conf. on Foundations of Data Organization and Algorithms, FODO, pp.69-84, Oct., 1993
  2. N. Beckmann et al., 'The $R^{*}$-tree : An Efficient and Robust Access Method for Points and Rectangles,' In Proc. Int'l, Conf. on Management of Data, ACM SIGMOD, pp.322-331, May, 1990 https://doi.org/10.1145/93597.98741
  3. M-S Chen, J. Han, and Philip S. Yu, 'Data Mining : An Overview from a Database Perspective,' IEEE Transactions on Knowledge and Data Engineering, 8(6) : pp.866-883, 1996 https://doi.org/10.1109/69.553155
  4. C. Faloutsos, M. Ranganathan, and Y. Manolopoulos, 'Fast Subsequence Matching in Time-series Databases,' In Proc. Int'l. Conf. on Management of Data, ACM SIGMOD, pp.419-429, May, 1994 https://doi.org/10.1145/191839.191925
  5. J. Gray and A. Reuter, Transaction Processing : Concepts and Techniques, Morgan Kaufman Publishers, 1993
  6. S. W. Kim, S. H. Park, and W. W. Chu, 'An Index-Based Approach for Similarity Search Supporting Time Warping in Large Sequence Databases,' In Proc. IEEE Int'l. Conf. on Data Engineering, IEEE ICDE, pp.607-614, 2001 https://doi.org/10.1109/ICDE.2001.914875
  7. W. K. Loh, S. W. Kim, and K. Y. Whang, 'Index Interpolation : An Approach for Subsequence Matching Supporting Normalization Transform in Time-Series Databases,' In Proc. ACM Int'l. Conf. on Information and Knowledge Management, ACM CIKM, pp.480-487, 2000 https://doi.org/10.1145/354756.354856
  8. Y. S. Moon, K. Y. Whang, and W. K. Loh, 'Duality-Based Subsequence Matching in Time-Series Databases,' In Proc. IEEE Int'l Conf. on Data Engineering, IEEE ICDE, pp.263-272, 2001 https://doi.org/10.1109/ICDE.2001.914837
  9. S. H. Park, S. W. Kim, and W. W. Chu, 'Segment-Based Approach for Subsequence Searches in Sequence Databases,' In Proc. ACM Int'l. Symp. on Applied Computing, ACM SAC, pp.248-252, 2001 https://doi.org/10.1145/372202.372334
  10. D. Rafiei and A. Mendelzon, 'Similarity-Based Queries for Time-Series Data,' In Proc. Int'l, Conf. on Management of Data, ACM SIGMOD, pp.13-24, 1997 https://doi.org/10.1145/253260.253264