An Index Interpolation-based Subsequence Matching Algorithm supporting Normalization Transform in Time-Series Databases

시계열 데이터베이스에서 인덱스 보간법을 기반으로 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘

  • No, Ung-Gi (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Kim, Sang-Uk ;
  • Hwang, Gyu-Yeong (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology)
  • 노웅기 (한국과학기술원 전자전산학과) ;
  • 김상욱 (강원대학교 정보통신공학부) ;
  • 황규영 (한국과학기술원 전자전산학과)
  • Published : 2001.06.01

Abstract

본 논문에서는 시계열 데이터베이스에서 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘을 제안한다. 정규화 변환을 시계열 데이터 간의 절대적인 유클리드 거리에 관계 없이, 구성하는 값들의 상대적인 변화 추이가 유사한 패턴을 갖는 시계열 데이터를 검색하는 데에 유용하다. 기존의 서브시퀀스 매칭 알고리즘을 확장 없이 정규화 변환 서브시퀀스 매칭에 단순히 응용할 경우, 질의 결과로 반환되어야 할 서부시퀀스를 모두 찾아내지 못하는 착오 기각이 발생한다. 또한, 정규화 변환을 지원하는 기존의 전체 매칭 알고리즘의 경우, 모든 가능한 질의 시퀀스 길이 각각에 대하여 하나씩의 인덱스를 생성하여야 하므로, 저장 공간 및 데이터 시퀀스 삽입/삭제의 부담이 매우 심각하다. 본 논문에서는 인덱스 보간법을 이용하여 문제를 해결한다. 인덱스 보간법은 인덱스가 요구되는 모든 경우 중에서 적당한 간격의 일부에 대해서만 생성된 인덱스를 이용하며, 인덱스가 필요한 모든 경우에 대한 탐색을 수행하는 기법이다. 제안된 알고리즘은 몇 개의 질의 시퀀스 길이에 대해서만 각각 인덱스를 생성한 후, 이를 이용하여 모든 가능한 길이의 질의 시퀀스에 대해서 탐색을 수행한다. 이때, 착오 기각이 발생하지 않음을 증명한다. 제안된 알고리즘은 질의 시에 주어진 질의 시퀀스의 길이에 따라 생성되어 있는 인덱스 중에서 가장 적절한 것을 선택하여 탐색을 수행한다. 이때, 생성되어 있는 인덱스의 개수가 많을수록 탐색 성능이 향상된다. 필요에 따라 인덱스의 개수를 변화함으로써 탐색 성능과 저장 공간 간의 비율을 유연하게 조정할 수 있다. 질의 시퀀스의 길이 256 ~ 512중 다섯 개의 길이에 대해 인덱스를 생성하여 실험한 결과, 탐색 결과 선택률이 $10^{-2}$일 때 제안된 알고리즘의 탐색 성능이 순차 검색에 비하여 평균 2.40배, 선택률이 $10^{-5}$일 때 평균 14.6배 개선되었다. 제안된 알고리즘의 탐색 성능은 탐색 결과 선택률이 작아질수록 더욱 향상되므로, 실제 데이터베이스 응용에서의 효용성이 높다고 판단된다.

Keywords

References

  1. Agrawal, R. et al., 'Efficient Similarity Search in Sequence Databases,' In Proc. Int'l Conf. on Foundations of Data Organization and Algorithms, pp. 69-84, Chicago, Illinois, Oct. 1993 https://doi.org/10.1007/3-540-57301-1_5
  2. Agrawal, R. et al., 'Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 490-501, Zurich, Switzerland, Sept. 1995
  3. Agrawal, R. et al., 'Querying Shapes of Histories,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 502-514, Zurich, Switzerland, Sept. 1995
  4. Beckmann, N. et al., 'The R-Tree: An Efficient and Robust Access Method for Points and Rectangles,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 322-331, Atlantic City, NJ, June 1990 https://doi.org/10.1145/93597.98741
  5. Berchtold, S. et al., 'The X-tree: An Index Structure for High-Dimensional Data,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 28-39, Mumbai, India, Sept. 1996
  6. Chatfield, C., The Analysis of Time Series: An Introduction, 3rd Ed., Chapman and Hall, 1984
  7. Chan, K.-P. and Fu, W.-C., 'Efficient Time Series Matching by Wavelets,' In Proc. Int'l Conf. on Data Engineering, IEEE, pp. 126-133, Sydney, Australia, Mar. 1999 https://doi.org/10.1109/ICDE.1999.754915
  8. Chu, K. K. W. and Wong, M. H., 'Fast Time-Series Searching with Scaling and Shifting,' In Proc. ACM SIGACT-SIGMODSIGART Symposium on Principles of Database Systems, pp. 237-248, Philadelphia, Pennsylvania, May 1999 https://doi.org/10.1145/303976.304000
  9. Faloutsos, C. et al., 'Fast Subsequence Matching in Time-Series Databases,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 419-429, Minneapolis, Minnesota, June 1994 https://doi.org/10.1145/191839.191925
  10. Goldin, D. Q. and Kanellakis, P. C., 'On Similarity Queries for Time-Series Data: Constraint Specification and Implementation,' In Proc. Int'l Conf. on Principles and Practices of Constraint Programming, pp. 137-153, Cassis, France, Sept. 1995 https://doi.org/10.1007/3-540-60299-2_9
  11. Gonzalez, R. C. and Woods, R. E., Digital Image Processing, Addison-Wesley, 1993
  12. Guttman, A. 'R-trees: A Dynamic Index Sturcture for Spatial Searching,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 47-57, Boston, Massachusetts, June 1984 https://doi.org/10.1145/602259.602266
  13. Hart, J. M., Win32 System Programming, Addison-Wesley Developers Press, 1997
  14. Kendall, M., Time-Series, 2nd Ed., Charles Griffin and Company, 1976
  15. Kreyszig, E., Advanced Engineering Mathematics, 7th Ed., John Wiley & Sons, 1993
  16. Moon, Y.-S. et al., 'Efficient Time-Series Sub-sequence Matching Using Duality in Constructing Windows,' Information Systems, accepted to appear https://doi.org/10.1016/S0306-4379(01)00021-7
  17. Oppenheim, A. V. and Schafer, R. W., Digital Signal Processing, Prentice-Hall, 1975
  18. Press, W. H. et al., Numerical Recipes in C - The Art of Scientific Computing, 2nd Ed., Cambridge University Press, 1992
  19. Rafiei, D. and Mendelzon, A., 'Similarity-Based Queries for Time Series Data,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 13-25, Tucson, Arizona, June 1997 https://doi.org/10.1145/253260.253264
  20. Sellis, T. et al., 'The $R^{+}$-Tree: A Dynamic Index for Multidimensional Objects,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 507-518, Brighton, England, Sept. 1987
  21. Weber, R. et al., 'A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces,' In Proc. Int'l Conf. on Very Large Data Bases, pp. 194-205, New York, New York, Aug. 1998
  22. Yi, B.-K. et al., 'Efficient Retrieval of Similar Time Sequence Under Time Warping,' In Proc. Int'l Conf. Data Engineering, IEEE, pp. 201-208, Orlando, Florida, Feb. 1998 https://doi.org/10.1109/ICDE.1998.655778
  23. 노웅기, 김상욱, 황규영, 심규석, '시계열 데이타베이스에서 임의 계수의 이동평균 변환을 지원하는 서브시퀀스 매칭 알고리즘,' 정보과학회 논문지: 데이타베이스, 제 27 권, 제 9 호, pp. 469-485, 2000년 9월
  24. 문양세, 노웅기, 황규영, '윈도우 구성의 이원성을 이용한 효율적인 시계열 서브시퀀싱 매칭,' 정보과학회 논문지: 데이타베이스, 게재 승인
  25. 정보과학회 논문지:데이타베이스 v.27 no.9 시계열 데이타베이스에서 임의 계수의 이동평균 변환을 지원하는 서브시퀀스 매칭 알고리즘 노응기;김상욱;황규영;심규석
  26. 정보과학회 논문지:데이타베이스 윈도우 구성의 이원성을 이용한 효율적인 시계열 서브시퀀싱 매칭 문양세;노응기;황규영