Efficient Time-Series Subsequence Matching using Duality in Constructing Windows

윈도우를 구성하는 방법의 이원성을 이용한 효율적인 시계열 서부시퀀스 매칭

  • Mun, Yang-Se (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • No, Ung-Gi (Dept. of Electronic Computer Science, Korea Advanced Institute of Science and Technology) ;
  • Hwang, Gyu-Yeong (Dept. of Computer Science, Korea Advanced Institute of Science and Technology)
  • 문양세 (한국과학기술원 전자전산학과) ;
  • 노웅기 (한국과학기술원 전자전산학과) ;
  • 황규영 (한국과학기술원 전산학과)
  • Published : 2001.03.01

Abstract

서브시퀀스 매칭은 질의 시퀀스와 유사한 서브시퀀스를 가지는 데이터 시퀀스와 해당 서브시퀀스의 위치를 찾는 문제이다. 본 논문에서는 윈도우를 구성하는 방법의 이원성을 이용한 새로운 서부시퀀스 매칭 방법인 Dual-Match는 윈도우를 구성하는 방법에 있어서 Faloutsos 등이 사용한 방법(간단히 FRM 이라한다)의 이원적 접근법이다. 즉, FRM에서는 데이터 시퀀스를 슬라이딩 윈도우로 나누고 질의 시퀀스를 디스조인트 윈도우로 나누는 방법을 사용한 반면, Dual-Match에서는 데이터 시퀀스를 디스조이트 윈도우로 나누고 질의 시퀀스를 슬라이딩 윈도우로 나누는 방법을 사용한다. FRM은 색인에 필요한 저장공간을 줄이기 위하여 개별 점 대신 최소 포함 사각형만을 저장함으로 인하여 많은 착오해답(유사하지 않은 후보 서브시퀀스)을 발생시켰다. Dual-Match는 FRM과 비슷한 크기의 저장공간에 개별 점을 직접 저장함으로써 이 문제를 해결한다. 실험결과, Dual-Match는 많은 경우에 있어서 FRM에 비하여 후보 개수를 크게 줄이고 성능을 향상시켰다. 특히, 선택률이 낮은 경우($10^{-4}$이하)에는 후보 개수를 최대 8800배 까지 줄이고, 페이지 액세스 횟수를 최대 26.9배까지 줄였으며, 성능을 최대 430배까지 향상시켰다. 또한, 동일한 크기의 색인을 생성하는데 있어서 Dual-Match는 FRM보다 4.10~25.6배 빠르게 색인을 구성하였다. 이는 색인 구성시에 CPU 오버헤드의 많은 부분을 차지하는 저차원 변환의 횟수를 FRM에 비해 크게 줄이기 때문이다. 이 같은 결과로 볼 때, Dual-Match는 대용량 데이터베이스에 대한 서부시퀀스 매칭의 성능을 크게 향상시킬 수 있는 획기적인 연구 결과라 믿는다.

Keywords

References

  1. Rafiei, D. and Mendelzon, A., 'Similarity-Based Queries for Time Series Data,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Tucson, Arizona, pp. 13-25, May 1997 https://doi.org/10.1145/253262.253264
  2. Agrawal, R., Faloutsos, C, and Swami, A., 'Efficient Similarity Search in Sequence Databases,' In Proc. the 4th Int'l Conf. on Foundations of Data Organization and Algorithms, Chicago, Illinois, pp. 69-84, Oct. 1993
  3. Faloutsos, C, Ranganathan, M., and Manolopoulos, Y., 'Fast Subsequence Matching in Time-Series Databases,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Minneapolis, Minnesota, pp. 419-429, May 1994 https://doi.org/10.1145/191843.191925
  4. Agrawal, R., Lin, K.-I., Sawhney, H. S., and Shim, K., 'Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases,' In Proc. the 21st Int'l Conf. on Very Large Data Bases, Zurich, Switzerland, pp. 490-501, Sept. 1995
  5. Chan, K.-P. and Fu, A. W.-C, 'Efficient Time Series Matching by Wavelets,' In Proc. the 15th Int'l Conf. on Data Engineering, Sydney, Australia, pp. 126-133, Feb. 1999 https://doi.org/10.1109/ICDE.1999.754915
  6. Chu, K. W. and Wong, M. H? 'Fast Time-Series Searching with Scaling and Shifting,' In Proc. the 15th ACM SIGACT-SIGMODSIGART Symposium on Principles of Database Systems, Philadelphia, Pennsylvania, pp. 237-248, June 1999 https://doi.org/10.1145/303976.304000
  7. Jagadish, H. V., Mendelzon, A. O., and Milo, T., 'Similarity-Based Queries,' In Proc. the 14th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, San Jose, California, pp. 36-45, May 1995
  8. Rafiei, D., 'On Similarity-Based Queries for Time Series Data,' In Proc. the 15th Int'l Conf. on Data Engineering, Sydney, Australia, pp. 410-417, Feb. 1999
  9. Yi, B.-K., Jagadish, H. V., and Faloutsos, C, 'Efficient Retrieval of Similar Time Sequences Under Time Warping,' In Proc. the 14th Int'l Conf. on Data Engineering, Orlando, Florida, pp. 201-208, Feb. 1998
  10. Beckmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B., 'The R*-tree: An Efficient and Robust Access Method for Points and Rectangles,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Atlantic City, New Jersey, pp. 322-331, May 1990
  11. 노웅기, 김상욱, 황규영, 심규석, '시계열 데이티베이스에서 임의 계수의 이동평균 변환을 지원하는 서브시퀀스 매칭 알고리즘', 한국정보과학회 가을 학술발표 논문집, Vol. 26, No.2, .pp 334-336, 1999년 10월
  12. 노웅기, 김상욱, 황규영, '시계열 데이타베이스에서 인덱스 보간법을 기반으로 정규화 변환을 지원하는 서브시퀀스 매칭', 한국정보과학회 봄 학술발표논문집, Vol. 27, No.1, pp. 152-154, 2000년 4월
  13. Park, S, Chu, W. W., Yoon, J., and Hsu, C, 'Efficient Searches for Similar Subsequences of Different Lengths in Sequence Databases,' In Proc. the 16th Int'l Conf. on Data Engineering, San Diego, California, pp. 23-32, March 2000 https://doi.org/10.1109/ICDE.2000.839384
  14. Berchtold, S, Bohm, C, and Kriegel, H.-P., 'The Pyramid-Technique: Towards Breaking the Curse of Dimensionality,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Seattle, Washington, pp. 142-153, June 1998 https://doi.org/10.1145/276305.276318
  15. Weber, R., Schek, H.-J., and Blott, S., 'A Quantitative Analysis and Performance Study for Similarity-Search Methods in High-Dimensional Spaces,' In Proc. the 24th Int'l Conf. on Very large Data Bases, New York City, New York, pp. 194-205, Aug. 1998
  16. Robinson, T. J., 'The K-D-B Tree: A Search Structure for Large Multidimensional Dynamic Indexes,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Ann Arbor, Michigan, pp. 10-18, Apr. 1981 https://doi.org/10.1145/582318.582321
  17. Seeger, B. and Kriegel, H.-P., 'The Buddy-Tree: An Efficient and Robust Access Method for Spatial Data Base Systems,' In Proc. the 16th Int'l Conf. on Very Large Data Bases, Brisbane, Queensland, Australia, pp. 590-601, Aug. 1990
  18. Whang, K.-Y. and Krishnamurthy, R., Multilevel Grid Files, IBM Research Report RC11516, IBM Thomas J. Watson Research Center, Yorktown Heights, New York, Nov. 1985
  19. Whang, K.-Y., Kim, S.-W, and Wiederhold, G, 'Dynamic Maintenance of Data Distribution for Selectivity Estimation,' The VLDB Journal, Vol. 3, No. 1, pp. 29-51, Jan. 1994 https://doi.org/10.1007/BF01231357
  20. Guttman, A., 'R-trees: A Dynamic ,. Index Structure for Spatial Searching,' In Proc. ' Int'l Conf. on Management of Data, ACM SIGMOD, Boston, Massachusetts, pp. 47-57, June 1984 https://doi.org/10.1145/602259.602266
  21. Sellis, T., Roussopoulos, N., and Faloutsos, C., 'The R+-tree: A Dynamic Index for Multidimensional Objects,' In Proc. the 15th Int'l Conf. on Very Large Data Bases, Brighton, England, pp. 507-518, Sept. 1987
  22. Gaede, V. and Guenther, O., 'Multidimensional Access Methods,' ACM Computing Surveys, Vol. 30, No. 2, pp. 170-231, June 1998 https://doi.org/10.1145/280277.280279