인덱스 보간법을 이용한 효율적인 시계열 서브시퀀스 매칭

Efficient Time-Series Subsequence Matching Using Index Interpolation

  • 임승환 (한양대학교 정보통신공학과) ;
  • 고현길 (강원대학교 컴퓨터정보통신공학과) ;
  • 노웅기 ((주)티맥스데이타 R&D센터) ;
  • 김상욱 (한양대학교 정보통신공학과)
  • Lim Seung-Hwan (Dept. of Info. & Comm. Eng., Hanyang University) ;
  • Ko Hyun-Gil (Dept. of Comp., Info., & Comm. Eng., Kangwon National University) ;
  • Loh Woong-Kee (R&D Center, Tmax Data Co., Ltd.) ;
  • Kim Sang-Wook (Dept. of Info. & Comm. Eng., Hanyang University)
  • 발행 : 2004.11.01

초록

서브시퀀스 매칭은 시계열 데이터베이스에서 질의 시퀀스와 유사한 서브시퀀스틀 찾아내는 연산이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하기 때문에, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하되는 문제점을 갖고 있다. 본 논문에서는 이러한 기존 알고리즘의 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 서브시퀀스 매칭 비용 공식을 산출하고, 이 비용 공식에 기반하여 제안된 기법의 성능을 최적화 하도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 정량적으로 검증한다.

키워드