• Title/Summary/Keyword: 시퀀스 매칭

Search Result 87, Processing Time 0.028 seconds

Effective Resolving of the Performance Bottleneck in Time-Series Subsequence Matching (시계열 서브시퀀스 매칭에서 발생하는 성능 병목의 효과적인 해결 방안)

  • 김상욱;오세봉
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.530-532
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭 처리의 성능 병목을 파악하고, 이를 해결함으로써 전체 서브시퀀스 매칭의 성능을 크게 개선하는 방안에 관하여 논의한다. 먼저, 사전 실험을 통하여 후처리 단계가 서브시퀀스 매칭의 성능 병목이며, 후처리 단계의 최적화가 기존의 서브시퀀스 매칭 기법들이 간과한 매우 중요한 이슈임을 지적한다. 이러한 서브시퀀스 매칭의 성능 병목을 해결하기 위하여 후처리 단계를 최적으로 처리할 수 있는 간단하면서도 매우 효과적인 기법을 제안한다. 제안된 기법은 후처리 단계에서 후보 서브시퀀스들이 질의 시퀀스와 실제로 유사한가를 판단하는 순서를 조정함으로써 기존의 후처리 단계의 처리에서 발생하는 많은 디스크 액세스의 중복과 CPU 처리의 중복을 완전히 제거할 수 있다. 실제 데이터와 생성 데이터를 이용한 다양한 실험들을 통하여 제안된 기법의 성능 개선 효과를 정량적으로 검증한다.

  • PDF

A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases (시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jinho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.157-159
    • /
    • 2005
  • 본 논문에서는 단일 색인을 사용하는 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 질의 시퀀스 길이가 커질수록 성능이 저하되고, 이를 해결하기 위하여 여러개의 색인을 사용하는 방법을 취하였다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 정규화 변환 지원 서브시퀀스 매칭을 수행하는 효율적인 방법을 제시한다. 이를 위하여, 본 논문에서는 정규화 변환의 정의를 확장하여 일반화 정규화 변환 개념을 제시한다. 또한, 이러한 일반화 정규화 변환 개념을 기존 서브시퀀스 매칭 방법들에 적용하는 방안에 대한 이론적 근거를 각각의 정리로서 제시하고 증명하였다. 그리고, 이들 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시하였다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있는 우수한 연구결과라 사료된다.

  • PDF

Effectiveness Evaluations of Subsequence Matching Methods Using KOSPI Data (한국 주식 데이터를 이용한 서브시퀀스 매칭 방법의 효과성 평가)

  • Yoo Seung Keun;Lee Sang Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.3 s.99
    • /
    • pp.355-364
    • /
    • 2005
  • Previous researches on subsequence matching have been focused on how to make indexes in order to speed up the matching time, and do not take into account the effectiveness issues of subsequence matching methods. This paper considers the effectiveness of subsequence matching methods and proposes two metrics for effectiveness evaluations of subsequence matching algorithms. We have applied the proposed metrics to Korean stock data and five known matching algorithms. The analysis on the empirical data shows that two methods (i.e., the method supporting normalization, and the method supporting scaling and shifting) outperform the others in terms of the effectiveness of subsequence matching.

A Survey on Similar Sequence Matching Methods in Time-Series Database (시계열 데이터베이스에서 유사 시퀀스 매칭 방법에 관한 조사)

  • Jin, Ah-Yeon;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1079-1080
    • /
    • 2012
  • 시계열 데이터는 경제, 기상, 의료 등 다양한 분야에서 사용되고 있으며, 시계열 데이터 상에서의 검색 방법에 대한 관심이 더욱 높아지고 있다. 시계열 데이터는 각 시간별로 측정한 실수 값의 시퀀스로, 사용자가 원하는 질의 시쿠퀀스와 유사한 데이터 시퀀스를 찾는 방법인 유사 시퀀스 매칭 방법을 조사한다. 유사 시퀀스 매칭 방법은 전체 매칭과 서브시퀀스 매칭으로 분류되며, 서브시퀀스 매칭의 대표적인 방법으로 전체매칭을 일반화한 방법인 FRM, FRM의 윈도우 구성 방법에 대해 이원적으로 접근한 DualMatch, FRM과 DualMatch를 일반화한 GeneralMatch가 있으며, 각 방법에 대한 비교분석을 한다.

Window Size Effect on Time-Series Subsequence Matching: A Qualitative Performance Study (시계열 서브시퀀스 매칭의 윈도우 크기 효과 : 정량적 성능 연구)

  • 고현길;정인범;김상욱
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.371-374
    • /
    • 2003
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 기존에 제안된 서브시퀀스 매칭 기법인 FRM과 Dual-Match를 대상으로 다양한 실험을 통하여 윈도우 크기 효과를 정량적으로 분석한다. 또한, 이러한 분석 결과를 기반으로 서브시퀀스 매칭 처리의 성능 개선을 위한 향후의 연구 방향을 제시한다.

  • PDF

Optimal Construction of Multiple Indexes for Time-Series Subsequence Matching (시계열 서브시퀀스 매칭을 위한 최적의 다중 인덱스 구성 방안)

  • Lim Seung-Hwan;Park Hee-Jin;Kim Sang-Wook
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.193-195
    • /
    • 2005
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이다. 본 논문에서는 크기 효과로 인한 서브시퀀스 매칭의 심각한 성능 저하 현상을 정량적으로 관찰하여, 하나의 윈도우 크기를 대상으로 만든 단 하나의 인덱스만을 이용하는 것은 실제 응용에서 만족할만한 성능을 제공할 수 없다는 것을 규명하였다. 또한, 이러한 문제로 인해 다양한 윈도우 크기를 기반으로 다수의 인덱스들을 구성하여 서브시퀀스 매칭을 수행하는 인덱스 보간법의 응용이 필요함을 보였다. 인덱스 보간법을 응용하여 서비시퀀스 매칭을 수행하기 위해서는 먼저 다수의 인덱스들을 위한 윈도우 크기들을 결정해야 한다. 본 연구에서는 물리적 데이터베이스 설계방식을 이용하여 이러한 최적의 다수의 윈도우 크기들을 선정하는 문제를 해결하였다. 이를 위하여 시계열 데이터베이스에서 수행될 예정인 질의 시퀀스들의 집합과 인덱스 구성의 기반이 되는 윈도우들의 크기의 집합이 주어질 때, 전체 서브시퀀스 매칭들을 수행하는 데에 소요되는 비용을 예측할 수 있는 공식을 산출하였다. 또한, 이 비용 공식을 이용하여 전체 서브시퀀스 매칭들의 성능을 극대화 할 수 있는 최적의 윈도우 크기들을 결정하는 알고리즘을 제안하였으며, 이 알고리즘의 최적성과 효율성을 이론적으로 규명하였다. 끝으로, 실험에 의한 성능 평가를 제안된 기법의 우수성을 제시하였다.

  • PDF

Efficient Time-Series Subsequence Matching Using Index Interpolation (인덱스 보간법을 이용한 효율적인 시계열 서브시퀀스 매칭)

  • Lim Seung-Hwan;Ko Hyun-Gil;Loh Woong-Kee;Kim Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.31-34
    • /
    • 2004
  • 서브시퀀스 매칭은 시계열 데이터베이스에서 질의 시퀀스와 유사한 서브시퀀스틀 찾아내는 연산이다. 기존의 서브시퀀스 매칭 알고리즘들은 하나의 인덱스만을 사용하여 검색을 수행하기 때문에, 인덱스를 생성하기 위하여 데이터 시퀀스로부터 추출한 윈도우의 크기와 질의 시퀀스의 길이 간의 차이가 커질수록 검색 성능이 급격히 저하되는 문제점을 갖고 있다. 본 논문에서는 이러한 기존 알고리즘의 문제점을 해결하기 위하여 인덱스 보간법에 기반한 새로운 서브시퀀스 매칭 기법을 제안한다. 인덱스 보간법이란 하나 이상의 인덱스를 구축하고 주어진 질의 시퀀스의 길이에 따라 적절한 인덱스를 선택하여 검색을 수행하는 기법이다. 본 논문에서는 서브시퀀스 매칭 비용 공식을 산출하고, 이 비용 공식에 기반하여 제안된 기법의 성능을 최적화 하도록 다수의 인덱스를 구성하는 알고리즘을 제시한다. 마지막으로, 실제 데이터를 이용한 여러 가지 실험을 통하여 제안된 기법의 우수성을 정량적으로 검증한다.

  • PDF

A Study on Time-Series Subsequence Matching using Multi MBRs (다수의 MBR을 이용한 시계열 서브시퀀스 매칭 연구)

  • Ihm, Sun-Young;Park, Young-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.1068-1069
    • /
    • 2012
  • 시계열 데이타는 일정 시간 간격으로 측정한 값의 시퀀스를 뜻하는데, 사용자에 의해 주어진 질의 시퀀스와 유사한 데이타 시퀀스를 검색하는 방법을 유사 시퀀스 매칭이라고 한다. 본 논문에서는 유사 시퀀스 매칭 시, 질의 시퀀스로 MBR을 구성할 때 한 개의 MBR이 아닌 다수의 MBR로 구성하는 방법을 제안하였다. 다수의 MBR로 구성하여 질의 처리를 하면 질의 시퀀스의 길이가 길 경우 적은 비용으로 질의 처리를 수행할 수 있다.

A Visualization Tool for Ranked Subsequence Matching in Time-Series Databases (시계열 데이터베이스에서 순위를 지원하는 서브시퀀스 매칭 방법을 위한 시각화 툴)

  • Lee, Sung-Jin;Lee, Jinsoo;Cho, Hune;Han, Wook-Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.787-788
    • /
    • 2009
  • 시계열 데이터(time-series data)는 연속적인 데이터를 고정된 시간 간격으로 샘플링한 실수 값들의 연속을 의미한다. 시계열 데이터의 예로는, 음악 및 동영상 데이터, 심전도 데이터, 주식 그래프 등의 데이터가 있다. 시계열 데이터는 다시 데이터베이스에 저장 되어있는 데이터 시퀀스(data sequence)와, 사용자에 의해 주어지는 질의 시퀀스(query sequence)로 분류된다. 시계열 데이터베이스(time-series database)에서 순위를 지원하는 서브시퀀스 매칭 방법(ranked subsequence matching)은 데이터 시퀀스와 질의 시퀀스가 주어졌을 때, 질의 시퀀스의 길이와 같은 데이터 시퀀스의 서브시퀀스(subsequence)들 중에서 질의 시퀀스와 가장 유사한 상위 k개의 서브시퀀스들을 찾는 것이다. 본 논문의 목적은 사용자가 매칭 방법에 대한 인식과 이해가 부족하더라도 기존의 콘솔 기반의 매칭 프로그램을 보다 쉽게 사용할 수 있도록 이용성을 향상시키기 위하여 시각화 툴을 개발하는 것이다. 구체적으로, 5가지 시각화(visualization) 기능을 제공하는 사용자 인터페이스를 구현하였다. 구현된 사용자 인터페이스를 통해 사용자가 기존의 매칭 프로그램을 보다 쉽고 간편하게 사용할 수 있도록 기여한다.

A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases (시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭)

  • Moon Yang-Sae;Kim Jin-Ho;Loh Woong-Kee
    • The KIPS Transactions:PartD
    • /
    • v.13D no.4 s.107
    • /
    • pp.513-524
    • /
    • 2006
  • Normalization transform is very useful for finding the overall trend of the time-series data since it enables finding sequences with similar fluctuation patterns. The previous subsequence matching method with normalization transform, however, would incur index overhead both in storage space and in update maintenance since it should build multiple indexes for supporting arbitrary length of query sequences. To solve this problem, we propose a single index approach for the normalization transformed subsequence matching that supports arbitrary length of query sequences. For the single index approach, we first provide the notion of inclusion-normalization transform by generalizing the original definition of normalization transform. The inclusion-normalization transform normalizes a window by using the mean and the standard deviation of a subsequence that includes the window. Next, we formally prove correctness of the proposed method that uses the inclusion-normalization transform for the normalization transformed subsequence matching. We then propose subsequence matching and index building algorithms to implement the proposed method. Experimental results for real stock data show that our method improves performance by up to $2.5{\sim}2.8$ times over the previous method. Our approach has an additional advantage of being generalized to support many sorts of other transforms as well as normalization transform. Therefore, we believe our work will be widely used in many sorts of transform-based subsequence matching methods.