• 제목/요약/키워드: time-series databases

검색결과 86건 처리시간 0.024초

시계열 서브시퀀스 매칭을 위한 최적의 다중 인덱스 구성 방안 (Optimal Construction of Multiple Indexes for Time-Series Subsequence Matching)

  • 임승환;김상욱;박희진
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.201-213
    • /
    • 2006
  • 일정 기간 동안 객체의 변화한 값들을 기록한 것을 그 객체에 대한 시계열 데이타 시퀀스라고 부르며, 이들의 집합을 시계열 데이타베이스라고 한다. 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이타베이스로부터 검색하는 연산이다. 본 논문에서는 서브시퀀스 매칭의 성능을 극대화하기 위한 방안을 제시한다. 먼저, 윈도우 크기 효과로 인한 서브시퀀스 매칭의 심각한 성능 저하 현상을 정량적으로 관찰하여, 하나의 윈도우 크기를 대상으로 만든 단 하나의 인덱스만을 이용하는 것은 실제 응용에서 만족할만한 성능을 제공할 수 없다는 것을 규명하였다 또한, 이러한 문제로 인해 다양한 윈도우 크기들을 기반으로 다수의 인덱스들을 구성하여 서브시퀀스 매칭을 수행하는 인덱스 보간법의 응용이 필요함을 보였다. 인덱스 보간법을 응용하여 서브시퀀스 매칭을 수행하기 위해서는 먼저 다수의 인덱스들을 위한 윈도우 크기들을 결정해야 한다. 본 연구에서는 물리적 데이타베이스 설계 방식을 이용하여 이러한 최적의 다수의 윈도우 크기들을 선정하는 문제를 해결하였다. 이를 위하여 시계열 데이터 베이스에서 수행될 예정인 질의 시퀀스들의 집합과 인덱스 구성의 기반이 되는 윈도우들의 크기의 집합이 주어질 때, 전체 서브시퀀스 매칭들을 수행하는 데에 소요되는 비용을 예측할 수 있는 공식을 산출하였다. 또한, 이 비용 공식을 이용하여 전체 서브시퀀스 매칭들의 성능을 극대화 할 수 있는 최적의 윈도우 크기들을 결정하는 알고리즘을 제안하였으며, 이 알고리즘의 최적성과 효율성을 이론적으로 규명하였다. 끝으로, 실제 주식 데이타와 대량의 합성 데이타를 이용한 실험 결과, 제안된 기법은 기존의 단순한 기법과 비교하여 1.5배에서 7.8배 성능이 향상됨을 보였다.

시공간 데이타베이스에서 다차원 시퀀스 데이타의 선택도추정 (Selectivity Estimation for Multidimensional Sequence Data in Spatio-Temporal Databases)

  • 신병철;이종연
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권1호
    • /
    • pp.84-97
    • /
    • 2007
  • 선택도 추정 기법은 질의 최적화를 위해 현재 상용 데이터 베이스에서 많이 사용되고 있고 히스토그램은 가장 많이 사용되는 선택도 추정 기법중의 하나이다. 최근에 시공간 데이터 베이스 관련 연구들에서 이러한 선택도 추정 기법이 기존의 시간 공간 데이타베이스 선택도 추정 기법을 확장하여 활발하게 연구되었다. 하지만 기존의 시공간 데이타베이스 선택도 추정 연구는 주로 이동 객체와 같은 시계열 데이타만 고려하였다. 또한 기존의 연구는 과거시점부터 현재 시점까지 시간적 범위 질의에 대한 선택도 추정은 불가능하였다. 따라서 본 논문에서는 시공간 데이타베이스에서 과거 시점에서 현재시점까지 시퀀스 데이타의 시간적 범위 질의를 위한 히스토그램을 구축하고 이를 이용한 효과적인 선택도 추정 기법을 제안한다. 제안한 히스토그램을 이용하면 과거부터 현재까지 시퀀스 데이타의 선택도 추정이 가능하고, 범위시간 선택도 추정 기법이 가능하며 효과적인 히스토그램 유지 기법의 적용이 가능하다.

정규 거리에 기반한 시계열 데이터베이스의 유사 검색 기법 (Similarity Search in Time Series Databases based on the Normalized Distance)

  • 이상준;이석호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.23-29
    • /
    • 2004
  • 본 논문에서는 정규 거리에 기반 한 유사 시퀀스의 검색 기법을 제안한다. 시퀀스의 형태가 중요한 관심 사항인 응용에서 정규 거리는 단순한 Lp 거리에 비해 적합한 유사도라 할 수 있다. 이러한 정규 거리에 기반 한 질의를 처리하기 위한 기존의 기법들은 시퀀스의 평균을 구한 후 이를 이용하여 시퀀스를 수직 이동하는 전처리 과정을 가지고 있다. 제안된 기법은 시퀀스의 인접한 두 요소들 간의 변이가 정규화 과정에 불변이라는 속성을 이용하여 수직 이동의 전처리 과정 없이 특징 벡터를 추출한 후 이를 R-tree와 같은 공간 접근 기법을 이용하여 인덱싱한다. 제안된 기법은 비슷한 형태의 시퀀스를 검색할 수 있으며 착오 누락이 얼음을 보장한다. 실제 주식 데이타를 이용한 실험을 통해 제안된 기법의 성능을 확인하였다.

최단거리에 기반한 시계열 데이타의 효율적인 유사 검색 (Efficient Similarity Search in Time Series Databases Based on the Minimum Distance)

  • 이상준;권동섭;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.533-535
    • /
    • 2003
  • The Euclidean distance is sensitive to the absolute offsets of time sequences, so it is not a suitable similarity measure in terms of shape. In this paper. we propose an indexing scheme for efficient matching and retrieval of time sequences based on the minimum distance. The minimum distance can give a better estimation of similarity in shape between two time sequences. Our indexing scheme can match time sequences of similar shapes irrespective of their vortical positions and guarantees no false dismissals

  • PDF

시계열 데이터베이스에서 선형 추세 제거 서브시퀀스 매칭 (Linear Detrending Subsequence Matching in Time-Series Databases)

  • 길명선;김범수;문양세;김진호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.586-590
    • /
    • 2010
  • 본 논문에서는 선형 추세 제거 서브시퀀스 매칭을 정의하고, 이를 효율적으로 수행하기 위한 인덱스 기반 해결책을 제안한다. 이를 위해, 먼저 윈도우 자체의 선형 추세가 아닌 해당 윈도우를 포함하는 서브시퀀스의 선형 추세를 제거하여 얻은 새로운 윈도우인 LD-윈도우 개념을 제시한다. 다음으로, LD-윈도우를 이용하여 제안하는 인덱스 기반 해결책의 이론적 근거인 하한 조건을 제시하고, 이를 정형적으로 증명한다. 이러한 하한 조건에 기반하여, 본 논문에서는 또한 인덱스 구성 및 서브시퀀스 매칭 알고리즘을 각각 제안한다. 마지막으로, 실험을 통해 제안하는 인덱스 기반 해결책의 우수성을 입증한다.

Automatic Detection of Congestive Heart Failure and Atrial Fibrillation with Short RR Interval Time Series

  • Yoon, Kwon-Ha;Nam, Yunyoung;Thap, Tharoeun;Jeong, Changwon;Kim, Nam Ho;Ko, Joem Seok;Noh, Se-Eung;Lee, Jinseok
    • Journal of Electrical Engineering and Technology
    • /
    • 제12권1호
    • /
    • pp.346-355
    • /
    • 2017
  • Atrial fibrillation (AF) and Congestive heart failure (CHF) are increasingly widespread, costly, deadly diseases and are associated with significant morbidity and mortality. In this study, we analyzed three statistical methods for automatic detection of AF and CHF based on the randomness, variability and complexity of the heart beat interval, which is RRI time series. Specifically, we used short RRI time series with 16 beats and employed the normalized root mean square of successive RR differences (RMSSD), the sample entropy and the Shannon entropy. The detection performance was analyzed using four large well documented databases, namely the MIT-BIH Atrial fibrillation (n=23), the MIT-BIH Normal Sinus Rhythm (n=18), the BIDMC Congestive Heart Failure (n=13) and the Congestive Heart Failure RRI databases (n=25). Using thresholds by Receiver Operating Characteristic (ROC) curves, we found that the normalized RMSSD provided the highest accuracy. The overall sensitivity, specificity and accuracy for AF and CHF were 0.8649, 0.9331 and 0.9104, respectively. Regarding CHF detection, the detection rate of CHF (NYHA III-IV) was 0.9113 while CHF (NYHA I-II) was 0.7312, which shows that the detection rate of CHF with higher severity is higher than that of CHF with lower severity. For the clinical 24 hour data (n=42), the overall sensitivity, specificity and accuracy for AF and CHF were 0.8809, 0.9406 and 0.9108, respectively, using normalized RMSSD.

이원성 기반 시계열 서브시퀀스 매칭의 인덱스 검색을 위한 최적의 기법 (An Optimal Way to Index Searching of Duality-Based Time-Series Subsequence Matching)

  • 김상욱;박대현;이헌길
    • 정보처리학회논문지D
    • /
    • 제11D권5호
    • /
    • pp.1003-1010
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 먼저, 본 논문에서는 서브시퀀스 매칭을 위한 기존 기법의 인덱스 검색에서 발생하는 성능상의 문제점들을 지적하고, 이들을 해결할 수 있는 새로운 방법을 제시한다. 제안된 기법은 서브시퀀스 매칭의 인덱스 검색 문제를 윈도우-조인이라는 일종의 공간 조인 문제로 새롭게 해석하는 것에서 출발한다. 윈도우-조인의 빠른 처리를 위하여 제안된 기법에서는 서브시퀀스 매칭을 시작할 때 질의 시퀀스를 위한 R*-트리를 주기억장치 내에 구성한다. 또한, 제안된 기법은 데이터 시퀀스들을 위한 디스크 상의 R*-트리와 질의 시퀀스를 위한 주기억장치 상의 R*-트리를 효과적으로 조인할 수 있는 새로운 알고리즘을 포함한다. 이 알고리즘은 데이터 시퀀스들을 위한 R*-트리 페이지들을 인덱스 단계의 착오 채택 없이 단 한번만 디스크로부터 액세스하므로 디스크 액세스 측면에서 최적의 기법임이 증명된다. 또한, 다양한 실험을 통한 성능 평가를 통하여 제안된 기법의 우수성을 정량적으로 규명한다.

Index-based Boundary Matching Supporting Partial Denoising for Large Image Databases

  • Kim, Bum-Soo
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권10호
    • /
    • pp.91-99
    • /
    • 2019
  • 본 논문에서는 대용량 이미지 데이터베이스에서 보다 빠른 매칭을 위한 색인 기반의 부분 노이즈 제거 윤곽선 매칭을 제안한다. 최근에는 윤곽선 매칭에서 부분 노이즈제거 문제를 해결하기 위해 윤곽선 이미지를 시계열로 변환하는 시도가 있어 왔다. 본 논문에서는 대용량 이미지 데이터베이스에서 부분 노이즈제거를 지원하기 위해 윤곽선 매칭의 디스크 I/O 오버헤드 문제를 다룬다. 이는 색인 기술을 윤곽선 매칭에 단순히 적용하면 되기 때문에 단순해 보이지만 가능한 모든 노이즈제거 매개변수에 대해 여러 개의 색인이 필요하기 때문에 어려운 문제이다. 이 문제를 해결하기 위해 본 논문에서는 윤곽선 매칭에서 $R^*-tree$를 사용하여 부분 노이즈제거에 대한 효율적인 색인 기반 접근 방식을 제안한다. 수행 된 실험 결과, 제안한 색인 기반 매칭 방법은 검색 성능을 수백 배 향상시킨다.

시계열 데이터 기반의 부분 노이즈 제거 윤곽선 이미지 매칭 (Partial Denoising Boundary Image Matching Based on Time-Series Data)

  • 김범수;이상훈;문양세
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.943-957
    • /
    • 2014
  • 윤곽선 이미지 매칭에서 이미지의 노이즈를 제거하는 것은 직관적이고 정확한 매칭을 위해 매우 중요한 요소이다. 본 논문에서는 윤곽선 이미지 매칭에서 부분 노이즈를 허용하는 문제를 시계열 도메인에서 다룬다. 이를 위해, 먼저 부분 노이즈 제거 시계열(partial denoising time-series)을 정의하여 이미지 도메인이 아닌 시계열 도메인에서 매칭 문제를 신속하게 해결하는 방법을 제안한다. 다음으로, 두 윤곽선 이미지, 즉 질의 시계열과 데이터 시계열에서 구성된 부분 노이즈 제거 시계열들 간에 가질 수 있는 최소거리인 부분 노이즈 제거 거리(partial denoising distance)를 제시한다. 본 논문에서는 이를 두 윤곽선 이미지 간의 유사성 척도로 사용하여 윤곽선 이미지 매칭을 수행한다. 그러나, 부분 노이즈 제거 거리를 측정하기 위해서는 매우 많은 계산이 빈번하게 발생하므로, 본 논문에서는 부분 노이즈 제거 거리의 하한을 구하는 방법을 제안한다. 마지막으로, 부분 노이즈 제거 윤곽선 이미지 매칭의 질의 방식에 따라 범위 질의 매칭과 k-NN 질의 매칭을 각각 제안한다. 실험 결과, 제안한 부분 노이즈 제거 윤곽선 이미지 매칭은 성능을 수 배에서 수십 배까지 향상시킨 것으로 나타났다.

Nonlinear Quality Indices Based on a Novel Lempel-Ziv Complexity for Assessing Quality of Multi-Lead ECGs Collected in Real Time

  • Zhang, Yatao;Ma, Zhenguo;Dong, Wentao
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.508-521
    • /
    • 2020
  • We compared a novel encoding Lempel-Ziv complexity (ELZC) with three common complexity algorithms i.e., approximate entropy (ApEn), sample entropy (SampEn), and classic Lempel-Ziv complexity (CLZC) so as to determine a satisfied complexity and its corresponding quality indices for assessing quality of multi-lead electrocardiogram (ECG). First, we calculated the aforementioned algorithms on six artificial time series in order to compare their performance in terms of discerning randomness and the inherent irregularity within time series. Then, for analyzing sensitivity of the algorithms to content level of different noises within the ECG, we investigated their change trend in five artificial synthetic noisy ECGs containing different noises at several signal noise ratios. Finally, three quality indices based on the ELZC of the multi-lead ECG were proposed to assess the quality of 862 real 12-lead ECGs from the MIT databases. The results showed the ELZC could discern randomness and the inherent irregularity within six artificial time series, and also reflect content level of different noises within five artificial synthetic ECGs. The results indicated the AUCs of three quality indices of the ELZC had statistical significance (>0.500). The ELZC and its corresponding three indices were more suitable for multi-lead ECG quality assessment than the other three algorithms.