• 제목/요약/키워드: time-series databases

검색결과 86건 처리시간 0.022초

실시간 철도안전 관제를 위한 데이터 처리 방안 연구 (Data Processing Method for Real-time Safety Supervision System in Railway)

  • 신광호;정혜란;안진
    • 한국철도학회논문집
    • /
    • 제19권4호
    • /
    • pp.445-455
    • /
    • 2016
  • 실시간 철도안전 관제시스템은 철도시스템을 구성하는 열차, 신호, 전력 및 설비 등으로 분산되어 감시되던 시스템의 안전관련 데이터를 통합하여 안전감시 효율을 향상시키고 사고를 예방하는 것이 목적으로, 기존 개별 감시 시스템과 달리 데이터의 대용량 처리와 실시간 처리 성능을 동시에 요구하고 있다. 기존 관제시스템에서 주로 활용되는 디스크 기반 데이터베이스는 실시간 및 빅 데이터 처리기능이 없고, 최근 도입되는 메모리 기반 데이터베이스는 빅데이터 처리기능이 없으며, 시계열 데이터베이스는 실시간 처리 기능이 없다. 이에 따라, 실시간 안전관제에서 요구되는 빅 데이터 처리와 실시간 처리를 동시에 제공하는 새로운 솔루션이 필요하다. 본 연구에서는 기존 관제의 데이터 처리 사례를 분석하고, 빅 데이터 처리와 실시간 처리를 동시에 제공하는 새로운 데이터 처리 방안을 제안하였으며, 이를 검증하였다.

정규화 변환을 지원하는 스트리밍 시계열 매칭 알고리즘 (An Efficient Algorithm for Streaming Time-Series Matching that Supports Normalization Transform)

  • 노웅기;문양세;김영국
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권6호
    • /
    • pp.600-619
    • /
    • 2006
  • 최근에 센서 및 모바일 장비들의 발전으로 인하여 이러한 장비들로부터 생성된 대량의 데이터 스트림(data stream)의 처리가 중요한 연구 과제가 되고 있다. 데이타 스트림 중에서 연속되는 시점에 얻어진 실수 값들의 스트림을 스트리밍 시계열(streaming time-series)이라 한다. 스트리밍 시계열에 대한 유사성 매칭은 여러 가지 고유 특성에 의하여 기존의 시계열 데이타와는 다르게 처리되어야 한다. 본 논문에서는 정규화 변환(normalization transform)을 지원하는 스트리밍 시계열 매칭 문제를 해결하기 위한 효율적인 알고리즘을 제안한다. 기존에는 스트리밍 시계열을 아무런 변환 없이 비교하였으나, 본 논문에서는 정규화 변환된 스트리밍 시계열을 비교한다. 정규화 변환은 절대적인 값은 달라도 유사한 변동 경향을 가지는 시계열 데이타를 찾기 위하여 유용하다. 본 논문의 공헌은 다음과 같다. (1) 기존의 정규화 변환을 지원하는 서브시퀀스 매칭 알고리즘[4]에서 제시된 정리(theorem)를 이용하여 정규화 변환을 지원하는 스트리밍 시계열 매칭 문제를 풀기 위한 간단한 알고리즘을 제안한다. (2) 검색 성능을 향상시키기 위하여 간단한 알고리즘을 $k\;({\geq}\;1)$ 개의 인덱스를 이용하는 알고리즘으로 확장한다. (3) 주어진 k에 대하여, 확장된 알고리즘의 검색 성능을 최대화하기 위해 k 개의 인덱스를 생성할 최적의 윈도우 길이를 선택하기 위한 근사 방법(approximation)을 제시한다. (4) 스트리밍 시계열의 연속성(continuity) 개념[8]에 기반하여, 현재 시점 $t_0$에서의 스트리밍 서브시퀀스에 대한 검색과 동시에 미래 시점 $(t_0+m-1)\;(m\geq1)$까지의 검색 결과를 한번의 인덱스 검색으로 구할 수 있도록 재차 확장한 알고리즘을 제안한다. (5) 일련의 실험을 통하여 본 논문에서 제안된 알고리즘들 간의 성능을 비교하고, k 및 m 값의 변화에 따라 제안된 알고리즘들의 검색 성능 변화를 보인다. 본 논문에서 제시한 정규화 변환 스트리밍 시계열 매칭 문제에 대한 연구는 이전에 수행된 적이 없으므로 순차 검색(sequential scan) 알고리즘과 성능을 비교한다. 실험결과, 제안된 알고리즘은 순차 검색에 비하여 최대 13.2배까지 성능이 향상되었으며, 인덱스의 개수 k가 증가함에 따라 검색 성능도 함께 증가하였다.

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭 : 관찰, 최적화, 성능 결과 (Subsequence Matching Under Time Warping in Time-Series Databases : Observation, Optimization, and Performance Results)

  • 김만순;김상욱
    • 정보처리학회논문지D
    • /
    • 제11D권7호
    • /
    • pp.1385-1398
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 먼저, 사전 실험을 통하여 기존의 기본적인 처리 방식인 Naive-Scan의 성능 병목이 CPU 처리 과정에 있음을 지적하고, Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 증명한다. 또한, 제안된 기법을 기존의 타임 워핑 하의 서브시퀀스 매칭 기법인 LB-Scan과 ST-Filter의 후처리 정량적으로 검증한다. 실험 결과에 의하면, 기존의 타임 워핑 하의 서비시퀀스 매칭을 위한 모든 기법들이 제안된 최적화 기법에 의하여 성능이 개선되는 것으로 나타났다. 특히, Nsive-Scan은 최적화 기법의 적용 전에는 가장 떨어지는 성능을 보였으나, 최적화 기법의 적용 후에는 모든 경우에서 ST-Filter나 LB-Scan을 사용한 경우보다 더 좋은 성능을 보였다. 이것은 성능 병목인 CPU 처리 과정을 최적화함으로써 기존 기법들인 Naive-Scan, LB-Scan, ST-Filter 간의 처리 성능 상의 순위 역전 현상이 발생하였음을 보이는 매우 중요한 결과이다.

시계열 데이터베이스에서 서브시퀀스 매칭을 위한 후처리 과정의 최적화 (Optimization of Post-Processing for Subsequence Matching in Time-Series Databases)

  • 김상욱
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.555-560
    • /
    • 2002
  • 서브시퀀스 매칭은 주어진 질의 시퀀스와 변화의 추세가 유사한 서브시퀀스들을 시계열 데이터베이스로부터 검색하는 연산이며, 인덱스 검색 과정과 후처리 과정으로 구성된다. 본 논문에서는 서브시퀀스 매칭을 위한 후처리 과정의 최적화 방안에 관하여 논의한다. 기존의 서브시퀀스 매칭 기법들의 후처리 과정에서 발생하는 공통적인 문제점은 인덱스 검색 과정에서 각 후보 서브시퀀스가 반환될 때마다 이들이 최종 결과에 포함되는가에 대한 여부를 판별하기 위하여 질의 시퀀스와 비교한다는 것이다. 이러한 처리 방식은 후보 서브시퀀스들을 포함하는 동일한 시퀀스를 디스크로부터 여러 번 액세스되도록 할 뿐만 아니라 동일한 후보 서브시퀀스를 질의 시퀀스와 여러 번 비교하도록 한다. 따라서 이러한 중복 작업은 서브시퀀스 매칭의 처리 성능을 심각하게 저하시키는 중요한 원인이 된다. 본 연구에서는 이러한 문제점을 해결하는 새로운 최적의 기법을 제안한다. 제안된 기법은 인덱스 검색 과정에서 반환되는 모든 후보 서브시퀀스들을 이진 탐색 트리 내에 저장하고, 인덱스 검색 과정이 완료된 후에 일괄 처리 방식으로 후처리 작업을 수행한다. 이와 같은 일괄 처리 방식을 채택함으로써 제안된 기법은 위에서 언급한 중복 작업을 완전히 제거할 수 있다. 제안된 기법의 성능 개선 효과를 검증하기 위하여 실제 주식 데이터를 위한 다양한 실험을 수행한다. 실험 결과에 의하면, 제안된 기법은 기존의 기법과 비교하여 55배에서 156배까지의 성능 개선 효과가 있는 것으로 나타났다.

시퀀스 데이터베이스를 위한 서브시퀀스 탐색의 효율적인 처리 (Efficient Processing of Subsequence Searching in Sequence Databases)

  • 박상현;김상욱;박정일
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.155-166
    • /
    • 2001
  • This paper deals with the subsequence searching problem under time-warping. Our work is motivated by the observation that subsequence searches slow down quadratically as the average length of data sequences increases. To resolve this problem, the Segment-Based Approach for Subsequence Searches (SBASS) is proposed. The SBASS divides data and query sequences into a series of segments, and retrieves all data subsequences. Our segmentation scheme allows segments to have different lengths; thus we employ the time warping distance as a similarity measure for each segment pair. For efficient retrieval of similar subsequences, we extract feature vectors from all data segments exploiting their monotonically changing properties, and build a spatial index using feature vectors. The effectiveness of our approach is verified through extensive experiments.

  • PDF

시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭의 성능 최적화 (Optimization of Subsequence Matching Under Time-Warping in Time-Series Databases)

  • 김만순;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.117-120
    • /
    • 2004
  • 본 논문에서는 시계열 데이터베이스에서 타임 워핑 하의 서브시퀀스 매칭을 효과적으로 처리하는 방안에 관하여 논의한다. 타임 워핑은 데이터베이스내 시퀀스들의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 준다. 본 논문에서는 타임 워핑 하의 서브시퀀스 매칭을 위한 기존의 기본 처리 방식인 Naive-Scan의 CPU 처리 과정을 최적화하는 새로운 기법을 제안한다. 제안된 기법은 질의 시퀀스와 서브시퀀스들 간의 타임 워핑 거리들을 계산하는 과정에서 발생하는 중복 작업들을 사전에 제거함으로써 CPU 처리 성능을 극대화한다. 제안된 기법이 착오 기각을 발생시키지 않음과 Naive-Scan을 처리하기 위한 최적의 기법임을 이론적으로 규명한다. 또한, 다양한 실험을 통한 성능 평가에 의하여 제안된 최적화 기법이 가져오는 성능 개선 효과를 정량적으로 검증한다. 아울러, 제안된 기법이 기존의 여과 단계를 포함하는 방식인 LB-Scan과 ST-Filter의 후처리 단계에도 성공적으로 적용될 수 있음을 보인다.

  • PDF

시퀀스 데이터베이스에서 타임 워핑을 지원하는 효과적인 인덱스 기반 서브시퀀스 매칭 (An Index-Based Approach for Subsequence Matching Under Time Warping in Sequence Databases)

  • 박상현;김상욱;조준서;이헌길
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.173-184
    • /
    • 2002
  • 본 논문에서는 대용량 시퀀스 데이터베이스에 타임 워핑을 지원하는 인덱스 기반 서브시퀀스 매칭에 관하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해준다. 최근의 연구에서 타임 워핑을 지원하는 효과적인 전체 매칭 기법을 제안된바 있다. 이 기법은 데이터 시퀀스들로부터 타임 워핑에 영향을 받지 않는 특징 벡터들의 집합을 대상으로 인덱스를 구성한다. 또한, 특징 공간상에서의 필터링을 위하여 삼각형 부등식을 만족하는 타임 워핑 거리의 하한 함수를 사용한다. 본 연구에서는 이 기존의 연구에 슬라이딩 윈도우를 기반으로 하는 접두어-질의 방법을 결합하는 새로운 기법을 제안한다. 인덱싱을 위하여 각 슬라이딩 윈도우와 대응되는 서브 시퀀스로부터 특징 벡터를 추출하고, 이 특징 벡터를 인덱싱 애트리뷰트로 사용하는 다차원 인덱스를 구성한다. 질의 처리를 위하여, 조건을 만족하는 질의 접두어들에 대한 특징 벡터들을 이용하여 다수의 인덱스 검색을 수행한다. 제안된 기법은 대용량의 데이터베이스에서도 효과적인 서브시퀀스 매칭을 지원한다. 본 연구에서는 제안된 기법이 착오 기각을 유발시키지 않음을 증명한다. 제안된 기법의 우수성을 규명하기 위하여 다양한 실험을 수행한다. 실험 결과에 따르면, 제안된 기법은 실제 S&P 500 주식 데이터와 대용량의 생성 데이터 모두에 대하여 큰 성능 개선 효과를 보이는 것으로 나타났다.

타임 워핑을 지원하는 효율적인 서브시퀀스 매칭 기법 (A Subsequence Matching Technique that Supports Time Warping Efficiently)

  • 박상현;김상욱;조준서;이헌길
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.167-179
    • /
    • 2001
  • This paper discusses an index-based subsequence matching that supports time warping in large sequence databases. Time warping enables finding sequences with similar patterns even when they are of different lengths. In earlier work, we suggested an efficient method for whole matching under time warping. This method constructs a multidimensional index on a set of feature vectors, which are invariant to time warping, from data sequences. For filtering at feature space, it also applies a lower-bound function, which consistently underestimates the time warping distance as well as satisfies the triangular inequality. In this paper, we incorporate the prefix-querying approach based on sliding windows into the earlier approach. For indexing, we extract a feature vector from every subsequence inside a sliding window and construct a multi-dimensional index using a feature vector as indexing attributes. For query precessing, we perform a series of index searches using the feature vectors of qualifying query prefixes. Our approach provides effective and scalable subsequence matching even with a large volume of a database. We also prove that our approach does not incur false dismissal. To verily the superiority of our method, we perform extensive experiments. The results reseal that our method achieves significant speedup with real-world S&P 500 stock data and with very large synthetic data.

  • PDF

시계열 데이타 클러스터링에서 푸리에 진폭 기반의 프라이버시 보호 (Privacy-Preserving Clustering on Time-Series Data Using Fourier Magnitudes)

  • 김혜숙;문양세
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.481-494
    • /
    • 2008
  • 본 논문에서는 시계열 데이타 클러스터링에서 DFT 진폭 기반의 프라이버시 보호 기법을 제안한다. 기존의 프라이버시 보호 연구인 DFT 계수 기법은 원본과 유사한 데이타가 복원될 수 있어 프라이버시 보호 측면에서 큰 문제점이 있다. 반면에, 제안한 DFT 진폭 기법은 DFT 변환 후에 위상을 제외한 진폭만을 사용함으로써 원본 데이타를 복원하기 매우 어려운 특징을 가진다. 본 논문에서는 우선 기존의 DFT 계수 기법이 복원이 용이한 함수이고, 제안한 DFT 진폭 기법이 복원이 어려운 함수임을 체계적으로 설명한다. 다음으로, 클러스터링 정확도를 대신하고 진폭을 선택하기 위한 척도로서 거리-순서 보존정도의 개념을 제안한다. 거리-순서 보존 정도는 객체들의 상대적 순서가 클러스터링 보호 함수의 적용전후에 얼마나 보존되는지의 척도를 나타낸다. 본 논문에서는 이러한 거리-순서 보존 정도의 개념을 사용하여 DFT 진폭 기법에서 진폭을 선택하는 탐욕적 전략들을 제시한다. 즉, 제안한 탐욕적 전략은 거리-순서 보존 정도를 극대화하는 방향으로 DFT 진폭을 선택하여, 궁극적으로 클러스터링 정확도를 높이고자 하는 방법이다. 마지막으로 실험을 통해 제안한 거리-순서 보존 정도가 클러스터링 정확도를 대신할 수 있는 척도임을 보인다. 또한, 제안한 DFT 진폭 기법의 탐욕적 전략들이 기존의 DFT 계수 기법에 비해 정확도가 크게 떨어지지 않음을 확인한다. 이 같은 결과를 달 때, 제안한 DFT 진폭 기법은 DFT 계수 기법에 비해 프라이버시 보호 정도를 크게 개선했을 뿐 아니라 비교적 정확한 클러스터링 정확도를 보이는 우수한 연구 결과라 사료된다.

시계열 데이터베이스에서 복수의 모델을 지원하는 모양 기반 서브시퀀스 검색 (Shape-Based Subsequence Retrieval Supporting Multiple Models in Time-Series Databases)

  • 원정임;윤지희;김상욱;박상현
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.577-590
    • /
    • 2003
  • 모양 기반 검색이란 실제 요소 값과 관계없이 질의 시퀀스와 유사한 모양을 갖는 시퀀스(서브시퀀스)를 데이터베이스 내에서 검색하여 내는 연산이다. 본 논문에서는 시계열 데이터베이스에서의 모양 기반 검색을 위한 유연성 있는 새로운 유사 모델을 정의하고, 이 유사 모델을 지원하기 위한 인덱싱 및 질의 처리 방안을 제시한다. 제안된 유사 모델에서는 정규화, 이동 평균, 타임 워핑 등 다양한 변환을 지원한다. 특히 최종 유사 정도를 계산하기 위하여 사용되는$L_p$거리 함수론 사용자가 임의로 지정하도록 함으로써 응용에서 선호하는 유사 모델을 반영할 수 있다. 또한 이러한 모양 기반 검색을 효과적으로 지원하기 위한 압축된 서브시퀀스 트리 구조를 제안하고, 이를 기반으로 하는 효율적인 질의 처리 기법을 제시한다. 실험 결과에 의하면 제안된 기법은 진의 시퀀스와 모양이 유사한 서브시퀀스들을 사용자에 의하여 선택된 거리 함수를 사용하여 성공적으로 검색할 뿐 아니라, 순차 검색과 비교하여 거리 함수 선택에 따라 수 십배에서 수 백배까지의 성능 개선 효과를 갖는 것으로 나타났다.