• 제목/요약/키워드: Time-series Similarity

검색결과 102건 처리시간 0.028초

이상탐지 기반의 효율적인 시계열 유사도 측정 및 순위화 (Efficient Time-Series Similarity Measurement and Ranking Based on Anomaly Detection)

  • 최지현;안현
    • 인터넷정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.39-47
    • /
    • 2024
  • 시계열 분석은 시간 순서로 정렬된 데이터로부터 다양한 정보와 인사이트를 발견하기 위한 방법으로 많은 조직에서 비즈니스 문제 해결을 위해 적용하고 있다. 그중에서 시계열 유사도 측정은 패턴이 비슷한 시계열들을 식별하기 위한 단계로서 시계열 검색 및 군집화와 같은 시계열 분석 응용에서 매우 중요하다. 본 연구에서는 전체 시계열이 아닌 이상치들을 중심으로 시계열 유사도 측정을 계산 효율적으로 수행하는 방법을 제안한다. 이와 관련하여 이상탐지를 통해 추출된 서브시퀀스 집합에 대한 유사도 측정 결과와 시계열 전체에 대한 유사도 측정 결과 사이의 순위 상관관계를 측정 및 분석하여 제안 방법을 검증한다. 실험 결과로써, 주식 종목 시계열 데이터에 이상치 비율 10% 을 적용한 유사도 측정으로부터 최대 0.9 이상의 스피어만 순위 상관계수를 확인하였다. 결론적으로 제안 방법을 통해 시계열 유사도 측정에 소요되는 계산량을 유의미하게 절감하는 동시에 신뢰 가능한 시계열 검색 및 군집화 결과를 기대할 수 있다.

다중속성 시계열 데이타베이스의 효율적인 유사 검색 (Efficient Similarity Search in Multi-attribute Time Series Databases)

  • 이상준
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.727-732
    • /
    • 2007
  • 시계열에 대한 색인 및 검색 연구는 하나의 속성으로 구성된 시계열에 대하여 주로 수행되어 왔다. 그러나 음악, 비디오 등의 멀티미디어 데이타베이스는 다중속성 시계열 데이타베이스에서 유사 검색을 다룰 수 있어야 한다. 기존의 다중속성 시계열 데이타베이스에 대한 연구는 두 다중속성 시퀀스간의 유사도로 속성 간의 거리의 누적을 사용하고 있기에, 개별적인 속성 시퀀스에 대한 정보를 상실하게 된다. 본 연구에서는 이러한 문제를 해결하기 위해 속성 시퀀스 측면에서 다중속성 시계열 데이타베이스의 유사검색 기법을 제안한다. 제안된 기법은 검색 공간을 효율적으로 줄일 수 있으며, 착오 누락이 없음을 보장한다. 또한 실험을 통해 제안된 기법의 성능 향상을 확인하였다.

DYNAMIC TIME WARPING FOR EFFICIENT RANGE QUERY

  • Long Chuyu Li;Jin Sungbo Seo;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.294-297
    • /
    • 2005
  • Time series are comprehensively appeared and developed in many applications, ranging from science and technology to business and entertainrilent. Similarity search under time warping has attracted much interest between the time series in the large sequence databases. DTW (Dynamic Time Warping) is a robust distance measure and is superior to Euclidean distance for time series, allowing similarity matching although one of the sequences can elastic shift along the time axis. Nevertheless, it is more unfortunate that DTW has a quadratic time. Simultaneously the false dismissals are come forth since DTW distance does not satisfy the triangular inequality. In this paper, we propose an efficient range query algorithmbased on a new similarity search method under time warping. When our range query applies for this method, it can remove the significant non-qualify time series as early as possible before computing the accuracy DTW distance. Hence, it speeds up the calculation time and reduces the number of scanning the time series. Guaranteeing no false dismissals, the lower bounding function is advised that consistently underestimate the DTW distance and satisfy the triangular inequality. Through the experimental result, our range query algorithm outperforms the existing others.

  • PDF

Vegetation Classification from Time Series NOAA/AVHRR Data

  • Yasuoka, Yoshifumi;Nakagawa, Ai;Kokubu, Keiko;Pahari, Krishna;Sugita, Mikio;Tamura, Masayuki
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 1999년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.429-432
    • /
    • 1999
  • Vegetation cover classification is examined based on a time series NOAA/AVHRR data. Time series data analysis methods including Fourier transform, Auto-Regressive (AR) model and temporal signature similarity matching are developed to extract phenological features of vegetation from a time series NDVI data from NOAA/AVHRR and to classify vegetation types. In the Fourier transform method, typical three spectral components expressing the phenological features of vegetation are selected for classification, and also in the AR model method AR coefficients are selected. In the temporal signature similarity matching method a new index evaluating the similarity of temporal pattern of the NDVI is introduced for classification.

  • PDF

동물 및 임상 시험의 시계열 프로파일 데이터 비교를 위한 유사성 지수 개발 (Development of a New Similarity Index to Compare Time-series Profile Data for Animal and Human Experiments)

  • 이예경;이현정;장현애;신상문
    • 품질경영학회지
    • /
    • 제49권2호
    • /
    • pp.145-159
    • /
    • 2021
  • Purpose: A statistical similarity evaluation to compare pharmacokinetics(PK) profile data between nonclinical and clinical experiments has become a significant issue on many drug development processes. This study proposes a new similarity index by considering important parameters, such as the area under the curve(AUC) and the time-series profile of various PK data. Methods: In this study, a new profile similarity index(PSI) by using the concept of a process capability index(Cp) is proposed in order to investigate the most similar animal PK profile compared to the target(i.e., Human PK profile). The proposed PSI can be calculated geometric and arithmetic means of all short term similarity indices at all time points on time-series both animal and human PK data. Designed simulation approaches are demonstrated for a verification purpose. Results: Two different simulation studies are conducted by considering three variances(i.e., small, medium, and large variances) as well as three different characteristic types(smaller the better, larger the better, nominal the best). By using the proposed PSI, the most similar animal PK profile compare to the target human PK profile can be obtained in the simulation studies. In addition, a case study represents differentiated results compare to existing simple statistical analysis methods(i.e., root mean squared error and quality loss). Conclusion: The proposed PSI can effectively estimate the level of similarity between animal, human PK profiles. By using these PSI results, we can reduce the number of animal experiments because we only focus on the significant animal representing a high PSI value.

최단거리에 기반한 시계열 데이타의 효율적인 유사 검색 (Efficient Similarity Search in Time Series Databases Based on the Minimum Distance)

  • 이상준;권동섭;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.533-535
    • /
    • 2003
  • The Euclidean distance is sensitive to the absolute offsets of time sequences, so it is not a suitable similarity measure in terms of shape. In this paper. we propose an indexing scheme for efficient matching and retrieval of time sequences based on the minimum distance. The minimum distance can give a better estimation of similarity in shape between two time sequences. Our indexing scheme can match time sequences of similar shapes irrespective of their vortical positions and guarantees no false dismissals

  • PDF

Parameterization of Along-Wind Dispersion Coefficients based on Field and Wind Tunnel Data

  • Kang, Sung-Dae
    • Environmental Sciences Bulletin of The Korean Environmental Sciences Society
    • /
    • 제10권S_1호
    • /
    • pp.11-22
    • /
    • 2001
  • Observations related to the along-wind dispersion of puffs were collected from 12 field sites and from a wind tunnel experiment and used to test simple similarity relations. Because most of the date made use of concentration time series observation from fixed monitors, the basic observation was t, the standard deviation of the concentration time series. This data also allowed the travel time, t, from the source to the receptor to be estimated, from which the puff advective speed ue, could be determined. The along-wind dispersion coefficient, x, was then assumed to equal tue. The data, which extended over four orders of magnitude, supported the similarity relations t=0.1 t and x=1.8 $u^*$t, where t is the travel time and $u^*$ is the friction velocity. About 50% of the observations were within a factor of two of the predictions based on the similarity relations.

  • PDF

다채널 생체전위 측정을 통한 족삼리 주변 피부의 전위 변화 유사도 연구 (The Multi-channel Bio-potential Similarity Research of Acupuncture Point (ST36) and Peripheral Region)

  • 이상훈;조성진;최광호;류연희;권오상;최선미
    • Korean Journal of Acupuncture
    • /
    • 제28권4호
    • /
    • pp.41-48
    • /
    • 2011
  • Objectives : This study aimed to explore the passive multi-channel time series analysis method by measuring bio-potentials of acupuncture point and the peripheral region Methods : Bio-potential was measured at ST36 and the peripherical region of ST36 of 5 healthy volunteers at three times. The diagram of the potential changes over time were smoothed by moving average method and similarities of ST36 and the other points were calculated. Results : In the normal weight group, bio-potential similarity tended to decrease in proportion to the distance from the acupuncture point. In the obesity group, bio-potential similarity appeared in a very wide area. Bio-potential similarity had positive correlation with BMI value. Conclusions : The passive multi-channel time series analysis method showed the possibility be appropriate for the electrical characteristics study of meridians.

CRM을 위한 은닉 마코프 모델과 유사도 검색을 사용한 시계열 데이터 예측 (Time-Series Data Prediction using Hidden Markov Model and Similarity Search for CRM)

  • 조영희;전진호;이계성
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.19-28
    • /
    • 2009
  • 시계열의 예측에 대한 문제는 오랫동안 많은 연구자들의 연구의 대상이었으며 예측을 위한 많은 방법이 제안되었다. 본 논문에서는 은닉 마코프 모델(Hidden Markov Model)과 우도(likelihood)를 사용한 유사도 검색을 통하여 향후 시계열 데이터의 운행 방향을 예측하는 방법을 제안한다. 이전에 기록된 시계열 데이터에서 질의 시퀸스(sequence)와 유사한 부분을 검색하고 유사 부분의 서브 시퀸스를 사용하여 시계열을 예측하는 방법이다. 먼저 주어진 질의 시퀸스에 대한 은닉 마코프 모델을 작성한다. 그리고 시계열 데이터에서 순차적으로 일정 길이의 서브 시퀸스를 추출하고 추출된 서브 시퀸스와 작성된 은닉 마코프 모델과의 우도를 계산한다. 시계열 데이터로부터 추출된 서브 시퀸스 중에서 우도가 가장 높은 시퀸스를 유사 시퀸스로 결정하고 결정된 부분 이후의 값을 추출하여 질의 시퀸스 이후의 예측 값을 추정한다. 실험 결과 예측 값과 실제 값이 상당한 유사성을 나타내었다. 제안된 방법의 유효성은 코스피(KOSPI) 종합주가지수를 대상으로 실험하여 검증한다.

Classification of Time-Series Data Based on Several Lag Windows

  • Kim, Hee-Young;Park, Man-Sik
    • Communications for Statistical Applications and Methods
    • /
    • 제17권3호
    • /
    • pp.377-390
    • /
    • 2010
  • In the case of time-series analysis, it is often more convenient to rely on the frequency domain than the time domain. Spectral density is the core of the frequency-domain analysis that describes autocorrelation structures in a time-series process. Possible ways to estimate spectral density are to compute a periodogram or to average the periodogram over some frequencies with (un)equal weights. This can be an attractive tool to measure the similarity between time-series processes. We employ the metrics based on a smoothed periodogram proposed by Park and Kim (2008) for the classification of different classes of time-series processes. We consider several lag windows with unequal weights instead of a modified Daniel's window used in Park and Kim (2008). We evaluate the performance under various simulation scenarios. Simulation results reveal that the metrics used in this study split the time series into the preassigned clusters better than do the raw-periodogram based ones proposed by Caiado et al. 2006. Our metrics are applied to an economic time-series dataset.