• 제목/요약/키워드: Time-Series clustering

검색결과 185건 처리시간 0.018초

Clustering Algorithm for Time Series with Similar Shapes

  • Ahn, Jungyu;Lee, Ju-Hong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권7호
    • /
    • pp.3112-3127
    • /
    • 2018
  • Since time series clustering is performed without prior information, it is used for exploratory data analysis. In particular, clusters of time series with similar shapes can be used in various fields, such as business, medicine, finance, and communications. However, existing time series clustering algorithms have a problem in that time series with different shapes are included in the clusters. The reason for such a problem is that the existing algorithms do not consider the limitations on the size of the generated clusters, and use a dimension reduction method in which the information loss is large. In this paper, we propose a method to alleviate the disadvantages of existing methods and to find a better quality of cluster containing similarly shaped time series. In the data preprocessing step, we normalize the time series using z-transformation. Then, we use piecewise aggregate approximation (PAA) to reduce the dimension of the time series. In the clustering step, we use density-based spatial clustering of applications with noise (DBSCAN) to create a precluster. We then use a modified K-means algorithm to refine the preclusters containing differently shaped time series into subclusters containing only similarly shaped time series. In our experiments, our method showed better results than the existing method.

Comparison of time series clustering methods and application to power consumption pattern clustering

  • Kim, Jaehwi;Kim, Jaehee
    • Communications for Statistical Applications and Methods
    • /
    • 제27권6호
    • /
    • pp.589-602
    • /
    • 2020
  • The development of smart grids has enabled the easy collection of a large amount of power data. There are some common patterns that make it useful to cluster power consumption patterns when analyzing s power big data. In this paper, clustering analysis is based on distance functions for time series and clustering algorithms to discover patterns for power consumption data. In clustering, we use 10 distance measures to find the clusters that consider the characteristics of time series data. A simulation study is done to compare the distance measures for clustering. Cluster validity measures are also calculated and compared such as error rate, similarity index, Dunn index and silhouette values. Real power consumption data are used for clustering, with five distance measures whose performances are better than others in the simulation.

계층 구조 클러스터링 알고리즘 설계 및 그 응용 (Design of Hierarchically Structured Clustering Algorithm and its Application)

  • 방영근;박하용;이철희
    • 산업기술연구
    • /
    • 제29권B호
    • /
    • pp.17-23
    • /
    • 2009
  • In many cases, clustering algorithms have been used for extracting and discovering useful information from non-linear data. They have made a great effect on performances of the systems dealing with non-linear data. Thus, this paper presents a new approach called hierarchically structured clustering algorithm, and it is applied to the prediction system for non-linear time series data. The proposed hierarchically structured clustering algorithm (called HCKA: Hierarchical Cross-correlation and K-means clustering Algorithms) in which the cross-correlation and k-means clustering algorithm are combined can accept the correlationship of non-linear time series as well as statistical characteristics. First, the optimal differences of data are generated, which can suitably reveal the characteristics of non-linear time series. Second, the generated differences are classified into the upper clusters for their predictors by the cross-correlation clustering algorithm, and then each classified differences are classified again into the lower fuzzy sets by the k-means clustering algorithm. As a result, the proposed method can give an efficient classification and improve the performance. Finally, we demonstrates the effectiveness of the proposed HCKA via typical time series examples.

  • PDF

스마트 그리드에서의 시계열 군집분석을 통한 전력수요 예측 연구 (A study on electricity demand forecasting based on time series clustering in smart grid)

  • 손흥구;정상욱;김삼용
    • 응용통계연구
    • /
    • 제29권1호
    • /
    • pp.193-203
    • /
    • 2016
  • 본 논문은 ICT기반 시장에서의 수요관리시스템에서의 핵심 요소인 전력 수요 예측을 위하여, 전체 사용량을 기반으로 예측 하는 방식이 아닌, 시계열 기반 군집분석을 통한 군집별 예측량의 결합을 실시하였다. 시계열 군집 분석 방법으로서 Periodogram 기반의 정규화 군집분석, 예측 기반의 군집분석, DTW(Dynamic Time Warping)를 이용하여 군집화를 시도하였으며, 군집 별 수요예측 모형으로서 DSHW(Double Seasonal Holt-Winters) 모형, TBATS(Trigonometric, Box-Cox transform, ARMA errors, Trend and Seasonal components) 모형, FARIMA(Fractional ARIMA) 모형을 사용하여 예측을 실시하였다. 전체 사용량을 기반으로 예측 하는 방식이 아닌, 군집분석을 통한 군집별 예측량의 결합이 더 낮은 MAPE로 나타남에 따라 우수한 예측 방법으로 판단되었다.

불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현 (Time series representation for clustering using unbalanced Haar wavelet transformation)

  • 이세훈;백창룡
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.707-719
    • /
    • 2018
  • 시계열 데이터의 분류와 군집화를 효율적으로 수행하기 위해 다양한 시계열 표현 방법들이 제안되었다. 본 연구는 Lin 등 (2007)이 제안한 국소 평균 근사를 이용하여 시계열의 차원을 축소한 후 심볼릭 자료로 이산화하는 symbolic aggregate approximation (SAX) 방법의 개선에 대해서 연구하였다. SAX는 국소 평균 근사를 할 때 등간격으로 임의의 개수의 세그먼트로 나누어 평균을 계산하여 세그먼트의 개수에 그 성능이 크게 좌우된다. 따라서 본 논문은 불균형 Haar 웨이블릿 변환을 통해 국소 평균 수준을 등간격이 아니라 자료의 특성을 반영하여 자료 의존적으로 선택하게 함으로써 시계열의 차원을 효과적으로 축소함과 동시에 정보의 손실을 줄이는 방법에 대해서 제안한다. 제안한 방법은 실증 자료 분석을 통해 SAX 방법을 개선시킴을 확인하였다.

제조 시계열 데이터를 위한 진화 연산 기반의 하이브리드 클러스터링 기법 (Evolutionary Computation-based Hybird Clustring Technique for Manufacuring Time Series Data)

  • 오상헌;안창욱
    • 스마트미디어저널
    • /
    • 제10권3호
    • /
    • pp.23-30
    • /
    • 2021
  • 제조 시계열 데이터 클러스터링 기법은 제조 대용량 데이터 기반 군집화를 통한 설비 및 공정 이상 탐지 분류를 위한 중요한 솔루션이지만 기존 정적 데이터 대상 클러스터링 기법을 시계열 데이터에 적용함에 있어 낮은 정확도를 가지는 단점이 있다. 본 논문에서는 진화 연산 기반 시계열 군집 분석 접근 방식을 제시하여 기존 클러스터링 기술에 대한 정합성 향상하고자 한다. 이를 위하여 먼저 제조 공정 결과 이미지 형상을 선형 스캐닝을 활용하여 1차원 시계열 데이터로 변환하고 해당 변환 데이터 대상으로 Pearson 거리 매트릭을 기반으로 계층적 군집 분석 및 분할 군집 분석에 대한 최적 하위클러스터를 도출한다. 해당 최적 하위클러스터 대상 유전 알고리즘을 활용하여 유사도가 최소화되는 최적의 군집 조합을 도출한다. 그리고 실제 제조 과정 이미지 대상으로 기존 클러스터링 기법과 성능 비교를 통하여 제안된 클러스터링 기법의 성능 우수성을 검증한다.

Improved Linear Dynamical System for Unsupervised Time Series Recognition

  • Thi, Ngoc Anh Nguyen;Yang, Hyung-Jeong;Kim, Soo-Hyung;Lee, Guee-Sang;Kim, Sun-Hee
    • International Journal of Contents
    • /
    • 제10권1호
    • /
    • pp.47-53
    • /
    • 2014
  • The paper considers the challenges involved in measuring the similarities between time series, such as time shifts and the mixture of frequencies. To improve recognition accuracy, we investigate an improved linear dynamical system for discovering prominent features by exploiting the evolving dynamics and correlations in a time series, as the quality of unsupervised pattern recognition relies strongly on the extracted features. The proposed approach yields a set of compact extracted features that boosts the accuracy and reliability of clustering for time series data. Experimental evaluations are carried out on time series applications from the scientific, socio-economic, and business domains. The results show that our method exhibits improved clustering performance compared to conventional methods. In addition, the computation time of the proposed approach increases linearly with the length of the time series.

시계열자료 눈집방법의 비교연구 (Comparison Study of Time Series Clustering Methods)

  • 홍한움;박민정;조신섭
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1203-1214
    • /
    • 2009
  • 본 논문에서는 시계열자료의 군집분석을 위해 시간영역과 진동수영역에서의 군집 방법들을 소개하고 각 방법들의 장단점에 대해 논의하였다. KOSPI 200에 속한 15개 기업의 일별 주가자료률 이용한 비교분석 결과 비모수적인 방법인 웨이블릿을 이용한 군집분석이 가장 좋은 결과를 보였다. 비정상 시계열자료의 경우 차분 보다는 EMD를 이용하여 추세를 제거하는 방법이 스펙트럼 밀도함수를 이용한 군집분석에 더 효율적이었다.

K-shape 군집화 기반 블랙-리터만 포트폴리오 구성 (Black-Litterman Portfolio with K-shape Clustering)

  • 김예지;조풍진
    • 산업경영시스템학회지
    • /
    • 제46권4호
    • /
    • pp.63-73
    • /
    • 2023
  • This study explores modern portfolio theory by integrating the Black-Litterman portfolio with time-series clustering, specificially emphasizing K-shape clustering methodology. K-shape clustering enables grouping time-series data effectively, enhancing the ability to plan and manage investments in stock markets when combined with the Black-Litterman portfolio. Based on the patterns of stock markets, the objective is to understand the relationship between past market data and planning future investment strategies through backtesting. Additionally, by examining diverse learning and investment periods, it is identified optimal strategies to boost portfolio returns while efficiently managing associated risks. For comparative analysis, traditional Markowitz portfolio is also assessed in conjunction with clustering techniques utilizing K-Means and K-Means with Dynamic Time Warping. It is suggested that the combination of K-shape and the Black-Litterman model significantly enhances portfolio optimization in the stock market, providing valuable insights for making stable portfolio investment decisions. The achieved sharpe ratio of 0.722 indicates a significantly higher performance when compared to other benchmarks, underlining the effectiveness of the K-shape and Black-Litterman integration in portfolio optimization.

정보기준과 다중 중심점을 활용한 클러스터별 예측 (Prediction on Clusters by using Information Criterion and Multiple Seeds)

  • 조영희;이계성
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권6호
    • /
    • pp.145-152
    • /
    • 2010
  • 본 연구에서는 시계열 자료를 베이지안 정보기준을 통해 클러스터링 한다. 보다 안정적인 클러스터를 생산하기 위해 다중 중심점을 모델링한 후 이를 이용하여 클러스터를 생성시킨다. 대상 시계열 자료에 대해 예측할 경우 클러스터에 속한 시계열 자료 중 가장 유사한 시계열 자료를 선택하여 모델링한다. 모델로부터 마코프 규칙을 유도해 내고 이 규칙을 이용해 예측정확도를 측정한다. 시계열 자료를 단독으로 모델링한 후 예측한 결과보다 클러스터에 속한 유사시계열 모델링을 통한 예측정확도가 좀 더 높았음을 확인하였다.