• Title/Summary/Keyword: 시계열 클러스터링

Search Result 49, Processing Time 0.023 seconds

A Study on Time Shifted Time Series Data Clustering (시차를 고려한 시계열 클러스터링 방법에 관한 연구)

  • Jeong, Jae-Yong;Lee, Ju-Hong;Song, Jae-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.382-384
    • /
    • 2020
  • 데이터 클러스터링은 데이터의 숨겨진 패턴을 찾아낸다. 시계열 데이터에서 시차가 존재하는 데이터를 클러스터링하는 것은 데이터의 미래 패턴을 찾아내기 위해서 사용한다. 데이터 클러스터링을 수행하기 위한 여러 가지 Metric이 존재하지만, 시계열 데이터의 노이즈로 인해서 클러스터링을 수행하는 Metric을 설정하는데 제약이 존재한다. 본 논문은 기존 시계열 데이터가 가지고 있는 노이즈를 PIP 기법을 사용하여 제거하고, 노이즈가 없는 시계열 데이터를 클러스터링하기 위한 효율적인 새로운 Metric을 제안한다.

Evolutionary Computation-based Hybird Clustring Technique for Manufacuring Time Series Data (제조 시계열 데이터를 위한 진화 연산 기반의 하이브리드 클러스터링 기법)

  • Oh, Sanghoun;Ahn, Chang Wook
    • Smart Media Journal
    • /
    • v.10 no.3
    • /
    • pp.23-30
    • /
    • 2021
  • Although the manufacturing time series data clustering technique is an important grouping solution in the field of detecting and improving manufacturing large data-based equipment and process defects, it has a disadvantage of low accuracy when applying the existing static data target clustering technique to time series data. In this paper, an evolutionary computation-based time series cluster analysis approach is presented to improve the coherence of existing clustering techniques. To this end, first, the image shape resulting from the manufacturing process is converted into one-dimensional time series data using linear scanning, and the optimal sub-clusters for hierarchical cluster analysis and split cluster analysis are derived based on the Pearson distance metric as the target of the transformation data. Finally, by using a genetic algorithm, an optimal cluster combination with minimal similarity is derived for the two cluster analysis results. And the performance superiority of the proposed clustering is verified by comparing the performance with the existing clustering technique for the actual manufacturing process image.

Prediction on Clusters by using Information Criterion and Multiple Seeds (정보기준과 다중 중심점을 활용한 클러스터별 예측)

  • Cho, Young-Hee;Lee, Gye-Sung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.10 no.6
    • /
    • pp.145-152
    • /
    • 2010
  • Bayesian information criterion is used to do clustering for time series data. To acquire more stable clusters, multiple seeds are chosen first for the algorithm. Once clusters being set up, most similar time series data in the cluster to the one under consideration are to be chosen for prediction test. These chosen time series data are used to extract valid Markov rules by which we test the prediction accuracy. We confirmed that clustering with multiple seeds led to better prediction performance.

Data Quality Management Method base on Seasonality from Time series Data (시계열 데이터 특성 기반 품질 관리 방법 연구)

  • Lee, Jihoon;Moon, Jaewon;Hwang, Jisoo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.93-96
    • /
    • 2022
  • IoT 기기의 보급 및 확산으로 많은 산업군에서 이를 바탕으로 시계열 데이터를 획득하고 분석하려는 시도가 확대되고 있다. 시간의 흐름에 따라 저장된 데이터들은 주기에 따라 특정 패턴을 갖는 경우가 많으며 이러한 패턴을 파악한다면 주요 산업군의 의사 결정에 도움이 된다. 그러나 IoT 기기의 수집 오류 및 네트워크 환경에 의해 대부분의 시계열 데이터들은 누락 데이터, 이상 데이터를 갖고 있으며 이를 처리하지 않고 분석할 경우 오히려 잘못된 결과를 초래한다. 본 논문에서는 패턴 파악을 위해 '시간, 일, 주, 월, 년' 등 시간의 주기를 기준으로 데이터를 분할하며 이에 기반하여 데이터셋을 재구성하고 활용 가능한 데이터와 불가능한 데이터로 구분한다. 선별된 데이터셋은 클러스터링에 적용하였으며, 제안하는 방법을 적용할 경우 주기를 갖는 시계열 데이터를 활용하는 분석 및 학습에서 더 나은 결과를 보임을 확인하였다.

  • PDF

Dimension Reduction in Time-series Gene Expression Data using incremental PCA (점진적 주성분 분석을 이용한 시계열 유전자 발현 데이터의 효율적인 차원 축소)

  • Kim, Sun-Hee;Kim, Man-Sun;Yang, Hyung-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.733-736
    • /
    • 2007
  • 최근 생명 공학 기술의 발달로 마이크로 단위의 실험이 가능해지고 하나의 칩상에 수 만개의 유전자들의 발현 양상을 보다 쉽게 관찰할 수 있게 되었다. DNA 칩 기술에 의해 얻어지는 마이크로어레이(microarray) 데이터는 세포나 조직 내의 유전자 발현도(expression level)를 측정한 것으로 질병 진단이나 유전자 기능 예측 등에 이용되고 있다. 본 논문에서는 대량의 시계열 마이크로어레이 데이터 분석을 위해 효율적으로 데이터의 차원을 판단하는 점진적 주성분 분석을 이용하여 데이터의 차원을 축소 한다. 제안된 방법은 실제 시계열 마이크로어레이 데이터인 yeast cell cycle 데이터에 적용되었고, 데이터 차원 축소에 대한 효율성을 검증하기 위해 클러스터링을 수행하였다. 그 결과 데이터를 축소하여 클러스터링을 수행한 경우 학습 성능이 향상 된 결과를 보였다.

Noise Averaging Effect on Privacy-Preserving Clustering of Time-Series Data (시계열 데이터의 프라이버시 보호 클러스터링에서 노이즈 평준화 효과)

  • Moon, Yang-Sae;Kim, Hea-Suk
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.3
    • /
    • pp.356-360
    • /
    • 2010
  • Recently, there have been many research efforts on privacy-preserving data mining. In privacy-preserving data mining, accuracy preservation of mining results is as important as privacy preservation. Random perturbation privacy-preserving data mining technique is known to well preserve privacy. However, it has a problem that it destroys distance orders among time-series. In this paper, we propose a notion of the noise averaging effect of piecewise aggregate approximation(PAA), which can be preserved the clustering accuracy as high as possible in time-series data clustering. Based on the noise averaging effect, we define the PAA distance in computing distance. And, we show that our PAA distance can alleviate the problem of destroying distance orders in random perturbing time series.

Modeling and Prediction of Time Series Data based on Markov Model (마코프 모델에 기반한 시계열 자료의 모델링 및 예측)

  • Cho, Young-Hee;Lee, Gye-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.2
    • /
    • pp.225-233
    • /
    • 2011
  • Stock market prices, economic indices, trends and changes of social phenomena, etc. are categorized as time series data. Research on time series data has been prevalent for a while as it could not only lead to valuable representation of data but also provide future trends as well as changes in direction. We take a conventional model based approach, known as Markov chain modeling for the prediction on stock market prices. To improve prediction accuracy, we apply Markov modeling over carefully selected intervals of training data to fit the trend under consideration to the model. Another method we take is to apply clustering to data and build models of the resultant clusters. We confirmed that clustered models are better off in predicting, however, with the loss of prediction rate.

Clustering Performance Analysis for Time Series Data: Wavelet vs. Autoencoder (시계열 데이터에 대한 클러스터링 성능 분석: Wavelet과 Autoencoder 비교)

  • Hwang, Woosung;Lim, Hyo-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.585-588
    • /
    • 2018
  • 시계열 데이터의 특징을 추출하여 분석하는 과정에서 시게열 데이터가 가지는 고차원성은 차원의 저주(Course of Dimensionality)로 인해 데이터내의 유효한 정보를 찾는데 어려움을 만든다. 이러한 문제를 해결하기 위해 차원 축소 기법(dimensionality reduction)이 널리 사용되고 있지만, 축소 과정에서 발생하는 정보의 희석으로 인하여 시계열 데이터에 대한 군집화(clustering)등을 수행하는데 있어서 성능의 변화를 가져온다. 본 논문은 이러한 현상을 관찰하기 위해 이산 웨이블릿 변환(Discrete Wavelet Transform:DWT)과 오토 인코더(AutoEncoder)를 차원 축소 기법으로 활용하여 시계열 데이터의 차원을 압축 한 뒤, 압축된 데이터를 K-평균(K-means) 알고리즘에 적용하여 군집화의 효율성을 비교하였다. 성능 비교 결과, DWT는 압축된 차원수 그리고 오토인코더는 시계열 데이터에 대한 충분한 학습이 각각 보장된다면 좋은 군집화 성능을 보이는 것을 확인하였다.

Privacy-Preserving Clustering on Time-Series Data Using Fourier Magnitudes (시계열 데이타 클러스터링에서 푸리에 진폭 기반의 프라이버시 보호)

  • Kim, Hea-Suk;Moon, Yang-Sae
    • Journal of KIISE:Databases
    • /
    • v.35 no.6
    • /
    • pp.481-494
    • /
    • 2008
  • In this paper we propose Fourier magnitudes based privacy preserving clustering on time-series data. The previous privacy-preserving method, called DFT coefficient method, has a critical problem in privacy-preservation itself since the original time-series data may be reconstructed from privacy-preserved data. In contrast, the proposed DFT magnitude method has an excellent characteristic that reconstructing the original data is almost impossible since it uses only DFT magnitudes except DFT phases. In this paper, we first explain why the reconstruction is easy in the DFT coefficient method, and why it is difficult in the DFT magnitude method. We then propose a notion of distance-order preservation which can be used both in estimating clustering accuracy and in selecting DFT magnitudes. Degree of distance-order preservation means how many time-series preserve their relative distance orders before and after privacy-preserving. Using this degree of distance-order preservation we present greedy strategies for selecting magnitudes in the DFT magnitude method. That is, those greedy strategies select DFT magnitudes to maximize the degree of distance-order preservation, and eventually we can achieve the relatively high clustering accuracy in the DFT magnitude method. Finally, we empirically show that the degree of distance-order preservation is an excellent measure that well reflects the clustering accuracy. In addition, experimental results show that our greedy strategies of the DFT magnitude method are comparable with the DFT coefficient method in the clustering accuracy. These results indicate that, compared with the DFT coefficient method, our DFT magnitude method provides the excellent degree of privacy-preservation as well as the comparable clustering accuracy.

Determining on Model-based Clusters of Time Series Data (시계열데이터의 모델기반 클러스터 결정)

  • Jeon, Jin-Ho;Lee, Gye-Sung
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.6
    • /
    • pp.22-30
    • /
    • 2007
  • Most real word systems such as world economy, stock market, and medical applications, contain a series of dynamic and complex phenomena. One of common methods to understand these systems is to build a model and analyze the behavior of the system. In this paper, we investigated methods for best clustering over time series data. As a first step for clustering, BIC (Bayesian Information Criterion) approximation is used to determine the number of clusters. A search technique to improve clustering efficiency is also suggested by analyzing the relationship between data size and BIC values. For clustering, two methods, model-based and similarity based methods, are analyzed and compared. A number of experiments have been performed to check its validity using real data(stock price). BIC approximation measure has been confirmed that it suggests best number of clusters through experiments provided that the number of data is relatively large. It is also confirmed that the model-based clustering produces more reliable clustering than similarity based ones.