• 제목/요약/키워드: piecewise aggregate approximation

검색결과 5건 처리시간 0.02초

불균형 Haar 웨이블릿 변환을 이용한 군집화를 위한 시계열 표현 (Time series representation for clustering using unbalanced Haar wavelet transformation)

  • 이세훈;백창룡
    • 응용통계연구
    • /
    • 제31권6호
    • /
    • pp.707-719
    • /
    • 2018
  • 시계열 데이터의 분류와 군집화를 효율적으로 수행하기 위해 다양한 시계열 표현 방법들이 제안되었다. 본 연구는 Lin 등 (2007)이 제안한 국소 평균 근사를 이용하여 시계열의 차원을 축소한 후 심볼릭 자료로 이산화하는 symbolic aggregate approximation (SAX) 방법의 개선에 대해서 연구하였다. SAX는 국소 평균 근사를 할 때 등간격으로 임의의 개수의 세그먼트로 나누어 평균을 계산하여 세그먼트의 개수에 그 성능이 크게 좌우된다. 따라서 본 논문은 불균형 Haar 웨이블릿 변환을 통해 국소 평균 수준을 등간격이 아니라 자료의 특성을 반영하여 자료 의존적으로 선택하게 함으로써 시계열의 차원을 효과적으로 축소함과 동시에 정보의 손실을 줄이는 방법에 대해서 제안한다. 제안한 방법은 실증 자료 분석을 통해 SAX 방법을 개선시킴을 확인하였다.

부분 집계 근사법의 MBR-안전 성질을 이용한 효율적인 시계열 서브시퀀스 매칭 (Efficient Time-Series Subsequence Matching Using MBR-Safe Property of Piecewise Aggregation Approximation)

  • 문양세
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.503-517
    • /
    • 2007
  • 본 논문에서는 부분 집계 근사법(Piecewise Aggregation Approximation: PAA)이 MBR-안전(MBR-safe) 성질을 가짐을 보이고, 이를 사용한 효율적인 서브시퀀스 매칭 방법을 제안한다. MBR-안전 변환이란 고차원 MBR을 직접 변환한 저차원 MBR이 개별 고차원 시퀀스가 변환된 저차원 시퀀스를 모두 포함하는 변환을 의미한다. 이와 같은 MBR-안전 변환을 사용하면 고차원 MBR을 직접 저차원 MBR로 변환할 수 있어 유사 시퀀스 매칭에서 필요한 저차원 변환 횟수를 크게 줄일 수 있다. 또한, PAA는 계산이 간단하고 성능이 우수한 저차원 변환으로 알려져 있다. 이에 따라, 본 논문에서는 이들 두 개념의 장점을 통합하기 위하여, 기존의 PAA가 MBR-안전 성질을 가짐을 확인하고, 이를 사용하여 서브시퀀스 매칭의 성능을 개선한다. 본 논문의 공헌은 다음과 같다. 첫째, PAA 기반의 MBR 저차원 변환인 mbrPAA를 제안하고, mbrPAA가 MBR-안전함을 정형적으로 증명한다. 둘째, mbrPAA 기반의 새로운 서브시퀀스 매칭 방법을 제안하고, 이 방법의 정확성을 증명한다. 셋째, 서브시퀀스 매칭에서 엔트리 재사용 성질(entry reuse property)의 개념을 제시하고, 이 개념에 기반하여 고차원 MBR을 효율적으로 구성하는 방법을 제안한다. 넷째, 실험을 통해 mbrPAA의 우수성을 입증한다. 실험 결과, 제안한 mbrPAA는 기존 방법에 비해 저차원 MBR 구성을 평균 24.2배 빠르게 수행하고, 서브시퀀스 매칭 성능을 최대 65.9%까지 향상시킨 것으로 나타났다.

Clustering Algorithm for Time Series with Similar Shapes

  • Ahn, Jungyu;Lee, Ju-Hong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권7호
    • /
    • pp.3112-3127
    • /
    • 2018
  • Since time series clustering is performed without prior information, it is used for exploratory data analysis. In particular, clusters of time series with similar shapes can be used in various fields, such as business, medicine, finance, and communications. However, existing time series clustering algorithms have a problem in that time series with different shapes are included in the clusters. The reason for such a problem is that the existing algorithms do not consider the limitations on the size of the generated clusters, and use a dimension reduction method in which the information loss is large. In this paper, we propose a method to alleviate the disadvantages of existing methods and to find a better quality of cluster containing similarly shaped time series. In the data preprocessing step, we normalize the time series using z-transformation. Then, we use piecewise aggregate approximation (PAA) to reduce the dimension of the time series. In the clustering step, we use density-based spatial clustering of applications with noise (DBSCAN) to create a precluster. We then use a modified K-means algorithm to refine the preclusters containing differently shaped time series into subclusters containing only similarly shaped time series. In our experiments, our method showed better results than the existing method.

심층신경망 모델을 이용한 대기오염망 자료확정 알고리즘 연구 (A Study on the Air Pollution Monitoring Network Algorithm Using Deep Learning)

  • 이선우;양호준;이문형;최정무;윤세환;권장우;박지훈;정동희;신혜정
    • 융합정보논문지
    • /
    • 제11권11호
    • /
    • pp.57-65
    • /
    • 2021
  • 본 논문은 딥 러닝(Deep Learning)을 이용하여 대기오염측정망 데이터 중 특정 증상이 나타나는 이상 데이터를 탐지하는 방법을 제시한다. 기존 방법들은 일반적으로 시계열 데이터 내에서 기존과는 다른 특이한 패턴이 나타나는 데이터를 탐지하여 이상치로 분류하며, 이는 특정 증상만을 탐지하기에는 적합하지 않다. 본 논문에서는 주로 이미지의 전경 분리(Sementic Segmentation)에 사용되는 DeepLab V3+ 모델의 2차원 합성곱 신경망 구조를 1차원 구조로 변형하여 이미지 대신 여러 센서의 시계열 측정값을 입력받고 특정 증상이 나타나는 데이터를 탐지하도록 하는 방법을 제시한다. 또한, 데이터에 '조각별 집계 근사법(Piecewise Aggregate Approximation)'을 적용하여 잡음이 많은 대기오염측정망 데이터의 복잡도를 줄임으로써 성능을 높인다. 실험 결과를 통해 준수한 성능으로 이상치 탐지를 수행할 수 있음을 확인할 수 있다.

시계열 데이터의 프라이버시 보호 클러스터링에서 노이즈 평준화 효과 (Noise Averaging Effect on Privacy-Preserving Clustering of Time-Series Data)

  • 문양세;김혜숙
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.356-360
    • /
    • 2010
  • 최근, 개인 데이터의 프라이버시 보호에 대한 문제가 대두됨에 따라 대용량 데이터를 대상으로 하는 데이터 마이닝 분야에서도 프라이버시 보호 문제에 대한 활발한 연구가 진행되고 있다. 데이터 마이닝에서의 프라이버시 보호 문제는 정보제공자에 의해 제공된 정보 중 민감한 개인 정보의 노출이 없이도 가능한 정확한 마이닝 결과를 얻는 것이다. 데이터 마이닝의 프라이버시 보호 기법에서는 데이터의 보호뿐만 아니라 결과의 정확도 또한 중요한 요인이다. 이에 따라, 본 논문에서는 시계열 데이터 클러스터링을 기반으로 랜덤 데이터 교란 기법에서 결과의 정확도를 높이는 기법으로 노이즈 평준화 개념을 제시한다. 기존의 랜덤 데이터 교란 기법은 데이터의 프라이버시는 잘 보호하지만 시계열간의 거리-순서가 보존되지 않아 결과의 정확도가 크게 떨어지는 문제점을 가진다. 이를 위해, 본 논문에서는 PAA를 기반으로 하는 노이즈 평준화 개념을 제시하고, 구체적인 예를 통해, 제안한 노이즈 평준화 개념이 랜덤 데이터 교란 기법에서 클러스터링 결과의 정확도를 높일 수 있음을 체계적으로 설명한다.