• 제목/요약/키워드: Time-Series clustering

검색결과 185건 처리시간 0.025초

Hierarchical Regression for Single Image Super Resolution via Clustering and Sparse Representation

  • Qiu, Kang;Yi, Benshun;Li, Weizhong;Huang, Taiqi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권5호
    • /
    • pp.2539-2554
    • /
    • 2017
  • Regression-based image super resolution (SR) methods have shown great advantage in time consumption while maintaining similar or improved quality performance compared to other learning-based methods. In this paper, we propose a novel single image SR method based on hierarchical regression to further improve the quality performance. As an improvement to other regression-based methods, we introduce a hierarchical scheme into the process of learning multiple regressors. First, training samples are grouped into different clusters according to their geometry similarity, which generates the structure layer. Then in each cluster, a compact dictionary can be learned by Sparse Coding (SC) method and the training samples can be further grouped by dictionary atoms to form the detail layer. Last, a series of projection matrixes, which anchored to dictionary atoms, can be learned by linear regression. Experiment results show that hierarchical scheme can lead to regression that is more precise. Our method achieves superior high quality results compared with several state-of-the-art methods.

다중 해시함수 기반 데이터 스트림에서의 아이템 의사 주기 탐사 기법 (Finding Pseudo Periods over Data Streams based on Multiple Hash Functions)

  • 이학주;김재완;이원석
    • 한국IT서비스학회지
    • /
    • 제16권1호
    • /
    • pp.73-82
    • /
    • 2017
  • Recently in-memory data stream processing has been actively applied to various subjects such as query processing, OLAP, data mining, i.e., frequent item sets, association rules, clustering. However, finding regular periodic patterns of events in an infinite data stream gets less attention. Most researches about finding periods use autocorrelation functions to find certain changes in periodic patterns, not period itself. And they usually find periodic patterns in time-series databases, not in data streams. Literally a period means the length or era of time that some phenomenon recur in a certain time interval. However in real applications a data set indeed evolves with tiny differences as time elapses. This kind of a period is called as a pseudo-period. This paper proposes a new scheme called FPMH (Finding Periods using Multiple Hash functions) algorithm to find such a set of pseudo-periods over a data stream based on multiple hash functions. According to the type of pseudo period, this paper categorizes FPMH into three, FPMH-E, FPMH-PC, FPMH-PP. To maximize the performance of the algorithm in the data stream environment and to keep most recent periodic patterns in memory, we applied decay mechanism to FPMH algorithms. FPMH algorithm minimizes the usage of memory as well as processing time with acceptable accuracy.

FCM기반 퍼지추론 시스템의 구조 설계: WLSE 및 LSE의 비교 연구 (Structural Design of FCM-based Fuzzy Inference System : A Comparative Study of WLSE and LSE)

  • 김욱동;오성권;김현기
    • 전기학회논문지
    • /
    • 제59권5호
    • /
    • pp.981-989
    • /
    • 2010
  • In this study, we introduce a new architecture of fuzzy inference system. In the fuzzy inference system, we use Fuzzy C-Means clustering algorithm to form the premise part of the rules. The membership functions standing in the premise part of fuzzy rules do not assume any explicit functional forms, but for any input the resulting activation levels of such radial basis functions directly depend upon the distance between data points by means of the Fuzzy C-Means clustering. As the consequent part of fuzzy rules of the fuzzy inference system (being the local model representing input output relation in the corresponding sub-space), four types of polynomial are considered, namely constant, linear, quadratic and modified quadratic. This offers a significant level of design flexibility as each rule could come with a different type of the local model in its consequence. Either the Least Square Estimator (LSE) or the weighted Least Square Estimator (WLSE)-based learning is exploited to estimate the coefficients of the consequent polynomial of fuzzy rules. In fuzzy modeling, complexity and interpretability (or simplicity) as well as accuracy of the obtained model are essential design criteria. The performance of the fuzzy inference system is directly affected by some parameters such as e.g., the fuzzification coefficient used in the FCM, the number of rules(clusters) and the order of polynomial in the consequent part of the rules. Accordingly we can obtain preferred model structure through an adjustment of such parameters of the fuzzy inference system. Moreover the comparative experimental study between WLSE and LSE is analyzed according to the change of the number of clusters(rules) as well as polynomial type. The superiority of the proposed model is illustrated and also demonstrated with the use of Automobile Miles per Gallon(MPG), Boston housing called Machine Learning dataset, and Mackey-glass time series dataset.

자기조직화지도 클러스터링을 이용한 종단자료의 탐색적 분석방법론 (An Exploratory Methodology for Longitudinal Data Analysis Using SOM Clustering)

  • 조영빈
    • 융합정보논문지
    • /
    • 제12권5호
    • /
    • pp.100-106
    • /
    • 2022
  • 종단연구는 동일 대상에 대하여 반복적으로 측정한 종단자료를 기반으로 하는 연구방법을 말한다. 대부분의 종단분석 방법은 예측이나 추론에 적합하고, 탐색적 목적으로 사용하기에는 적합하지 않은 경우가 많다. 본 연구에서는 종단자료를 분석하는 탐색적 방법을 제시한다. 이 방법은 자기조직화지도기법을 사용하여 종단자료를 군집화 하여 최선의 군집 수를 정한 후 종단궤적을 찾는 방법이다. 제안한 방법론은 고용정보원의 종단자료에 적용되었으며, 총 2,610개의 샘플에 대하여 분석을 하였다. 방법론을 적용한 결과 패널 별로 시계열적으로 군집 화되는 결과를 얻었다. 이는 종단자료를 사전에 클러스터링하고 다층 종단분석을 하는 것이 더욱 효과적이라는 사실을 나타낸다.

토사터널의 쉴드 TBM 데이터 시계열 분석을 통한 막장 전방 예측 연구 (A ground condition prediction ahead of tunnel face utilizing time series analysis of shield TBM data in soil tunnel)

  • 정지희;김병규;정희영;김해만;이인모
    • 한국터널지하공간학회 논문집
    • /
    • 제21권2호
    • /
    • pp.227-242
    • /
    • 2019
  • 토압식(Earth Pressure-Balanced, EPB) 쉴드 TBM 기계데이터 분석을 통해 토사터널의 특징이 반영된 막장 전방 예측 방법을 제안하였다. 기존에 암반과 토사가 혼합된 복합 지반의 예측에 적용하였던 시계열 분석 모델을 토사터널에 적용가능하도록 수정하였다. 또한 수정된 모델을 사용하여, 토사 종류에 따라 쏘일 컨디셔닝 재료를 선택하는 것이 타당한지 연구하였다. 이를 위해 Self-Organizing Map (SOM) 군집화(clustering) 분석을 수행하였다. 그 결과 무엇보다도 지반타입이 #200체 통과량 35% 기준으로 분류되어야 한다는 것을 확인하였다. 또한 TBM 기계데이터 분석을 통해 수정된 모델이 지반 타입을 예측하는데 사용될 수 있음을 확인하였다. 수정된 기준에 따라 지반 타입을 분류하고 시계열 분석을 수행하면, 10막장 전방 지반에 대해서 98%의 높은 예측 정확도를 보였으며, 이를 통해 수정된 방법의 우수성이 입증되었다. 특히 지반 타입 변화 구간에 대한 예측 정확도도 약 93%로, 10막장 전방에서 지반 타입 변화 여부를 미리 확인할 수 있게 되었다.

진주시 교통사고의 시계열적 공간분포특성 분석 (Analysis of Temporal and Spatial Distribution of Traffic Accidents in Jinju)

  • 성병준;배규한;유환희
    • 대한공간정보학회지
    • /
    • 제23권2호
    • /
    • pp.3-9
    • /
    • 2015
  • 도시공간에서 토지이용변화는 교통량을 유발하고 이에 따른 교통사고발생이 상호 밀접한 관계를 갖고 있으므로 토지이용변화에 따른 교통사고발생원인 분석은 교통사고저감대책 수립에 중요한 요소로 판단된다. 이에 지방 중소도시인 진주시를 대상으로 5년간(2009년~2013년)의 교통사고 데이터를 주거지역과 상업지역의 사고 발생빈도와 최근린 분석기법에 의한 군집도를 분석한 결과 다음과 같은 결론을 얻었다. 교통사고의 발생빈도는 봄에 가장 많았고 겨울이 가장 작게 발생하였다. 또한 주간과 야간의 교통사고 발생빈도는 주간이 야간에 비해 조금 더 많이 발생하였으나 교통사고발생 군집도는 야간이 주간에 비해 강하게 나타났다. 그리고 토지용도에 따른 교통사고 군집도 분석에서 상업지역은 계절에 따른 변화가 크지 않았으나 주거지역은 겨울철에 군집밀도가 크게 낮아지는 경향을 보였다. 교통사고 유형에 따른 분석 결과 차 대 차의 측면직각추돌사고가 가장 높은 발생빈도를 보였으며 상업지역과 주거지역에 모두 광범위하게 발생되는 것으로 나타났다. 이상의 결과는 도시공간구조에서 교통사고 발생패턴을 파악하는데 중요한 정보가 될 수 있으며, 향후 교통사고저감대책을 수립하는데 유용하게 활용될 것으로 예상된다.

적응적 격자기반 다차원 데이터 스트림 클러스터링 방법 (An Adaptive Grid-based Clustering Algorithm over Multi-dimensional Data Streams)

  • 박남훈;이원석
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.733-742
    • /
    • 2007
  • 데이터 스트림이란, 빠른 속도로 지속적으로 생성되는 무한한 크기의 방대한 양의 데이터 집합으로 정의된다. 무한한 데이터 스트림에 비해 주어진 메모리 공간은 유한하게 한정되어 있어, 이러한 제약조건을 충족시키는 범위 내에서 일정 한도내의 정확도 오차를 허용하기도 한다. 또한, 변화하는 데이터 스트림 내의 최신 클러스터를 찾기 위해서는 데이터 객체의 저장없이 오래된 데이터 스트림 내의 정보들을 비중을 감소시킬 수 있어야 한다. 본 연구에서는 데이터 스트림 분석을 위한 데이터 스트림 격자 기반 클러스터링 기법을 제시한다. 주어진 초기 격자셀에 대해, 데이터 객체의 빈도가 높은 범위를 반복적으로 보다 작은 크기의 격자셀로 분할하여 최소 크기의 격자셀, 단위 격자셀을 생성한다. 격자 셀에서는 데이터 객체들의 분포에 대한 통계값만을 저장하여, 기존의 클러스터링 기법에 비해 데이터 객체에 대한 탐색없이 효율적으로 클러스터를 찾을 수 있다. 또한, 가용 메모리 공간에 따라 단위 격자셀의 크기를 조절하여 클러스터의 정확도를 최대화할 수 있어, 주어진 메모리 공간에 맞게 적응적으로 성능을 조절할 수 있다.

머신러닝 기법을 활용한 공장 에너지 사용량 데이터 분석 (Machine Learning Approach for Pattern Analysis of Energy Consumption in Factory)

  • 성종훈;조영식
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권4호
    • /
    • pp.87-92
    • /
    • 2019
  • 본 연구에서는 머신 러닝 기법을 활용하여 공장에서 발생하는 에너지 사용량에 대한 데이터 분석 및 패턴 추출에 대해 다룬다. 통계학이나 기존의 방법들은 몇 가지 물리적 특성을 반영하는 수학적 모델을 구축하는 반면, 머신 러닝을 통한 접근방법은 데이터 학습을 통하여 모델의 계수들을 결정하게 된다. 기존의 방법들은 특정한 구조를 갖는 수학적 모델을 구축해야 한다는 어려움이 있으며 과연 데이터의 특징들을 잘 반영하는지에 대한 의문이 존재했다. 그러나 머신 러닝을 통한 방법은 사람이 구축하기 어려운 작업들을 용이하게 구축한다는 장점을 가지고 있기 때문에 데이터 간의 관계를 파악하기에 더 효율적이라는 장점을 가지고 있다. 공장의 에너지 소비에 직접적으로 영향을 끼치는 요소들이 존재하며 이러한 전력 소비는 시간에 따른 데이터로 나타나게 된다. 각 요소들로부터 발생하는 소비 전력을 계측하고 데이터 베이스를 구축하기 위해 각 요소에 센서를 장착하였다. 취득된 데이터에 대해 전처리 과정 및 통계적인 분석을 거친 뒤, 머신 러닝을 통해 패턴을 분석하는 과정을 거쳤다. 이를 통해 공장에서 발생하는 소비 전력 데이터에 대한 패턴 분석을 진행하였다.

독립성분분석에 의한 유전자 발현 시계열 데이터의 공간적 패턴과 시간적 모드 분석 (Spatial pattern and temporal mode analysis of microarray time-series data by independent component analysis)

  • Sookjeong, Kim;Seungjin, Choi
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.250-252
    • /
    • 2004
  • In this paper we apply several variations of independent component analysis( ICA) methods, such as spatial ICA (sICA), temporal ICA (tICA), and spatiotemporal ICA (stICA), to yeast cell cycle datasets, and compare their performance in finding components that result in gene clusters coherent with annotations and in extract ins meaningful temporal modes. It turns out that the results of tICA are superior to those of PCA, sICA, and stICA in terms of gene clustering and the temporal modes extracted by stICA highlights particular cellular processes.

  • PDF

R 프로그래밍: 통계 계산과 데이터 시각화를 위한 환경 (R programming: Language and Environment for Statistical Computing and Data Visualization)

  • 이두호
    • 전자통신동향분석
    • /
    • 제28권1호
    • /
    • pp.42-51
    • /
    • 2013
  • The R language is an open source programming language and a software environment for statistical computing and data visualization. The R language is widely used among a lot of statisticians and data scientists to develop statistical software and data analysis. The R language provides a variety of statistical and graphical techniques, including basic descriptive statistics, linear or nonlinear modeling, conventional or advanced statistical tests, time series analysis, clustering, simulation, and others. In this paper, we first introduce the R language and investigate its features as a data analytics tool. As results, we may explore the application possibility of the R language in the field of data analytics.

  • PDF