• Title/Summary/Keyword: time series clustering

Search Result 187, Processing Time 0.022 seconds

행동 시계열 데이터와 k-평균 군집화를 통한 젖소의 일일 행동패턴 검출 (Daily Behavior Pattern Extraction using Time-Series Behavioral Data of Dairy Cows and k-Means Clustering)

  • 이성훈;박기철;박재화
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권1호
    • /
    • pp.83-92
    • /
    • 2021
  • 지난 동안 낙농업계에서는 다양한 센서 기술과 ICT 응용이 도입되어왔으며 축적된 낙농 데이터를 토대로 과학적인 낙농생산관리가 가능해졌다. 그러나 이러한 시도들은 젖소의 출산이나 우유 생산량과 같은 낙농 생산성에 직접적으로 관여하는 요인들에 대해서만 집중적으로 이루어졌으며 이러한 결과에 근본적으로 관여하는 생리학적 혹은 동물심리학적 요인에 대해서는 연구가 더딘 실정이다. 이 논문에서는 이러한 연구의 일환으로서 젖소의 시간별 행동 데이터로부터 일일 행동패턴을 검출하는 기초적인 방안을 제시하였다. k-평균 군집화를 통해 한 젖소의 1594일간 행동을 네 개의 군집으로 구분하였으며 각 군집에 속한 데이터와 군집의 대푯값을 시각화하여 군집 형성의 합리성을 확인하였다. 또한 개체의 일별 군집 변화를 토대로 군집 개수의 적정성을 판단하였다. 이 연구 결과가 향후 젖소의 이상상태나 질병징후의 포착 연구에 기여하기를 기대한다.

Trend Analysis of Data Mining Research Using Topic Network Analysis

  • Kim, Hyon Hee;Rhee, Hey Young
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.141-148
    • /
    • 2016
  • In this paper, we propose a topic network analysis approach which integrates topic modeling and social network analysis. We collected 2,039 scientific papers from five top journals in the field of data mining published from 1996 to 2015, and analyzed them with the proposed approach. To identify topic trends, time-series analysis of topic network is performed based on 4 intervals. Our experimental results show centralization of the topic network has the highest score from 1996 to 2000, and decreases for next 5 years and increases again. For last 5 years, centralization of the degree centrality increases, while centralization of the betweenness centrality and closeness centrality decreases again. Also, clustering is identified as the most interrelated topic among other topics. Topics with the highest degree centrality evolves clustering, web applications, clustering and dimensionality reduction according to time. Our approach extracts the interrelationships of topics, which cannot be detected with conventional topic modeling approaches, and provides topical trends of data mining research fields.

앙상블 모델 기반의 기계 고장 예측 방법 (An Ensemble Model for Machine Failure Prediction)

  • 천강민;양재경
    • 산업경영시스템학회지
    • /
    • 제43권1호
    • /
    • pp.123-131
    • /
    • 2020
  • There have been a lot of studies in the past for the method of predicting the failure of a machine, and recently, a lot of researches and applications have been generated to diagnose the physical condition of the machine and the parts and to calculate the remaining life through various methods. Survival models are also used to predict plant failures based on past anomaly cycles. In particular, special machine that reflect the fluid flow and process characteristics of chemical plants are connected to hundreds or thousands of sensors, so there are not many factors that need to be considered, such as process and material data as well as application of derivative variables. In this paper, the data were preprocessed through time series anomaly detection based on unsupervised learning to predict the abnormalities of these special machine. Next, clustering results reflecting clustering-based data characteristics were applied to produce additional variables, and a learning data set was created based on the history of past facility abnormalities. Finally, the prediction methodology based on the supervised learning algorithm was applied, and the model update was confirmed to improve the accuracy of the prediction of facility failure. Through this, it is expected to improve the efficiency of facility operation by flexibly replacing the maintenance time and parts supply and demand by predicting abnormalities of machine and extracting key factors.

시간단위 전력사용량 시계열 패턴의 군집 및 분류분석 (Clustering and classification to characterize daily electricity demand)

  • 박다인;윤상후
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권2호
    • /
    • pp.395-406
    • /
    • 2017
  • 전력 공급 시스템의 효율적인 운영을 위해 전력수요예측은 필수적이다. 본 연구에서는 군집분석과 분류분석을 이용하여 일 단위 시간별 전력수요량 시계열 패턴의 유형을 살펴보고자 한다. 전력거래소에서 수집된 2008년 1월 1일부터 2012년 12월 31일까지의 일 단위 시간별 전력수요량 데이터를 추세성분, 계절성분, 오차 성분으로 구성된 시계열 자료로 변환하여 사용하였다. 추세성분을 제거한 시계열 자료의 패턴을 구분하기 위한 군집 분석방법은 k-평균 군집분석 (k-means), 가우시안혼합모델 혼합 모델 군집분석 (Gaussian mixture model), 함수적 군집분석 (functional clustering)을 고려하였다. 주성분분석을 통해 24시간 자료를 2개의 요인로 축소한 후 k-평균 군집분석과 가우시안 혼합 모델, 함수적 군집분석을 수행하였다. 군집분석 결과를 토대로 2008년부터 2011년까지 총 4년간 데이터를 4가지 분류분석방법인 의사결정나무, RF (random forest), Naive bayes, SVM (support vector machine)을 통해 훈련시켜 2012년 군집을 예측하였다. 분석 결과 가우시안 혼합 분포기반 군집분석과 RF를 이용한 군집예측 결과의 성능이 가장 우수하였다.

2단계 k-평균 군집화를 활용한 한류컨텐츠 기업 주가 예측 연구 (A Study On Predicting Stock Prices Of Hallyu Content Companies Using Two-Stage k-Means Clustering)

  • 김정우
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.169-179
    • /
    • 2021
  • 본 연구는 기존의 k-평균 군집화를 활용한 2단계 k-평균 군집화 방법을 사용하여 한류콘텐츠 기업들의 주식가격을 예측함으로써 본 기법이 예측성능을 개선할 수 있음을 보이고자 하였다. 이를 위하여 본 연구는 2단계 k-평균 군집화의 알고리즘을 소개하고, 다양한 머신러닝 기법들과의 예측값 비교를 통하여 본 기법의 예측성능을 검증하였다. 본 기법은 기존의 k-평균 군집화로부터 얻어진 군집들 중에서 예측 대상에 근접한 군집을 추출하고 이 군집에 k-평군 군집화 방법을 다시 적용하여 실제 값에 보다 근접한 군집을 탐색하는 방식이다. 본 기법을 한류콘텐츠 기업들의 주가 시계열 자료에 적용한 결과, 다른 머신러닝 기법의 예측값들보다 실제 주식가격에 근접한 예측값을 나타내어, 기존의 k-평균 군집화 방법보다 개선된 예측성능을 보였다. 또한, 본 기법은 상대적으로 적은 크기의 군집을 사용함에도 불구하고 비교적 안정적인 예측값을 나타내었다. 이에 따라, 2단계 k-평균 군집화 기법은 예측의 정확성과 안정성을 동시에 개선할 수 있으며, 소규모 자료에도 유용할 수 있는 새로운 군집화 방식을 제시했다고 볼 수 있다. 향후에는 본 기법을 발전시켜 대규모 자료에도 적용하는 방안을 검토하는 연구가 요구된다.

Sensor clustering technique for practical structural monitoring and maintenance

  • Celik, Ozan;Terrell, Thomas;Gul, Mustafa;Catbas, F. Necati
    • Structural Monitoring and Maintenance
    • /
    • 제5권2호
    • /
    • pp.273-295
    • /
    • 2018
  • In this study, an investigation of a damage detection methodology for global condition assessment is presented. A particular emphasis is put on the utilization of wireless sensors for more practical, less time consuming, less expensive and safer monitoring and eventually maintenance purposes. Wireless sensors are deployed with a sensor roving technique to maintain a dense sensor field yet requiring fewer sensors. The time series analysis method called ARX models (Auto-Regressive models with eXogeneous input) for different sensor clusters is implemented for the exploration of artificially induced damage and their locations. The performance of the technique is verified by making use of the data sets acquired from a 4-span bridge-type steel structure in a controlled laboratory environment. In that, the free response vibration data of the structure for a specific sensor cluster is measured by both wired and wireless sensors and the acceleration output of each sensor is used as an input to ARX model to estimate the response of the reference channel of that cluster. Using both data types, the ARX based time series analysis method is shown to be effective for damage detection and localization along with the interpretations and conclusions.

주식가격변화의 장기기억속성 존재 및 영향요인에 대한 실증연구 (An Empirical Study for the Existence of Long-term Memory Properties and Influential Factors in Financial Time Series)

  • 엄철준;오갑진;김승환;김태혁
    • 재무관리연구
    • /
    • 제24권3호
    • /
    • pp.63-89
    • /
    • 2007
  • 본 연구는 금융시계열자료의 특징적 속성을 관찰하고자 하는 연구시도의 일환으로, 실제자료 뿐만 아니라 이론자료를 이용하여 장기기억속성의 존재와 장기기억속성의 정도에 영향을 미칠 수 있는 가능한 요인을 수익률 및 변동성차원에서 체계적으로 검증하는 것이 목적이다. 검증결과의 견고함을 위하여, 이론자료 뿐만 아니라 24개국 주식시장의 지수자료, KOSPI 시장지수를 구성하는 430개 개별주식자료를 함께 사용하였다. 관찰된 검증결과를 요약 정리하면 다음과 같다. 첫째, 이론자료와 실제자료를 이용하여 장기기억속성의 존재여부를 체계적으로 검증한 결과에 의하면, 분석자료에 관계없이 수익률차원에서는 장기기억속성의 존재를 확인할 수 있는 긍정적인 증거를 발견하지 못하였으나, 변동성차원에서는 강한 장기기억속성의 증거를 지지하는 증거를 발견할 수 있었다. 둘째, 관찰된 변동성의 장기기억속성 정도에 영향을 미칠 수 있는 가능한 요인으로는, 분석자료에 관계없이, 금융시계열자료에서 일반적으로 관찰되는 변동성 군집효과의 속성이 가능한 것으로 확인되었다.

  • PDF

강화된 유전알고리즘을 이용한 이중 동조 기반 퍼지 예측시스템 설계 및 응용 (Design of Fuzzy Prediction System based on Dual Tuning using Enhanced Genetic Algorithms)

  • 방영근;이철희
    • 전기학회논문지
    • /
    • 제59권1호
    • /
    • pp.184-191
    • /
    • 2010
  • Many researchers have been considering genetic algorithms to system optimization problems. Especially, real-coded genetic algorithms are very effective techniques because they are simpler in coding procedures than binary-coded genetic algorithms and can reduce extra works that increase the length of chromosome for wide search space. Thus, this paper presents a fuzzy system design technique to improve the performance of the fuzzy system. The proposed system consists of two procedures. The primary tuning procedure coarsely tunes fuzzy sets of the system using the k-means clustering algorithm of which the structure is very simple, and then the secondary tuning procedure finely tunes the fuzzy sets using enhanced real-coded genetic algorithms based on the primary procedure. In addition, this paper constructs multiple fuzzy systems using a data preprocessing procedure which is contrived for reflecting various characteristics of nonlinear data. Finally, the proposed fuzzy system is applied to the field of time series prediction and the effectiveness of the proposed techniques are verified by simulations of typical time series examples.

데이터 전처리를 이용한 다중 모델 퍼지 예측기의 설계 및 응용 (Design of Multiple Model Fuzzy Predictors using Data Preprocessing and its Application)

  • 방영근;이철희
    • 전기학회논문지
    • /
    • 제58권1호
    • /
    • pp.173-180
    • /
    • 2009
  • It is difficult to predict non-stationary or chaotic time series which includes the drift and/or the non-linearity as well as uncertainty. To solve it, we propose an effective prediction method which adopts data preprocessing and multiple model TS fuzzy predictors combined with model selection mechanism. In data preprocessing procedure, the candidates of the optimal difference interval are determined based on the correlation analysis, and corresponding difference data sets are generated in order to use them as predictor input instead of the original ones because the difference data can stabilize the statistical characteristics of those time series and better reveals their implicit properties. Then, TS fuzzy predictors are constructed for multiple model bank, where k-means clustering algorithm is used for fuzzy partition of input space, and the least squares method is applied to parameter identification of fuzzy rules. Among the predictors in the model bank, the one which best minimizes the performance index is selected, and it is used for prediction thereafter. Finally, the error compensation procedure based on correlation analysis is added to improve the prediction accuracy. Some computer simulations are performed to verify the effectiveness of the proposed method.

정수생태계의 지형적인 요인 변화와 윤충류 출현 종 수 및 개체군 밀도 변동에 대한 연구 (Time Series Patterns and Clustering of Rotifer Community in Relation with Topographical Characteristics in Lentic Ecosystems)

  • 오혜지;허유지;장광현;김현우
    • 생태와환경
    • /
    • 제54권4호
    • /
    • pp.390-397
    • /
    • 2021
  • 본 연구에서는 호소의 환경 특성 및 시간에 따른 동물 플랑크톤 윤충류 군집 변동 특성을 분석하기 위해, 전라남도에 위치하여 유사한 기상 조건을 가지나 규모와 수질 환경이 서로 다른 29개 호소를 선정, 2008년부터 2016년까지 분기별 윤충류 출현 개체수 및 종 수의 시계열 자료를 수집하였다. 조사기간 중 각 호소의 윤충류 출현 개체수 및 종 수의 범위, 이상치 및 변동계수(CV)를 비교하였으며, 동적 시간 워핑(dtw) 분석을 통해 각 호소의 윤충류 군집 시계열 경향을 비교하여 유사 정도를 바탕으로 분류(clustering)하고, 주성분 분석을 통해 분류된 호소의 환경 특성과의 관계를 분석하였다. 윤충류 개체수에서 보다 빈번한 이상치 출현과 높은 변동성을 보인 호소에는 상대적으로 저수용량이 적은 소규모 호소가 많았던 반면, 출현종 수에서는 뚜렷한 경향이 관찰되지 않았다. 타 호소들과 윤충류 개체수의 시간적 변동 경향이 상이하게 나타난 일부 호소들에서 화학적 산소 요구량(COD)과 양의 상관관계를, 식물플랑크톤 현존량 변동 및 지각류 상대풍부도 변동과 음의 상관관계를 갖는 것으로 나타나 윤충류 출현 개체수의 시계열 경향에 영향을 미치는 잠재적인 요인으로 분석되었다.