• 제목/요약/키워드: time series cross-validation

검색결과 29건 처리시간 0.023초

경험적 모드분해법에 기초한 계층적 평활방법 (Hierarchical Smoothing Technique by Empirical Mode Decomposition)

  • 김동호;오희석
    • 응용통계연구
    • /
    • 제19권2호
    • /
    • pp.319-330
    • /
    • 2006
  • 현실세계에서 관찰되는 시그널(signal)은 다양한 주파수(frequency)들의 시그널로 혼합되어 있는 경우가 많다. 예를 들어 태양 흑점 자료의 경우 약 11년 주기와 85년 주기로 변동한다는 사실은 널리 알려져 있다. 또한 경제 시계열 자료의 경우는 통상적으로 계절요인(seasonal component), 순환요인(cyclic component) 그리고 장기적인 추세요인(long-term trend)으로 분해하여 분석한다. 이러한 시계열 자료를 구성요소별로 분해하는 것은 오래된 주제중 하나이다. 전통적인 시계열자료 분석기법으로 스펙트럴 분석기법 등이 널리 사용되고 있으나 시계열 자료들이 비정상(nonstationary)일 경우에는 적용하기 어렵다. Huang et. al(1998)은 경험적 모드분해법(empirical mode decomposition)이라고 하는 자료적응적인(data-adaptive) 방법을 제안하였는데, 비정상성(nonstationarity)에 대한 강건성(robustness)으로 여러 분야에 널리 응용되고 있다. 그러나 Huang et. at(1998)은 잡음(error)에 의해 오염된 자료에 대한 구체적인 처리방법은 제시하지 못하고 있다. 본 논문을 통하여 효율적인 잡음제거 방법을 제안하고자 한다.

Fault Diagnosis of Bearing Based on Convolutional Neural Network Using Multi-Domain Features

  • Shao, Xiaorui;Wang, Lijiang;Kim, Chang Soo;Ra, Ilkyeun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1610-1629
    • /
    • 2021
  • Failures frequently occurred in manufacturing machines due to complex and changeable manufacturing environments, increasing the downtime and maintenance costs. This manuscript develops a novel deep learning-based method named Multi-Domain Convolutional Neural Network (MDCNN) to deal with this challenging task with vibration signals. The proposed MDCNN consists of time-domain, frequency-domain, and statistical-domain feature channels. The Time-domain channel is to model the hidden patterns of signals in the time domain. The frequency-domain channel uses Discrete Wavelet Transformation (DWT) to obtain the rich feature representations of signals in the frequency domain. The statistic-domain channel contains six statistical variables, which is to reflect the signals' macro statistical-domain features, respectively. Firstly, in the proposed MDCNN, time-domain and frequency-domain channels are processed by CNN individually with various filters. Secondly, the CNN extracted features from time, and frequency domains are merged as time-frequency features. Lastly, time-frequency domain features are fused with six statistical variables as the comprehensive features for identifying the fault. Thereby, the proposed method could make full use of those three domain-features for fault diagnosis while keeping high distinguishability due to CNN's utilization. The authors designed massive experiments with 10-folder cross-validation technology to validate the proposed method's effectiveness on the CWRU bearing data set. The experimental results are calculated by ten-time averaged accuracy. They have confirmed that the proposed MDCNN could intelligently, accurately, and timely detect the fault under the complex manufacturing environments, whose accuracy is nearly 100%.

실시간 총유사량 모니터링을 위한 H-ADCP 연계 수정 아인슈타인 방법의 의사 SVR 모형 (A SVR Based-Pseudo Modified Einstein Procedure Incorporating H-ADCP Model for Real-Time Total Sediment Discharge Monitoring)

  • 노효섭;손근수;김동수;박용성
    • 대한토목학회논문집
    • /
    • 제43권3호
    • /
    • pp.321-335
    • /
    • 2023
  • 자연하천에서의 유사량 계측은 하천공학적으로 중요한 의미를 가지지만 계측 방법의 비용 문제로 유사량 실측에 어려움이 따른다. 특히 소류사량 계측의 어려움으로 인해 주기적인 유사량 모니터링의 대부분이 부유사 농도 계측에만 제한되어 있는 실정이다. 본 연구에는 자동유량관측소에 설치된 횡방향 도플러 유속계(H-ADCP)의 후방산란값과 부유사 농도의 상관관계를 이용해 실시간으로 부유사 농도를 산정하고 총유사량을 산정하는 서포트벡터회귀 모형을 제안한다. 제안하는 실시간 총유사량 모니터링 시스템은 부유사 농도 모형과 수정 아인슈타인 방법을 모사하는 총유사량 산정 모형으로 구성된다. 각 모형의 매개변수와 입력변수는 K겹 교차검증 기반 격자검색 방법과 재귀적 특징 제거법을 이용해 결정되었다. 교차검증에서 부유사 농도 모형과 총유사량 산정 모형의 R2가 각각 0.885와 0.860으로 유사량-유량 관계곡선에 비해 정확한 것으로 나타났다. 시계열 유사량 관측을 통해 새로 제시되는 실시간 총유사량 관측 시스템이 자연하천에서 발달하는 유사량-유량 이력관계와 미세한 유량 변화에서 나타나는 유사량 변화를 성공적으로 관측할 수 있음을 확인했다. 본 연구에서 제안하는 방법은 마찰경사나 부유사 입도 등의 수리 조건을 가정할 필요 없이 H-ADCP의 원시자료만으로 부유사 농도와 총유사량을 산정할 수 있어 기존 방법에 비해 불확도가 적으며 경제적이다. 본 방법은 H-ADCP가 설치된 유사량 관측소에 광범위하게 적용 가능해 유사량 모니터링의 시간적 해상도를 경제적으로 크게 줄일 수 있을 것으로 기대된다.

커널기계 기법을 이용한 일반화 이분산자기회귀모형 추정 (Estimating GARCH models using kernel machine learning)

  • 황창하;신사임
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권3호
    • /
    • pp.419-425
    • /
    • 2010
  • 커널기계 기법은 최근 대용량 또는 고차원 비선형 자료를 분석하는 방법으로 인기를 많이 얻고 있다. 본 논문에서는 주식시장 수익률의 조건부 변동성을 예측하기 위한 일반화 이분산자기회귀모형을 추정하기 위해 커널기계 기법을 사용한다. 일반화 이분산자기회귀모형은 자료가 정규분포를 따른다고 가정한 후 주로 최대우도법을 사용하여 추정된다. 본 논문에서는 꼬리가 두꺼운 분포를 갖는 금융시계열자료의 변동성을 추정할 때 커널기계 기법이 최대우도법과 서포트벡터기계 보다 더 정확한 예측능력을 가진다는 것을 보이고자 한다.

인공 신경망 기반의 고시간 해상도를 갖는 전력수요 예측기법 (An Electric Load Forecasting Scheme with High Time Resolution Based on Artificial Neural Network)

  • 박진웅;문지훈;황인준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.527-536
    • /
    • 2017
  • 최근 스마트 그리드 산업의 발달과 더불어 효과적인 에너지 관리 시스템의 필요성이 커지고 있다. 특히, 전기 부하 및 에너지 요금 감소를 위해서는 정확한 전력수요 예측과 그에 따른 효과적인 스마트 그리드 운영 전략이 필요하다. 본 논문에서는 보다 정확한 전력수요 예측을 위하여, 수요 시한 기준으로 수집된 전력 사용 데이터를 고시간 해상도로 분할하고, 이에 적합한 인공 신경망 기반의 전력수요 예측 모델을 구축하고자 한다. 예측 모델의 정확도를 향상시키기 위하여 우선, 수열 형태의 시계열 데이터가 가지는 주기성을 제대로 반영하지 못하는 기계 학습 모델의 문제점을 해결하고자, 시계열 데이터를 2차원 공간의 연속적인 데이터로 변환한다. 더욱이, 고시간 해상도에 따른 온도나 습도 등 외부 요인들의 보다 정확한 반영을 위해 이들에 대해서도 선형 보간법을 사용하여 세분화된 시점에서의 값을 추정하여 반영한다. 마지막으로, 구성된 특성 벡터에 대해 주성분 분석 수행을 통하여 불필요한 외부 요인을 제거한다. 예측 모델의 성능을 평가하기 위해서 5겹 교차 검증을 수행하였다. 실험 결과 모든 고시간 해상도에서 성능 향상을 보였으며, 특히 3분 해상도의 경우 3.71%의 가장 낮은 오차율을 보였다.

A ResNet based multiscale feature extraction for classifying multi-variate medical time series

  • Zhu, Junke;Sun, Le;Wang, Yilin;Subramani, Sudha;Peng, Dandan;Nicolas, Shangwe Charmant
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권5호
    • /
    • pp.1431-1445
    • /
    • 2022
  • We construct a deep neural network model named ECGResNet. This model can diagnosis diseases based on 12-lead ECG data of eight common cardiovascular diseases with a high accuracy. We chose the 16 Blocks of ResNet50 as the main body of the model and added the Squeeze-and-Excitation module to learn the data information between channels adaptively. We modified the first convolutional layer of ResNet50 which has a convolutional kernel of 7 to a superposition of convolutional kernels of 8 and 16 as our feature extraction method. This way allows the model to focus on the overall trend of the ECG signal while also noticing subtle changes. The model further improves the accuracy of cardiovascular and cerebrovascular disease classification by using a fully connected layer that integrates factors such as gender and age. The ECGResNet model adds Dropout layers to both the residual block and SE module of ResNet50, further avoiding the phenomenon of model overfitting. The model was eventually trained using a five-fold cross-validation and Flooding training method, with an accuracy of 95% on the test set and an F1-score of 0.841.We design a new deep neural network, innovate a multi-scale feature extraction method, and apply the SE module to extract features of ECG data.

대기오염물질이 손상으로 인한 손실수명연수에 미치는 영향: 서울특별시를 중심으로 (Effect of Ambient Air Pollution on Years of Life Lost from Deaths due to Injury in Seoul, South Korea)

  • 강선우;정수빈;이혜원
    • 한국환경보건학회지
    • /
    • 제49권3호
    • /
    • pp.149-158
    • /
    • 2023
  • Background: Injury is one of the major health problems in South Korea. Few studies have evaluated both intentional and unintentional injury when investigating the association between exposure to air pollutants and injury. Objectives: We aimed to explore the association between short-term exposure to ambient air pollution and years of life lost (YLLs) due to injury. Methods: Data on daily YLLs for 2002~2019 were obtained from the the Death Statistics Database of the Korean National Statistical Office. This study estimated short-term exposure to particulate matter with an aerodynamic diameter of <10 ㎛ (PM10), particulate matter with an aerodynamic diameter of <2.5 ㎛ (PM2.5), sulfur dioxide (SO2), nitrogen dioxide (NO2), carbon monoxide (CO), and ozone (O3). This time series study was conducted using a generalized additive model (GAM) assuming a Gaussian distribution. We also evaluated a delayed effect of ambient air pollution by constructing a lag structure up to seven days. The best-fitting lag was selected based on smallest generalized cross validation (GCV) value. To explore effect modification by intentionality of injury (i.e., intentional injury [self-harm, assault] and unintentional injury), we conducted stratified subgroup analyses. Additionally, we stratified unintentional injury by mechanism (traffic accident, fall, etc.). Results: During the study period, the average daily YLLs due to injury was 307.5 years. In the intentional injury, YLLs due to self-harm and assault showed positive association with air pollutants. In the unintentional injury, YLLs due to fall, electric current, fire and poisoning showed positive association with air pollutants, whereas YLLs due to traffic accident, mechanical force and drowning/submersion showed negative associations with air pollutants. Conclusions: Injury is recognized as preventable, and effective strategies to create a safe society are important. Therefore, we need to establish strategies to prevent injury and consider air pollutants in this regard.

딥러닝을 활용한 위성영상 기반의 강원도 지역의 배추와 무 수확량 예측 (Satellite-Based Cabbage and Radish Yield Prediction Using Deep Learning in Kangwon-do)

  • 박혜빈;이예진;박선영
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.1031-1042
    • /
    • 2023
  • 인공위성은 시공간적으로 연속적인 지구환경 데이터를 제공하므로 위성영상을 이용하여 효율인 작물 수확량 예측이 가능하며, 딥러닝(deep learning)을 활용함으로써 더 높은 수준의 특징과 추상적인 개념 파악을 기대할 수 있다. 본 연구에서는 Landsat 8 위성 영상을 활용하여 다시기 영상 데이터를 이용하여 5대 수급 관리 채소인 배추와 무의 수확량을 예측하기 위한 딥러닝 모델을 개발하였다. 2015년부터 2020년까지 배추와 무의 생장시기인 6~9월 위성영상을 이용하여 강원도를 대상으로 배추와 무의 수확량 예측을 수행하였다. 본 연구에서는 수확량 모델의 입력자료로 Landsat 8 지표면 반사도 자료와 normalized difference vegetation index, enhanced vegetation index, lead area index, land surface temperature를 입력자료로 사용하였다. 본 연구에서는 기존 연구에서 개발된 모델을 기반으로 우리나라 작물과 입력데이터에 맞게 튜닝한 모델을 제안하였다. 위성영상 시계열 데이터를 이용하여 딥러닝 모델인 convolutional neural network (CNN)을 학습하여 수확량 예측을 진행하였다. Landsat 8은 16일 주기로 영상이 제공되지만 구름 등 기상의 영향으로 인해 특히 여름철에는 영상 취득에 어려움이 많다. 따라서 본 연구에서는 6~7월을 1구간, 8~9월을 2구간으로 나누어 수확량 예측을 수행하였다. 기존 머신러닝 모델과 참조 모델을 이용하여 수확량 예측을 수행하였으며, 모델링 성능을 비교했다. 제안한 모델의 경우 다른 모델과 비교했을 때, 높은 수확량 예측 성능을 나타내었다. Random forest (RF)의 경우 배추에서는 제안한 모델보다 좋은 예측 성능을 나타내었다. 이는 기존 연구 결과처럼 RF가 입력데이터의 물리적인 특성을 잘 반영하여 모델링 되었기 때문인 것으로 사료된다. 연도별 교차 검증 및 조기 예측을 통해 모델의 성능과 조기 예측 가능성을 평가하였다. Leave-one-out cross validation을 통해 분석한 결과 참고 모델을 제외하고는 두 모델에서는 유사한 예측 성능을 보여주었다. 2018년 데이터의 경우 모든 모델에서 가장 낮은 성능이 나타났는데, 2018년의 경우 폭염으로 인해 이는 다른 년도 데이터에서 학습되지 못해 수확량 예측에 영향을 준 것으로 생각되었다. 또한, 조기 예측 가능성을 확인한 결과, 무 수확량은 어느 정도 경향성을 나타냈지만 배추의 경우 조기 예측 가능성을 확인하지 못했다. 향후 연구에서는 데이터 형태에 따라 CNN의 구조를 조정해서 조기 예측 모델을 개발한다면 더 개선된 성능을 보일 것으로 생각된다. 본 연구 결과는 우리나라 밭 작물 수확량 예측을 위한 기초 연구로 활용될 수 있을 것으로 기대된다.

자료기반 학습 알고리즘을 이용한 지하수위 변동 예측 모델의 국가지하수관측망 자료 적용에 대한 비교 평가 연구 (Application of groundwater-level prediction models using data-based learning algorithms to National Groundwater Monitoring Network data)

  • 윤희성;김용철;하규철;김규범
    • 지질공학
    • /
    • 제23권2호
    • /
    • pp.137-147
    • /
    • 2013
  • 지하수자원의 효율적인 관리를 위해 강우에 대한 지하수위 변화를 예측하는 것은 중요한 문제이다. 본 연구에서는 자료기반 학습 알고리즘인 인공신경망과 지지벡터기계를 이용하여 시계열 예측 모델을 만들고 이를 국가지하수관측망 중 가산, 신광, 청성 관측소 지하수위 변화 예측에 적용하였다. 모델의 입력 성분 구성 방법에 따라 네 가지 모형을 설정하고 각 관측소 및 모델 별 예측 결과를 비교 평가하였다. 강우 입력 모형의 경우 지하수위 감쇠 및 기저 변화 예측을 위해 큰 규모의 입력 성분 구성이 필요하지만 강우 및 지하수위 입력 모형은 보다 작은 규모의 입력 성분으로 효과적으로 지하수위 변화를 예측하는 것으로 나타났다. 강우 및 지하수위 입력 모형의 활용성 증대를 위해 고안된 반복 예측 모형의 경우 관측값과 예측값 사이에 0.75~0.95의 상관계수를 보여 적용 가능성이 큰 것으로 판단된다. 전체적으로 강우-지하수위 교차상관계수가 낮은 신광 관측소의 예측 오차가 크게 나타났고 ANN 모델에 비해 SVM의 예측력이 다소 높은 것으로 조사되었다. 또한 반복 예측 모형의 모델 파라미터 선정 과정에서 보정 단계 오차에 대한 예측 단계 오차의 비의 분포를 조사한 결과 SVM의 경우가 더 작게 나타나 SVM이 본 연구 자료에 대해 보다 안정적이고 효율적인 모델임을 평가하였다.