• Title/Summary/Keyword: 앙상블 방법

Search Result 293, Processing Time 0.048 seconds

Dam Inflow Prediction and Evaluation Using Hybrid Auto-sklearn Ensemble Model (하이브리드 Auto-sklearn 앙상블 모델을 이용한 댐 유입량 예측 및 평가)

  • Lee, Seoro;Bae, Joo Hyun;Lee, Gwanjae;Yang, Dongseok;Hong, Jiyeong;Kim, Jonggun;Lim, Kyoung Jae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.307-307
    • /
    • 2022
  • 최근 기후변화와 댐 상류 토지이용 변화 등과 같은 다양한 원인에 의해 댐 유입량의 변동성이 증가하면서 댐 관리 및 운영조작 의사 결정에 어려움이 발생하고 있다. 따라서 이러한 댐 유입량의 변동 특성을 반영하여 댐 유입량을 정확하고 효율적으로 예측할 수 있는 방안이 필요한 실정이다. 머신러닝 기술이 발전하면서 Auto-ML(Automated Machine Learning)이 다양한 분야에서 활용되고 있다. Auto-ML은 데이터 전처리, 최적 알고리즘 선택, 하이퍼파라미터 튜닝, 모델 학습 및 평가 등의 모든 과정을 자동화하는 기술이다. 그러나 아직까지 수문 분야에서 댐 유입량을 예측하기 위한 모델을 개발하는데 있어서 Auto-ML을 활용한 사례는 부족하고, 특히 댐 유입량의 예측 정확성을 확보하기 위해 High-inflow and low-inflow 의 변동 특성을 고려한 하이브리드 결합 방식을 통해 Auto-ML 기반 앙상블 모델을 개발하고 평가한 연구는 없다. 본 연구에서는 Auto-ML의 패키지 중 Auto-sklearn을 통해 홍수기, 비홍수기 유입량 변동 특성을 반영한 하이브리드 앙상블 댐 유입량 예측 모델을 개발하였다. 소양강댐을 대상으로 적용한 결과, 하이브리드 Auto-sklearn 앙상블 모델의 댐 유입량 예측 성능은 R2 0.868, RMSE 66.23 m3/s, MAE 16.45 m3/s로 단일 Auto-sklearn을 통해 구축 된 앙상블 모델보다 전반적으로 우수한 것으로 나타났다. 특히 FDC (Flow Duration Curve)의 저수기, 갈수기 구간에서 두 모델의 유입량 예측 경향은 큰 차이를 보였으며, 하이브리드 Auto-sklearn 모델의 예측 값이 관측 값과 더욱 유사한 것으로 나타났다. 이는 홍수기, 비홍수기 구간에 대한 앙상블 모델이 독립적으로 구축되는 과정에서 각 모델에 대한 하이퍼파라미터가 최적화되었기 때문이라 판단된다. 향후 본 연구의 방법론은 보다 정확한 댐 유입량 예측 자료를 생성하기 위한 방안 수립뿐만 아니라 다양한 분야의 불균형한 데이터셋을 이용한 앙상블 모델을 구축하는데도 유용하게 활용될 수 있을 것으로 사료된다.

  • PDF

Development of ensemble method for ultra-shortterm rainfall prediction using radar data (레이더자료를 이용한 초단기 강우 앙상블 예측 기법 개발)

  • Noh, Hui-Seong;Lee, Dong-Ryul;Hwang, Suk-Hwan;Kang, Sung-Dae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.193-193
    • /
    • 2020
  • 집중호우로 인한 이재민 발생, 침수 등 많은 인명 및 재산 피해가 지속적으로 발생함에 따라, 홍수재해를 사전에 대응하는 다양한 방법에 대한 관심이 증가하고 있다. 본 연구에서는 레이더 반사도를 이용하여 강우의 이동방향과 이동속도를 추정하여 초단기 정량강우예측(QPF)이 가능한 기법을 개발하고, 2016년 태풍 차바 사상에 대하여 비슬산 레이더자료를 이용하여 분석을 실시하였다. 개발기법은 1단계 레이더 강우강도 앙상블 멤버 생성, 2단계 레이더 강우강도 이동속도 계산, 3단계 레이더 강우강도 앙상블 초단기 예보, 4단계 초단기 예보 검증의 과정으로 이루어진다. 본 연구결과물인 레이더 기반 초단기 강우예측자료는 수치예보기반 강우예측자료 및 다양한 레이더 기반 초단기예보자료들과 함께 강우예측율 향상에 기여할 것으로 판단된다.

  • PDF

A Dynamic Ensemble Method using Adaptive Weight Adjustment for Concept Drifting Streaming Data (컨셉 변동 스트리밍 데이터를 위한 적응적 가중치 조정을 이용한 동적 앙상블 방법)

  • Kim, Young-Deok;Park, Cheong Hee
    • Journal of KIISE
    • /
    • v.44 no.8
    • /
    • pp.842-853
    • /
    • 2017
  • Streaming data is a sequence of data samples that are consistently generated over time. The data distribution or concept can change over time, and this change becomes a factor to reduce the performance of a classification model. Adaptive incremental learning can maintain the classification performance by updating the current classification model with the weight adjusted according to the degree of concept drift. However, selecting the proper weight value depending on the degree of concept drift is difficult. In this paper, we propose a dynamic ensemble method based on adaptive weight adjustment according to the degree of concept drift. Experimental results demonstrate that the proposed method shows higher performance than the other compared methods.

LSTM model predictions of inflow considering climate change and climate variability (기후변화 및 기후변동성을 고려한 LSTM 모형 기반 유입량 예측)

  • Kwon, jihwan;Kim, Jongho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.348-348
    • /
    • 2022
  • 미래에 대한 기후는 과거와 비교하여 변동성이 더 크고 불확실성 또한 더 크기 때문에 미래의 기후변화를 예측하기 위해서는 기후변화의 절대적인 크기뿐 아니라 불확실한 정도도 함께 고려되어야 한다. 본 연구에서는 CMIP6(Coupled Model Intercomparison Project Phase 6) DB에서 제공된 일 단위 18개의 GCMs(General Circulation Models)의 결과를 분석하였으며 또한 3개의SSP(Shared Socioeconomic Pathway)시나리오와 3개의 미래 구간에 대하여 100개의 앙상블을 각각 생성하였다. 불확실성을 초래하는 원인을 3가지로 구분하고, 각각의 원인에 대한 불확실성의 정도를 앙상블 시나리오에 반영하고자 한다. 현재 기간 및 미래 기간에 대해 100개의 20년 시계열 날씨변수 앙상블을 생성하여 LSTM(Long short-term memory)의 입력자료로 사용하여 댐유입량, 저수위, 방류량을 산정하였다. 댐 유입량 및 방류량의 예측성능을 향상시키기 위해 Input predictor의 종류를 선정하는 방법과 그 변수들의 lag time을 결정하는 방법, 입력자료들을 재구성하는 방법, 하이퍼 매개변수를 효율적으로 최적화하는 방법, 목적함수 설정 방법들을 제시하여 댐 유입량 및 방류량의 예측을 크게 향상시키고자 하였다. 본 연구에서 예측된 미래의 댐유입량 및 방류량 정보는 홍수 또는 가뭄 등 다양한 수자원 관련 문제의 전략을 수립하는 데 있어서 적절한 도움이 될 것이다.

  • PDF

Prediction of Cardiovascular Disease Steps using Support Vector Machine Ensemble (SVM 앙상블을 이용한 심혈관질환 질환단계 예측)

  • Eom Jae-Hong;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.76-78
    • /
    • 2006
  • 현재 심혈관 질환은 암 다음으로 높은 사망 원인으로 기록되고 있어 심혈관 질환에 대한 초기 진단은 질환의 치료에 매우 중요한 문제로 대두되고 있다. 본 논문에서는 SVM을 이용하여 심혈관질환 환자의 질환 단계를 예측하였다. 일반적으로 이진분류에 사용되는 SVM을 이용하여 정상 및 질환 $1{\sim}3$기의 총 4가지 분류가 필요한 다분류 분류문제를 처리하기 위해서 논문에서는 독립적 학습된 단일 SVM 분류기들을 결합하여 분류를 수행하는 SVM 앙상블 방법을 사용하였다. 단일 분류기의 결합은 Majority voting, 최소자승에러기반 가중치 부여, 2단계층 결합 등의 방법으로 수행하여 심혈관 질환 분류에 적합한 앙상블의 구성을 시도하였다. 실험 데이터는 (주)제노프라의 압타머 칩 데이터를 사용하였다. 서로 다른 데이터를 이용하여 학습된 이종의 SVM들을 결합한 결과 질환단계 예측에 있어서 단일 SVM을 이용하여 질환 단계를 예측하는 경우 보다 향상된 질환단계 예측 성능을 관찰할 수 있었으며, 심혈관 질환의 예측에 대해서는 단일 SVM 분류기의 2단 계층 결합법이 가장 좋은 성능을 보임을 확인하였다.

  • PDF

SVM Ensemble Techniques for Class Imbalance Problem (데이터 불균형 문제에서의 SVM 앙상블 기법의 적용)

  • 강필성;이형주;조성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.706-708
    • /
    • 2004
  • 대부분의 기계학습 알고리즘은 학습 데이터에서 각각의 범주간의 비율이 동일하거나 비슷하다는 가정 하에 문제를 풀게 된다. 그러나 실제 문제에서는 그 비율이 동일하지 않으며 매우 큰 차이를 보이기도 하는데, 이는 분류 성능을 저하시키는 요인이기도 하다 따라서 본 논문에서는 이러한 데이터의 불균형 문제를 해소하는 방안으로 SVM 앙상블 기법을 적용한 샘플링을 제안하고 이를 실제 불균형 데이터에 적용함으로써 제안된 방법이 기존의 방법들에 비해 향상된 성능을 나타내는 것을 보였다.

  • PDF

Malicious Insider Detection Using Boosting Ensemble Methods (앙상블 학습의 부스팅 방법을 이용한 악의적인 내부자 탐지 기법)

  • Park, Suyun
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.32 no.2
    • /
    • pp.267-277
    • /
    • 2022
  • Due to the increasing proportion of cloud and remote working environments, various information security incidents are occurring. Insider threats have emerged as a major issue, with cases in which corporate insiders attempting to leak confidential data by accessing it remotely. In response, insider threat detection approaches based on machine learning have been developed. However, existing machine learning methods used to detect insider threats do not take biases and variances into account, which leads to limited performance. In this paper, boosting-type ensemble learning algorithms are applied to verify the performance of malicious insider detection, conduct a close analysis, and even consider the imbalance in datasets to determine the final result. Through experiments, we show that using ensemble learning achieves similar or higher accuracy to other existing malicious insider detection approaches while considering bias-variance tradeoff. The experimental results show that ensemble learning using bagging and boosting methods reached an accuracy of over 98%, which improves malicious insider detection performance by 5.62% compared to the average accuracy of single learning models used.

Path Loss Prediction Using an Ensemble Learning Approach

  • Beom Kwon;Eonsu Noh
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.2
    • /
    • pp.1-12
    • /
    • 2024
  • Predicting path loss is one of the important factors for wireless network design, such as selecting the installation location of base stations in cellular networks. In the past, path loss values were measured through numerous field tests to determine the optimal installation location of the base station, which has the disadvantage of taking a lot of time to measure. To solve this problem, in this study, we propose a path loss prediction method based on machine learning (ML). In particular, an ensemble learning approach is applied to improve the path loss prediction performance. Bootstrap dataset was utilized to obtain models with different hyperparameter configurations, and the final model was built by ensembling these models. We evaluated and compared the performance of the proposed ensemble-based path loss prediction method with various ML-based methods using publicly available path loss datasets. The experimental results show that the proposed method outperforms the existing methods and can predict the path loss values accurately.

Comparative assessment of ensemble kalman filtering and particle filtering for lumped hydrologic modeling (집중형 수문모형에 대한 앙상블 칼만필터와 파티클 필터의 수문자료동화 특성 비교)

  • Garim Lee;Bomi Kim;Songhee Lee;Seong Jin Noh
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.233-233
    • /
    • 2023
  • 효율적인 수자원 관리에 필수적인 요소 중 하나는 유역 유출의 정확한 예측이다. 동일한 유역이라 할지라도 과거 기후조건에 대해 매개변수나 모형구조가 최적화된 수문모형은 현재나 미래 기후에 대해 최적이라 할수 없으며, 이에 따라 유역 유출 해석의 불확실성 또한 증가하고 있다. 수문자료동화는 모형의 입력 자료에 따른 불확실성을 줄이고 예측정확도를 향상 시킬 수 있는 방법으로, 수문모형의 상태량이나 매개변수를 업데이트하여 모형 초기 조건의 가능성 높은 추정치를 생성하는 기법이다. 본 연구에서는 국내 댐 상류 유역에 대해 집중형 수문모형과 순차자료동화 기법의 연계 패키지인 airGRdatassim 모형을 적용하여, 앙상블 칼만 필터와 파티클 필터 기법의 수문자료동화 특성을 비교 분석하고, 자료동화와 관련된 하이퍼-매개변수의 불확실성이 수문모의 성능에 미치는 영향을 분석하였다. 자료동화 적용 결과, 두 자료동화 기법 중 파티클 필터에 의한 모의성능이 높았으며 기상강제력 노이즈의 범위, 갱신 대상 상태량 설정, 앙상블 설정 등 수문자료동화의 설정과 관련된 하이퍼 매개변수의 불확실성은 두 기법별 뚜렷한 차이를 보였다. 또한, 본 연구에서는 일단위에서 시단위로 확장한 유량 예측 자료동화의 시험 모의결과 및 앙상블 수문동화기법의 도전과제에 대해서도 논의한다.

  • PDF

Application of a large-scale climate ensemble simulation database for estimating the extreme rainfall (확률강우량 산정을 위한 대규모 기후 앙상블 모의자료의 적용)

  • Kim, Youngkyu;Son, Minwoo
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.333-333
    • /
    • 2022
  • 본 연구는 저빈도·고강도의 확률강우량 산정을 위해, 대규모 기후 앙상블 모의실험 기반으로 생성된 d4PDF(Data for Policy Decision Making for Future Change)를 적용하는 것을 목적으로 수행되었다. 또한, d4PDF 를 이용하여 산정된 확률강우량과 관측자료 및 빈도해석을 통해서 산정된 확률강우량을 비교함으로써 빈도해석의 적용에 따라 발생하는 불확실성을 분석하였다. 이와 같은 연구는 용담댐에 위치한 금산, 임실, 전주, 장수 관측소를 대상으로 수행되었다. d4PDF 자료는 총 50 개의 앙상블로 구성되어 있으며, 하나의 앙상블은 60 년 동안의 기상자료를 제공하기 때문에 한 지점에서 3,000 개의 연 최대 일 강우량을 수집 및 활용하는 것이 가능했다. 이와 같은 d4PDF 의 특징을 토대로 본 연구는 빈도해석 방법을 적용하지 않고, 3000 개의 연 최대 일 강수량을 비모수적 접근법(Non-parametric approach)에 따라 규모별로 나열하여, 10 년부터 1000 년의 재현기간을 갖는 확률강우량을 산정했다. 그 후, 관측 자료와 Gumbel 및 GEV(General extreme value) 분포를 토대로 산정된 확률강우량과의 편차를 산정하였다. 그 결과, 재현기간과 관측 기간의 차이가 증가할수록 이 편차가 증가하였으며, 이 결과는 짧은 관측 기간과 빈도해석의 적용은 재현기간이 증가할수록 신뢰하기 어려운 확률강우량을 제시한다는 것을 의미한다. 반면에, d4PDF 는 대규모 표본을 이용함으로써 이와 같은 불확실성을 최소화시켜 합리적인 저빈도·고강도의 확률강우량을 제시하였다.

  • PDF