• Title/Summary/Keyword: model ensemble

Search Result 647, Processing Time 0.025 seconds

Development of data assimilation technique using a surrogate model (대체모형을 이용한 자료동화기법 개발)

  • Kim, Jongho;Tran, Vinh Ngoc
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.381-381
    • /
    • 2020
  • 자료동화(Data Assimilation) 기법은 실시간 수문학적 예측에 있어 정확도 향상을 위해 필수적인 과정이다. 가장 대중적으로 사용되는 기법들 중 하나가 모델 상태변수와 매개변수를 동시에 업데이트할 수 있는 이중 앙상블 칼만 필터(Dual Ensemble Kalman Filter)이다. 이 방법은 정확도 개선 및 적용의 용이성 때문에 많은 연구 분야에서 사용되어져 왔지만, 앙상블을 생성하는 과정에서 상당시간이 소요되는 단점이 존재한다. 본 연구에서는 상태변수와 매개변수를 동시에 업데이트 하면서 홍수 예측의 정확성을 보장할 뿐만 아니라, 앙상블 생성에 있어 계산 효율을 크게 향상시킬 수 있는 기법을 제안한다. Polynomial Chaos Expansion(PCE) 기법을 사용하여 앙상블 칼만 필터를 모방(mimic)할 수 있는 새로운 대체필터(Surrogate Filter)를 개발하는 것을 목표로 한다. 구체적으로 대체필터를 구성하기 위한 다양한 필터를 설계하였다. 첫째 시간에 대해서 PCE가 변화하지 않는 '불변 필터'(즉, 전체 예측기간에 대해 하나의 필터를 사용하여 자료동화할 수 있는 대체필터)와, 매 시간마다 PCE가 변화하는 '시변 필터'(즉, 예측하는 매 시간마다 새로운 필터를 생성해야 하는 대체필터)를 설계하여 적용성, 정확성, 예측성 등을 비교하였다. 또한, PCE의 하이퍼 매개변수를 최적화하기 위한 최적의 프레임 워크가 제안되어, 대체필터를 구축하는 데 효율을 높이고 PCE의 과적합(overfitting) 현상을 피할 수 있도록 하였다. 본 연구에서 제안된 기법은 기존 단일 및 이중 앙상블 칼만 필터(EnKF)의 결과와 비교 검증하였으며, 그 결과는 다음과 같다. (1) 대체필터의 대부분은 원래 EnKF와 비슷한 정도의 불확실성을 설명할 수 있음; (2) 모든 대체 필터는 선행시간이 짧은 경우의 예측에 있어 우수한 결과를 제공하며, 시변 필터가 불변 필터보다 더 정확한 예측 결과를 제공함; (3) 대체필터는 원래 앙상블 칼만필터보다 최대 500배 빠른 속도로 성능을 향상시킬 수 있음. 제안된 대체필터는 자료동화를 수행하는 기존필터와 비슷한 정도의 정확성, 매우 향상된 효율성을 보장함을 확인할 수 있었다.

  • PDF

A study on the uncertainty analysis of LENS-GRM using formal and informal likelihood measure (정형·비정형 우도를 이용한 LENS-GRM 불확실성 해석)

  • Lee, Sang Hyup;Choo, Inn Kyo;Yu, Yeong Uk;Jung, Younghun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.317-317
    • /
    • 2020
  • 수재해는 수자원 인프라의 부족 및 관리 미흡 등 많은 요인들이 있지만 강우의 유무와 크기가 가장 원초적인 요인들 중 하나이다. 정확한 강우량 추정 및 강우발생시간 예측은 수재해로 인한 피해를 예방하고 빠르게 대처할 수 있다. 그러나 강우예측에는 많은 불확실성을 내포하고 있기 때문에 이러한 불확실성을 이해하고 줄여 나가는 것이 필요하다. 최근 컴퓨터의 성능의 발전에 비례해 강우 예측 자료들도 점진적으로 발전을 거듭하고 있다. 이를 강우-유출 모형에 적용시 유출량 예측의 정확성 또한 비례하여 한층 더 발전할 수 있을 것이다. 하지만 신뢰성이 낮은 입력자료를 대상으로 하는 유출해석 모형은 많은 불확실성을 내포할 것이다. 따라서 본 연구에서는 위천 유역에 대해 LENS(Limited area ENsemble prediction System) 강우앙상블 예측자료의 적용성을 검토하고 그리드 기반 강우 유출 모델 GRM(Grid based Rainfall-runoff Model) 에 적용하여 유출예측의 불확실성을 평가하고자 하였다. 또한 강우예측 및 유출예측은 수 많은 매개변수를 포함하며 최종적인 예측은 더 큰 불확실한 범위로 산출될 수 있다. 이에 따라 본 연구에서는 Python3 기반 코딩으로 LENS 자료 구축 및 GRM 모형의 매개변수 보정을 각 2000회 씩에 걸쳐 총 2회 실시하여 수문학적, 지형학적 인자에 따른 불확실성 범위를 보정하고자 하였다. 매개변수의 보정은 비정형우도(Informal likelihood) NSE, 정형우도(Formal likelihood) Lognormal(Log-likelihood function)의 우도에 따른 행위모델을 산정하여 보정하였다. 따라서 본 연구에서는 선행연구들을 참고한 정형, 비정형 우도의 임계치를 이용한 불확실성해석에 적용하였으며 이는 사용자의 행위모델선정 임계치 범위 선정으로 인한 불확실성을 줄여나감에 기여할 수 있을것으로 사료된다.

  • PDF

AutoFe-Sel: A Meta-learning based methodology for Recommending Feature Subset Selection Algorithms

  • Irfan Khan;Xianchao Zhang;Ramesh Kumar Ayyasam;Rahman Ali
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.17 no.7
    • /
    • pp.1773-1793
    • /
    • 2023
  • Automated machine learning, often referred to as "AutoML," is the process of automating the time-consuming and iterative procedures that are associated with the building of machine learning models. There have been significant contributions in this area across a number of different stages of accomplishing a data-mining task, including model selection, hyper-parameter optimization, and preprocessing method selection. Among them, preprocessing method selection is a relatively new and fast growing research area. The current work is focused on the recommendation of preprocessing methods, i.e., feature subset selection (FSS) algorithms. One limitation in the existing studies regarding FSS algorithm recommendation is the use of a single learner for meta-modeling, which restricts its capabilities in the metamodeling. Moreover, the meta-modeling in the existing studies is typically based on a single group of data characterization measures (DCMs). Nonetheless, there are a number of complementary DCM groups, and their combination will allow them to leverage their diversity, resulting in improved meta-modeling. This study aims to address these limitations by proposing an architecture for preprocess method selection that uses ensemble learning for meta-modeling, namely AutoFE-Sel. To evaluate the proposed method, we performed an extensive experimental evaluation involving 8 FSS algorithms, 3 groups of DCMs, and 125 datasets. Results show that the proposed method achieves better performance compared to three baseline methods. The proposed architecture can also be easily extended to other preprocessing method selections, e.g., noise-filter selection and imbalance handling method selection.

Dam Inflow Prediction and Evaluation Using Hybrid Auto-sklearn Ensemble Model (하이브리드 Auto-sklearn 앙상블 모델을 이용한 댐 유입량 예측 및 평가)

  • Lee, Seoro;Bae, Joo Hyun;Lee, Gwanjae;Yang, Dongseok;Hong, Jiyeong;Kim, Jonggun;Lim, Kyoung Jae
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.307-307
    • /
    • 2022
  • 최근 기후변화와 댐 상류 토지이용 변화 등과 같은 다양한 원인에 의해 댐 유입량의 변동성이 증가하면서 댐 관리 및 운영조작 의사 결정에 어려움이 발생하고 있다. 따라서 이러한 댐 유입량의 변동 특성을 반영하여 댐 유입량을 정확하고 효율적으로 예측할 수 있는 방안이 필요한 실정이다. 머신러닝 기술이 발전하면서 Auto-ML(Automated Machine Learning)이 다양한 분야에서 활용되고 있다. Auto-ML은 데이터 전처리, 최적 알고리즘 선택, 하이퍼파라미터 튜닝, 모델 학습 및 평가 등의 모든 과정을 자동화하는 기술이다. 그러나 아직까지 수문 분야에서 댐 유입량을 예측하기 위한 모델을 개발하는데 있어서 Auto-ML을 활용한 사례는 부족하고, 특히 댐 유입량의 예측 정확성을 확보하기 위해 High-inflow and low-inflow 의 변동 특성을 고려한 하이브리드 결합 방식을 통해 Auto-ML 기반 앙상블 모델을 개발하고 평가한 연구는 없다. 본 연구에서는 Auto-ML의 패키지 중 Auto-sklearn을 통해 홍수기, 비홍수기 유입량 변동 특성을 반영한 하이브리드 앙상블 댐 유입량 예측 모델을 개발하였다. 소양강댐을 대상으로 적용한 결과, 하이브리드 Auto-sklearn 앙상블 모델의 댐 유입량 예측 성능은 R2 0.868, RMSE 66.23 m3/s, MAE 16.45 m3/s로 단일 Auto-sklearn을 통해 구축 된 앙상블 모델보다 전반적으로 우수한 것으로 나타났다. 특히 FDC (Flow Duration Curve)의 저수기, 갈수기 구간에서 두 모델의 유입량 예측 경향은 큰 차이를 보였으며, 하이브리드 Auto-sklearn 모델의 예측 값이 관측 값과 더욱 유사한 것으로 나타났다. 이는 홍수기, 비홍수기 구간에 대한 앙상블 모델이 독립적으로 구축되는 과정에서 각 모델에 대한 하이퍼파라미터가 최적화되었기 때문이라 판단된다. 향후 본 연구의 방법론은 보다 정확한 댐 유입량 예측 자료를 생성하기 위한 방안 수립뿐만 아니라 다양한 분야의 불균형한 데이터셋을 이용한 앙상블 모델을 구축하는데도 유용하게 활용될 수 있을 것으로 사료된다.

  • PDF

FubaoLM : Automatic Evaluation based on Chain-of-Thought Distillation with Ensemble Learning (FubaoLM : 연쇄적 사고 증류와 앙상블 학습에 의한 대규모 언어 모델 자동 평가)

  • Huiju Kim;Donghyeon Jeon;Ohjoon Kwon;Soonhwan Kwon;Hansu Kim;Inkwon Lee;Dohyeon Kim;Inho Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.448-453
    • /
    • 2023
  • 대규모 언어 모델 (Large Language Model, LLM)을 인간의 선호도 관점에서 평가하는 것은 기존의 벤치마크 평가와는 다른 도전적인 과제이다. 이를 위해, 기존 연구들은 강력한 LLM을 평가자로 사용하여 접근하였지만, 높은 비용 문제가 부각되었다. 또한, 평가자로서 LLM이 사용하는 주관적인 점수 기준은 모호하여 평가 결과의 신뢰성을 저해하며, 단일 모델에 의한 평가 결과는 편향될 가능성이 있다. 본 논문에서는 엄격한 기준을 활용하여 편향되지 않은 평가를 수행할 수 있는 평가 프레임워크 및 평가자 모델 'FubaoLM'을 제안한다. 우리의 평가 프레임워크는 심층적인 평가 기준을 통해 다수의 강력한 한국어 LLM을 활용하여 연쇄적 사고(Chain-of-Thought) 기반 평가를 수행한다. 이러한 평가 결과를 다수결로 통합하여 편향되지 않은 평가 결과를 도출하며, 지시 조정 (instruction tuning)을 통해 FubaoLM은 다수의 LLM으로 부터 평가 지식을 증류받는다. 더 나아가 본 논문에서는 전문가 기반 평가 데이터셋을 구축하여 FubaoLM 효과성을 입증한다. 우리의 실험에서 앙상블된 FubaoLM은 GPT-3.5 대비 16% 에서 23% 향상된 절대 평가 성능을 가지며, 이항 평가에서 인간과 유사한 선호도 평가 결과를 도출한다. 이를 통해 FubaoLM은 비교적 적은 비용으로도 높은 신뢰성을 유지하며, 편향되지 않은 평가를 수행할 수 있음을 보인다.

  • PDF

Students' Performance Prediction in Higher Education Using Multi-Agent Framework Based Distributed Data Mining Approach: A Review

  • M.Nazir;A.Noraziah;M.Rahmah
    • International Journal of Computer Science & Network Security
    • /
    • v.23 no.10
    • /
    • pp.135-146
    • /
    • 2023
  • An effective educational program warrants the inclusion of an innovative construction which enhances the higher education efficacy in such a way that accelerates the achievement of desired results and reduces the risk of failures. Educational Decision Support System (EDSS) has currently been a hot topic in educational systems, facilitating the pupil result monitoring and evaluation to be performed during their development. Insufficient information systems encounter trouble and hurdles in making the sufficient advantage from EDSS owing to the deficit of accuracy, incorrect analysis study of the characteristic, and inadequate database. DMTs (Data Mining Techniques) provide helpful tools in finding the models or forms of data and are extremely useful in the decision-making process. Several researchers have participated in the research involving distributed data mining with multi-agent technology. The rapid growth of network technology and IT use has led to the widespread use of distributed databases. This article explains the available data mining technology and the distributed data mining system framework. Distributed Data Mining approach is utilized for this work so that a classifier capable of predicting the success of students in the economic domain can be constructed. This research also discusses the Intelligent Knowledge Base Distributed Data Mining framework to assess the performance of the students through a mid-term exam and final-term exam employing Multi-agent system-based educational mining techniques. Using single and ensemble-based classifiers, this study intends to investigate the factors that influence student performance in higher education and construct a classification model that can predict academic achievement. We also discussed the importance of multi-agent systems and comparative machine learning approaches in EDSS development.

Development of Type 2 Prediction Prediction Based on Big Data (빅데이터 기반 2형 당뇨 예측 알고리즘 개발)

  • Hyun Sim;HyunWook Kim
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.5
    • /
    • pp.999-1008
    • /
    • 2023
  • Early prediction of chronic diseases such as diabetes is an important issue, and improving the accuracy of diabetes prediction is especially important. Various machine learning and deep learning-based methodologies are being introduced for diabetes prediction, but these technologies require large amounts of data for better performance than other methodologies, and the learning cost is high due to complex data models. In this study, we aim to verify the claim that DNN using the pima dataset and k-fold cross-validation reduces the efficiency of diabetes diagnosis models. Machine learning classification methods such as decision trees, SVM, random forests, logistic regression, KNN, and various ensemble techniques were used to determine which algorithm produces the best prediction results. After training and testing all classification models, the proposed system provided the best results on XGBoost classifier with ADASYN method, with accuracy of 81%, F1 coefficient of 0.81, and AUC of 0.84. Additionally, a domain adaptation method was implemented to demonstrate the versatility of the proposed system. An explainable AI approach using the LIME and SHAP frameworks was implemented to understand how the model predicts the final outcome.

Crop Yield Estimation Utilizing Feature Selection Based on Graph Classification (그래프 분류 기반 특징 선택을 활용한 작물 수확량 예측)

  • Ohnmar Khin;Sung-Keun Lee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.6
    • /
    • pp.1269-1276
    • /
    • 2023
  • Crop estimation is essential for the multinational meal and powerful demand due to its numerous aspects like soil, rain, climate, atmosphere, and their relations. The consequence of climate shift impacts the farming yield products. We operate the dataset with temperature, rainfall, humidity, etc. The current research focuses on feature selection with multifarious classifiers to assist farmers and agriculturalists. The crop yield estimation utilizing the feature selection approach is 96% accuracy. Feature selection affects a machine learning model's performance. Additionally, the performance of the current graph classifier accepts 81.5%. Eventually, the random forest regressor without feature selections owns 78% accuracy and the decision tree regressor without feature selections retains 67% accuracy. Our research merit is to reveal the experimental results of with and without feature selection significance for the proposed ten algorithms. These findings support learners and students in choosing the appropriate models for crop classification studies.

A Bi-directional Information Learning Method Using Reverse Playback Video for Fully Supervised Temporal Action Localization (완전지도 시간적 행동 검출에서 역재생 비디오를 이용한 양방향 정보 학습 방법)

  • Huiwon Gwon;Hyejeong Jo;Sunhee Jo;Chanho Jung
    • Journal of IKEEE
    • /
    • v.28 no.2
    • /
    • pp.145-149
    • /
    • 2024
  • Recently, research on temporal action localization has been actively conducted. In this paper, unlike existing methods, we propose two approaches for learning bidirectional information by creating reverse playback videos for fully supervised temporal action localization. One approach involves creating training data by combining reverse playback videos and forward playback videos, while the other approach involves training separate models on videos with different playback directions. Experiments were conducted on the THUMOS-14 dataset using TALLFormer. When using both reverse and forward playback videos as training data, the performance was 5.1% lower than that of the existing method. On the other hand, using a model ensemble shows a 1.9% improvement in performance.

Learning Wind Speed Forecast Model based on Numeric Prediction Algorithm (수치 예측 알고리즘 기반의 풍속 예보 모델 학습)

  • Kim, Se-Young;Kim, Jeong-Min;Ryu, Kwang-Ryel
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.3
    • /
    • pp.19-27
    • /
    • 2015
  • Technologies of wind power generation for development of alternative energy technology have been accumulated over the past 20 years. Wind power generation is environmentally friendly and economical because it uses the wind blowing in nature as energy resource. In order to operate wind power generation efficiently, it is necessary to accurately predict wind speed changing every moment in nature. It is important not only averagely how well to predict wind speed but also to minimize the largest absolute error between real value and prediction value of wind speed. In terms of generation operating plan, minimizing the largest absolute error plays an important role for building flexible generation operating plan because the difference between predicting power and real power causes economic loss. In this paper, we propose a method of wind speed prediction using numeric prediction algorithm-based wind speed forecast model made to analyze the wind speed forecast given by the Meteorological Administration and pattern value for considering seasonal property of wind speed as well as changing trend of past wind speed. The wind speed forecast given by the Meteorological Administration is the forecast in respect to comparatively wide area including wind generation farm. But it contributes considerably to make accuracy of wind speed prediction high. Also, the experimental results demonstrate that as the rate of wind is analyzed in more detail, the greater accuracy will be obtained.