• Title/Summary/Keyword: XGboost

Search Result 244, Processing Time 0.03 seconds

Development of ensemble machine learning model considering the characteristics of input variables and the interpretation of model performance using explainable artificial intelligence (수질자료의 특성을 고려한 앙상블 머신러닝 모형 구축 및 설명가능한 인공지능을 이용한 모형결과 해석에 대한 연구)

  • Park, Jungsu
    • Journal of Korean Society of Water and Wastewater
    • /
    • v.36 no.4
    • /
    • pp.239-248
    • /
    • 2022
  • The prediction of algal bloom is an important field of study in algal bloom management, and chlorophyll-a concentration(Chl-a) is commonly used to represent the status of algal bloom. In, recent years advanced machine learning algorithms are increasingly used for the prediction of algal bloom. In this study, XGBoost(XGB), an ensemble machine learning algorithm, was used to develop a model to predict Chl-a in a reservoir. The daily observation of water quality data and climate data was used for the training and testing of the model. In the first step of the study, the input variables were clustered into two groups(low and high value groups) based on the observed value of water temperature(TEMP), total organic carbon concentration(TOC), total nitrogen concentration(TN) and total phosphorus concentration(TP). For each of the four water quality items, two XGB models were developed using only the data in each clustered group(Model 1). The results were compared to the prediction of an XGB model developed by using the entire data before clustering(Model 2). The model performance was evaluated using three indices including root mean squared error-observation standard deviation ratio(RSR). The model performance was improved using Model 1 for TEMP, TN, TP as the RSR of each model was 0.503, 0.477 and 0.493, respectively, while the RSR of Model 2 was 0.521. On the other hand, Model 2 shows better performance than Model 1 for TOC, where the RSR was 0.532. Explainable artificial intelligence(XAI) is an ongoing field of research in machine learning study. Shapley value analysis, a novel XAI algorithm, was also used for the quantitative interpretation of the XGB model performance developed in this study.

On classification model of disaster severity level based on machine learning (머신러닝 기반의 재해 강도 단계 분류모형에 관한 연구)

  • Seungmin Lee;Wonjoon Wang;Yujin Kang;Seongcheol Shin;Hung Soo Kim;Soojun Kim
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.239-239
    • /
    • 2023
  • 최근 도시화 및 기후변화에 따른 재난의 피해가 증가하고 있다. 국내 기상청에서는 호우 및 태풍에 대한 예·경보(주의보, 경보)를 전국적으로 통일된 기준(3시간, 12시간 누적강우량)에 따라 발령하고 있다. 이에 따라 현재 예·경보 기준에는 피해가 발생한 사상에 대한 지역별 특성이 고려되지 않는 문제점이 있다. 본 연구에서는 이러한 문제점을 해결하기 위하여 서울특별시, 인천광역시, 경기도의 호우 및 태풍에 대한 재해사상별 발생한 피해액 및 누적강우량을 활용하여 재해강도의 단계별 기준을 수립하고, 입력자료로 관측된 강우값을 활용하여 발생할 수 있는 재해의 발생 강도를 분류하는 모형을 개발하고자 하였다. 본 연구에서는 호우 및 태풍에 의한 재해 피해액의 분위별로 재해강도 단계(관심, 주의, 경계, 심각)를 분류하였고, 재해강도 단계에 따른 누적강우량 기준을 지자체별로 제시하였으며, 분류한 재해의 강도 단계를 모형의 종속변수로 활용하였다. 재해피해가 발생하지 않은 무강우 지속시간을 산정하여 호우 사상을 분류하였다. 지자체별로 재해 발생강도 분류 모형 개발을 위하여 머신러닝 모형 4가지(의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, XGBoost)를 활용하였다. 본 연구에서 분류한 피해가 발생하지 않은 호우사상 및 피해가 발생한 사상별로 강우량, 지속시간 최대 강우량(3시간, 12시간), 선행강우량, 누적강우량을 독립변수로 입력하여 종속변수인 재해 발생 강도를 분류하였다. 각 모형별로 F1 Score를 이용한 정확도 평가 결과, 의사결정나무의 F1 Score가 평균 0.56으로 가장 우수한 정확도를 가지는 것으로 평가되었다. 본 연구에서 제시하는 머신러닝 기반 재해 발생 강도 분류모형을 활용하면 호우 및 태풍에 의한 재해에 대하여 지자체별로 재해 발생 강도를 단계별로 파악할 수 있어, 재난 담당자들의 의사결정을 위한 참고 자료로 활용될 수 있을 것으로 판단된다.

  • PDF

Comparative Study of Data Preprocessing and ML&DL Model Combination for Daily Dam Inflow Prediction (댐 일유입량 예측을 위한 데이터 전처리와 머신러닝&딥러닝 모델 조합의 비교연구)

  • Youngsik Jo;Kwansue Jung
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.358-358
    • /
    • 2023
  • 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 머신러닝&딥러닝(ML&DL) 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML&DL모델의 조합시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분분리조건을 적용하여 총 36가지 시나리오 조합을 ML&DL의 입력자료로 활용하였다. ML&DL 모델은 1) Linear Regression(LR), 2) Lasso, 3) Ridge, 4) SVR(Support Vector Regression), 5) Random Forest(RF), 6) LGBM(Light Gradient Boosting Model), 7) XGBoost의 7가지 ML방법과 8) LSTM(Long Short-Term Memory models), 9) TCN(Temporal Convolutional Network), 10) LSTM-TCN의 3가지 DL 방법, 총 10가지 ML&DL모델을 비교 검토하여 일유입량 예측을 위한 가장 적합한 데이터 조합 특성과 ML&DL모델을 성능평가와 함께 제시하였다. 학습된 모형의 유입량 예측 결과를 비교·분석한 결과, 소양강댐 유역에서는 딥러닝 중에서는 TCN모형이 가장 우수한 성능을 보였고(TCN>TCN-LSTM>LSTM), 트리기반 머신러닝중에서는 Random Forest와 LGBM이 우수한 성능을 보였으며(RF, LGBM>XGB), SVR도 LGBM수준의 우수한 성능을 나타내었다. LR, Lasso, Ridge 세가지 Regression모형은 상대적으로 낮은 성능을 보였다. 또한 소양강댐 댐유입량 예측에 대하여 강우, 유입량, 기상계열을 36가지로 조합한 결과, 입력자료에 lag-time이 적용된 강우계열의 조합 분석에서 세가지 Regression모델을 제외한 모든 모형에서 NSE(Nash-Sutcliffe Efficiency) 0.8이상(최대 0.867)의 성능을 보였으며, lag-time이 적용된 강우와 유입량계열을 조합했을 경우 NSE 0.85이상(최대 0.901)의 더 우수한 성능을 보였다.

  • PDF

Development of machine learning framework to inverse-track a contaminant source of hazardous chemicals in rivers (하천에 유입된 유해화학물질의 역추적을 위한 기계학습 프레임워크 개발)

  • Kwon, Siyoon;Seo, Il Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.112-112
    • /
    • 2020
  • 하천에서 유해화학물질 유입 사고 발생 시 수환경 피해를 최소화하기 위해 신속한 초기 대응이 필요하다. 따라서, 본 연구에서는 수환경 화학사고 대응 시스템 구축을 위해 하천 실시간 모니터링 지점에서 관측된 유해화학물질의 농도 자료를 이용하여 발생원의 유입 지점과 유입량을 역추적하는 프레임워크를 개발하였다. 본 연구에서 제시하는 프레임워크는 첫 번째로 하천 저장대 모형(Transient Storage Zone Model; TSM)과 HEC-RAS 모형을 이용하여 다양한 유량의 수리 조건에서 화학사고 시나리오를 생성하는 단계, 두번째로 생성된 시나리오의 유입 지점과 유입량에 대한 시간-농도 곡선 (BreakThrough Curve; BTC)을 21개의 곡선특징 (BTC feature)으로 추출하는 단계, 최종적으로 재귀적 특징 선택법(Recursive Feature Elimination; RFE)을 이용하여 의사결정나무 모형, 랜덤포레스트 모형, Xgboost 모형, 선형 서포트 벡터 머신, 커널 서포트 벡터 머신 그리고 Ridge 모형에 대한 모형별 주요 특징을 학습하고 성능을 비교하여 각각 유입 위치와 유입 질량 예측에 대한 최적 모형 및 특징 조합을 제시하는 단계로 구축하였다. 또한, 현장 적용성 제고를 위해 시간-농도 곡선을 2가지 경우 (Whole BTC와 Fractured BTC)로 가정하여 기계학습 모형을 학습시켜 모의결과를 비교하였다. 제시된 프레임워크의 검증을 위해서 낙동강 지류인 감천에 적용하여 모형을 구축하고 시나리오 자료 기반 검증과 Rhodamine WT를 이용한 추적자 실험자료를 이용한 검증을 수행하였다. 기계학습 모형들의 비교 검증 결과, 각 모형은 가중항 기반과 불순도 감소량 기반 특징 중요도 산출 방식에 따라 주요 특징이 상이하게 산출되었으며, 전체 시간-농도 곡선 (WBTC)과 부분 시간-농도 곡선 (FBTC)별 최적 모형도 다르게 산출되었다. 유입 위치 정확도 및 유입 질량 예측에 대한 R2는 대부분의 모형이 90% 이상의 우수한 결과를 나타냈다.

  • PDF

Prediction of Agricultural Purchases Using Structured and Unstructured Data: Focusing on Paprika (정형 및 비정형 데이터를 이용한 농산물 구매량 예측: 파프리카를 중심으로)

  • Somakhamixay Oui;Kyung-Hee Lee;HyungChul Rah;Eun-Seon Choi;Wan-Sup Cho
    • The Journal of Bigdata
    • /
    • v.6 no.2
    • /
    • pp.169-179
    • /
    • 2021
  • Consumers' food consumption behavior is likely to be affected not only by structured data such as consumer panel data but also by unstructured data such as mass media and social media. In this study, a deep learning-based consumption prediction model is generated and verified for the fusion data set linking structured data and unstructured data related to food consumption. The results of the study showed that model accuracy was improved when combining structured data and unstructured data. In addition, unstructured data were found to improve model predictability. As a result of using the SHAP technique to identify the importance of variables, it was found that variables related to blog and video data were on the top list and had a positive correlation with the amount of paprika purchased. In addition, according to the experimental results, it was confirmed that the machine learning model showed higher accuracy than the deep learning model and could be an efficient alternative to the existing time series analysis modeling.

A Study on the Hydrological Quantitative Precipitation Forecast(HQPF) based on Machine Learning for Rainfall Impact Forecasting (호우 영향예보를 위한 머신러닝 기반의 수문학적 정량강우예측(HQPF) 연구)

  • Choo, Kyung-Su;Shin, Yoon-Hu;Kim, Sung-Min;Jee, Yongkeun;Lee, Young-Mi;Kang, Dong-Ho;Kim, Byung-Sik
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.63-63
    • /
    • 2022
  • 기상 예보자료는 발생 가능한 재난의 예방 및 대비 차원에서 매우 중요한 자료로 활용되고 있다. 우리나라 기상청에서는 동네예보를 통해 5km 공간해상도의 1시간 간격 초단기예보와, 6시간 간격 정량강우예보(Quantitative Precipitation Forecast, QPF)의 단기예보 정보를 제공하고 있다. 그러나 이와 같은 예보자료는 강우량의 시·공간변화가 큰 집중호우와 같은 기상자료를 활용한 수문학적인 해석에는 한계가 있다. 예보자료를 수문학에 활용하기 위한 시·공간적 해상도 개선뿐만 아니라 방대한 기상 및 기후 자료의 예측성능을 개선하기 위한 다양한 연구가 진행되고 있다. 본 연구에서는 기상청이 제공하는 지역 앙상블 예측 시스템(Local ENsemble prediction System, LENS)와 종관기상관측시스템(ASOS) 및 방재기상관측시스템(AWS) 관측 데이터 및 동네예보에 기계학습 방법을 적용하여 수문학적 정량적 강수량 예측(Hydrological Quantitative Precipitation Forecast, HQPF) 정보를 생산하였다. 전처리 과정을 통해 모든 데이터의 시간해상도와 공간해상도를 동일한 해상도로 변환하였으며, 예측 변수의 인자 분석을 통해 기계학습의 예측 변수를 도출하였다. 기계학습 방법으로는 처리속도와 확장성을 고려하여 XGBoost(eXtreme Gradient Boosting) 방식을 적용하였으며, 집중호우에서의 예측정확도를 높이기 위해 확률매칭(PM) 방식을 적용하였다. 생산된 HQPF의 성능을 평가하기 위해 2020년에 발생한 14건의 호우 사상을 대상으로 태풍형과 비태풍형으로 구분하여 검증을 수행하였다.

  • PDF

Analysis of Ammunition Inspection Record Data and Development of Ammunition Condition Code Classification Model (탄약검사기록 데이터 분석 및 탄약상태기호 분류 모델 개발)

  • Young-Jin Jung;Ji-Soo Hong;Sol-Ip Kim;Sung-Woo Kang
    • Journal of the Korea Safety Management & Science
    • /
    • v.26 no.2
    • /
    • pp.23-31
    • /
    • 2024
  • In the military, ammunition and explosives stored and managed can cause serious damage if mishandled, thus securing safety through the utilization of ammunition reliability data is necessary. In this study, exploratory data analysis of ammunition inspection records data is conducted to extract reliability information of stored ammunition and to predict the ammunition condition code, which represents the lifespan information of the ammunition. This study consists of three stages: ammunition inspection record data collection and preprocessing, exploratory data analysis, and classification of ammunition condition codes. For the classification of ammunition condition codes, five models based on boosting algorithms are employed (AdaBoost, GBM, XGBoost, LightGBM, CatBoost). The most superior model is selected based on the performance metrics of the model, including Accuracy, Precision, Recall, and F1-score. The ammunition in this study was primarily produced from the 1980s to the 1990s, with a trend of increased inspection volume in the early stages of production and around 30 years after production. Pre-issue inspections (PII) were predominantly conducted, and there was a tendency for the grade of ammunition condition codes to decrease as the storage period increased. The classification of ammunition condition codes showed that the CatBoost model exhibited the most superior performance, with an Accuracy of 93% and an F1-score of 93%. This study emphasizes the safety and reliability of ammunition and proposes a model for classifying ammunition condition codes by analyzing ammunition inspection record data. This model can serve as a tool to assist ammunition inspectors and is expected to enhance not only the safety of ammunition but also the efficiency of ammunition storage management.

Hybrid machine learning with moth-flame optimization methods for strength prediction of CFDST columns under compression

  • Quang-Viet Vu;Dai-Nhan Le;Thai-Hoan Pham;Wei Gao;Sawekchai Tangaramvong
    • Steel and Composite Structures
    • /
    • v.51 no.6
    • /
    • pp.679-695
    • /
    • 2024
  • This paper presents a novel technique that combines machine learning (ML) with moth-flame optimization (MFO) methods to predict the axial compressive strength (ACS) of concrete filled double skin steel tubes (CFDST) columns. The proposed model is trained and tested with a dataset containing 125 tests of the CFDST column subjected to compressive loading. Five ML models, including extreme gradient boosting (XGBoost), gradient tree boosting (GBT), categorical gradient boosting (CAT), support vector machines (SVM), and decision tree (DT) algorithms, are utilized in this work. The MFO algorithm is applied to find optimal hyperparameters of these ML models and to determine the most effective model in predicting the ACS of CFDST columns. Predictive results given by some performance metrics reveal that the MFO-CAT model provides superior accuracy compared to other considered models. The accuracy of the MFO-CAT model is validated by comparing its predictive results with existing design codes and formulae. Moreover, the significance and contribution of each feature in the dataset are examined by employing the SHapley Additive exPlanations (SHAP) method. A comprehensive uncertainty quantification on probabilistic characteristics of the ACS of CFDST columns is conducted for the first time to examine the models' responses to variations of input variables in the stochastic environments. Finally, a web-based application is developed to predict ACS of the CFDST column, enabling rapid practical utilization without requesting any programing or machine learning expertise.

Correlation between Vocational Training Evaluation Data and Employment Outcomes: A Study on Prediction Approaches through Machine Learning Models (직업훈련생 평가 데이터와 취업 결과의 상관관계: 머신러닝 모델을 통한 예측 방안 연구)

  • Jae-Sung Chun;Il-Young Moon
    • Journal of Practical Engineering Education
    • /
    • v.16 no.3_spc
    • /
    • pp.291-296
    • /
    • 2024
  • This study analyzed various machine learning models that predict employment outcomes after vocational training using pre-assessment data of disabled vocational trainees. The study selected and utilized the most appropriate machine learning models based on a data set containing various personal characteristics, including trainees' gender, age, and type of disability. Through this analysis, the goal is to improve the employment rate and job satisfaction of disabled trainees using only pre-assessment data. As a result, it presents a universal approach that can be applied not only to people with disabilities, but also to vocational trainees from a variety of backgrounds. This is expected to make an important contribution to the development and implementation of tailored vocational training programs, ultimately helping to achieve better employment outcomes and job satisfaction.

Defect Prediction and Variable Impact Analysis in CNC Machining Process (CNC 가공 공정 불량 예측 및 변수 영향력 분석)

  • Hong, Ji Soo;Jung, Young Jin;Kang, Sung Woo
    • Journal of Korean Society for Quality Management
    • /
    • v.52 no.2
    • /
    • pp.185-199
    • /
    • 2024
  • Purpose: The improvement of yield and quality in product manufacturing is crucial from the perspective of process management. Controlling key variables within the process is essential for enhancing the quality of the produced items. In this study, we aim to identify key variables influencing product defects and facilitate quality enhancement in CNC machining process using SHAP(SHapley Additive exPlanations) Methods: Firstly, we conduct model training using boosting algorithm-based models such as AdaBoost, GBM, XGBoost, LightGBM, and CatBoost. The CNC machining process data is divided into training data and test data at a ratio 9:1 for model training and test experiments. Subsequently, we select a model with excellent Accuracy and F1-score performance and apply SHAP to extract variables influencing defects in the CNC machining process. Results: By comparing the performances of different models, the selected CatBoost model demonstrated an Accuracy of 97% and an F1-score of 95%. Using Shapley Value, we extract key variables that positively of negatively impact the dependent variable(good/defective product). We identify variables with relatively low importance, suggesting variables that should be prioritized for management. Conclusion: The extraction of key variables using SHAP provides explanatory power distinct from traditional machine learning techniques. This study holds significance in identifying key variables that should be prioritized for management in CNC machining process. It is expected to contribute to enhancing the production quality of the CNC machining process.