• 제목/요약/키워드: Xgboost (Extreme Gradient Boosting)

검색결과 24건 처리시간 0.017초

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

머신러닝 기반 위성영상과 수질·수문·기상 인자를 활용한 낙동강의 Chlorophyll-a 농도 추정 (Estimation of Chlorophyll-a Concentration in Nakdong River Using Machine Learning-Based Satellite Data and Water Quality, Hydrological, and Meteorological Factors)

  • 박소련;손상훈;배재구;이도이;서동주;김진수
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.655-667
    • /
    • 2023
  • 전 세계적으로 녹조 대발생은 빈번하게 보고되고 있으며, 국내에서도 매년 녹조로 인한 심각한 수질 오염 문제가 발생하고 있다. 지속적인 관리와 신속한 대응을 통한 수생태계 보호가 필요하다. 녹조 발생의 지표인 chlorophyll-a (Chl-a) 농도를 예측하기 위해 위성 영상을 이용한 연구가 많이 이루어지고 있다. 하지만 수계에 따라 변하는 분광특성과 대기 보정 오류로 인해 정확한 Chl-a 산출에 어려움이 있어 최근 머신러닝 모델을 활용하고 있다. 위성 분광지수 뿐만 아니라 녹조에 영향을 미치는 인자들에 대한 복합적인 고려가 필요하다. 따라서, 본 연구는 수질, 수문 및 기상 인자와 Sentinel-2 영상을 복합적으로 고려하여 데이터셋을 구축하였다. 최근 5년간 낙동강에 위치한 8개 보 구간의 Chl-a 농도 예측에 대표적인 앙상블 모델 random forest (RF)와 extreme gradient boosting (XGBoost)을 활용하였다. 모델 평가 지표로 r-squared score (R2), root mean square errors(RMSE), mean absolute errors (MAE)를 사용하였으며, XGBoost의 R2가 0.810, RMSE가 6.612, MAE가 4.457로 유의미한 결과를 얻은 것을 확인하였다. Shapley additive explanations (SHAP) 분석을 통해 두 모델 모두 수질 인자 suspended solids (SS), biochemical oxygen demand (BOD), dissolved oxygen (DO)과 red edge 밴드를 활용한 밴드비가 높은 중요도를 보인 것을 알 수 있었다. 다양한 입력 데이터는 모델 성능 향상에 도움을 주는 것을 확인할 수 있었으며, 국내외 녹조 탐지에 적용될 수 있을 것으로 보인다.

Empirical evaluations for predicting the damage of FRC wall subjected to close-in explosions

  • Duc-Kien Thai;Thai-Hoan Pham;Duy-Liem Nguyen;Tran Minh Tu;Phan Van Tien
    • Steel and Composite Structures
    • /
    • 제49권1호
    • /
    • pp.65-79
    • /
    • 2023
  • This paper presents a development of empirical evaluations, which can be used to evaluate the damage of fiber-reinforced concrete composites (FRC) wall subjected to close-in blast loads. For this development, a combined application of numerical simulation and machine learning approaches are employed. First, finite element modeling of FRC wall under blast loading is developed and verified using experimental data. Numerical analyses are then carried out to investigate the dynamic behavior of the FRC wall under blast loading. In addition, a data set of 384 samples on the damage of FRC wall due to blast loads is then produced in order to develop machine learning models. Second, three robust machine learning models of Random Forest (RF), Support Vector Machine (SVM), and Extreme Gradient Boosting (XGBoost) are employed to propose empirical evaluations for predicting the damage of FRC wall. The proposed empirical evaluations are very useful for practical evaluation and design of FRC wall subjected to blast loads.

인공지능 기반 광고비 예측 알고리즘 개발 (Development of AI-based advertising cost prediction algorithms)

  • 전경민;강재하;배희재;윤은수;김종원;정대식;송영기;김경수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.834-835
    • /
    • 2024
  • 시장 경쟁력을 확보하고 기업을 성장시키기 위해서는 광고 행위가 필수적이므로 현재까지 효율적으로 광고하기 위한 여러 가지 방안들이 활용되었다. 이 중에는 타 업체와의 경쟁전략을 위해서 경쟁업체의 광고비를 파악하려는 과정도 포함 되어있다. 이에 디지털 광고 측면에서는 상대적으로 광고의 노출, 클릭, 시간 대 등의 관련 정보를 획득하기 용이하므로 본 연구에서는 대량의 데이터를 이용하고 XGBoost(Extreme Gradient Boosting) 알고리즘을 활용하여 크롤링된 데이터 그룹을 분석하고, 클릭 수를 예측하는 모델을 구현하였다. 실험 결과 모델의 RMSE(Root Mean Squared Error) Average 가 1.13 정도 나온 것을 확인하였고 이에 따른 과적합을 피하기 위한 방안을 검토하였다.

  • PDF