• 제목/요약/키워드: extreme gradient boosting

검색결과 58건 처리시간 0.025초

A Comparative Study of Phishing Websites Classification Based on Classifier Ensembles

  • Tama, Bayu Adhi;Rhee, Kyung-Hyune
    • Journal of Multimedia Information System
    • /
    • 제5권2호
    • /
    • pp.99-104
    • /
    • 2018
  • Phishing website has become a crucial concern in cyber security applications. It is performed by fraudulently deceiving users with the aim of obtaining their sensitive information such as bank account information, credit card, username, and password. The threat has led to huge losses to online retailers, e-business platform, financial institutions, and to name but a few. One way to build anti-phishing detection mechanism is to construct classification algorithm based on machine learning techniques. The objective of this paper is to compare different classifier ensemble approaches, i.e. random forest, rotation forest, gradient boosted machine, and extreme gradient boosting against single classifiers, i.e. decision tree, classification and regression tree, and credal decision tree in the case of website phishing. Area under ROC curve (AUC) is employed as a performance metric, whilst statistical tests are used as baseline indicator of significance evaluation among classifiers. The paper contributes the existing literature on making a benchmark of classifier ensembles for web phishing detection.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

다양한 앙상블 알고리즘을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Various Ensemble Models)

  • 조경철;김주완;김균엽;박성진;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.543-545
    • /
    • 2019
  • 본 논문은 최신 한국어 의존 구문 분석 모델(Korean dependency parsing model)들과 다양한 앙상블 모델(ensemble model)들을 결합하여 그 성능을 분석한다. 단어 표현은 미리 학습된 워드 임베딩 모델(word embedding model)과 ELMo(Embedding from Language Model), Bert(Bidirectional Encoder Representations from Transformer) 그리고 다양한 추가 자질들을 사용한다. 또한 사용된 의존 구문 분석 모델로는 Stack Pointer Network Model, Deep Biaffine Attention Parser와 Left to Right Pointer Parser를 이용한다. 최종적으로 각 모델의 분석 결과를 앙상블 모델인 Bagging 기법과 XGBoost(Extreme Gradient Boosting) 이용하여 최적의 모델을 제안한다.

  • PDF

An Ensemble Model for Credit Default Discrimination: Incorporating BERT-based NLP and Transformer

  • Sophot Ky;Ju-Hong Lee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.624-626
    • /
    • 2023
  • Credit scoring is a technique used by financial institutions to assess the creditworthiness of potential borrowers. This involves evaluating a borrower's credit history to predict the likelihood of defaulting on a loan. This paper presents an ensemble of two Transformer based models within a framework for discriminating the default risk of loan applications in the field of credit scoring. The first model is FinBERT, a pretrained NLP model to analyze sentiment of financial text. The second model is FT-Transformer, a simple adaptation of the Transformer architecture for the tabular domain. Both models are trained on the same underlying data set, with the only difference being the representation of the data. This multi-modal approach allows us to leverage the unique capabilities of each model and potentially uncover insights that may not be apparent when using a single model alone. We compare our model with two famous ensemble-based models, Random Forest and Extreme Gradient Boosting.

지진 데이터를 이용한 건물 피해 예측 모델의 성능 분석 (Performance Analysis of Building Damage Prediction Models using Earthquake Data)

  • 채송화;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.547-548
    • /
    • 2023
  • 내진 설계가 되어있지 않은 건물의 경우, 지진으로 인해 건물 붕괴 가능성이 높아지며 이로 인해 많은 인명 피해가 발생할 수 있다. 지진으로 인한 건물의 피해를 예측하고 이를 기반으로 취약점을 보완한다면 인명 피해를 줄일 수 있으므로 건물 피해 예측 모델에 대한 연구가 필요하다. 본 논문에서는 2015 년 네팔 대지진으로 인해 손상된 건물 데이터를 활용하여 Random Forest 와 Extreme Gradient Boosting 기계학습 분류 알고리즘을 사용하여 지진 피해 예측 모델의 정확도를 비교하였다.

Incorporating BERT-based NLP and Transformer for An Ensemble Model and its Application to Personal Credit Prediction

  • Sophot Ky;Ju-Hong Lee;Kwangtek Na
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.9-15
    • /
    • 2024
  • Tree-based algorithms have been the dominant methods used build a prediction model for tabular data. This also includes personal credit data. However, they are limited to compatibility with categorical and numerical data only, and also do not capture information of the relationship between other features. In this work, we proposed an ensemble model using the Transformer architecture that includes text features and harness the self-attention mechanism to tackle the feature relationships limitation. We describe a text formatter module, that converts the original tabular data into sentence data that is fed into FinBERT along with other text features. Furthermore, we employed FT-Transformer that train with the original tabular data. We evaluate this multi-modal approach with two popular tree-based algorithms known as, Random Forest and Extreme Gradient Boosting, XGBoost and TabTransformer. Our proposed method shows superior Default Recall, F1 score and AUC results across two public data sets. Our results are significant for financial institutions to reduce the risk of financial loss regarding defaulters.

Optimized machine learning algorithms for predicting the punching shear capacity of RC flat slabs

  • Huajun Yan;Nan Xie;Dandan Shen
    • Advances in concrete construction
    • /
    • 제17권1호
    • /
    • pp.27-36
    • /
    • 2024
  • Reinforced concrete (RC) flat slabs should be designed based on punching shear strength. As part of this study, machine learning (ML) algorithms were developed to accurately predict the punching shear strength of RC flat slabs without shear reinforcement. It is based on Bayesian optimization (BO), combined with four standard algorithms (Support vector regression, Decision trees, Random forests, Extreme gradient boosting) on 446 datasets that contain six design parameters. Furthermore, an analysis of feature importance is carried out by Shapley additive explanation (SHAP), in order to quantify the effect of design parameters on punching shear strength. According to the results, the BO method produces high prediction accuracy by selecting the optimal hyperparameters for each model. With R2 = 0.985, MAE = 0.0155 MN, RMSE = 0.0244 MN, the BO-XGBoost model performed better than the original XGBoost prediction, which had R2 = 0.917, MAE = 0.064 MN, RMSE = 0.121 MN in total dataset. Additionally, recommendations are provided on how to select factors that will influence punching shear resistance of RC flat slabs without shear reinforcement.

Calibration of Portable Particulate Mattere-Monitoring Device using Web Query and Machine Learning

  • Loh, Byoung Gook;Choi, Gi Heung
    • Safety and Health at Work
    • /
    • 제10권4호
    • /
    • pp.452-460
    • /
    • 2019
  • Background: Monitoring and control of PM2.5 are being recognized as key to address health issues attributed to PM2.5. Availability of low-cost PM2.5 sensors made it possible to introduce a number of portable PM2.5 monitors based on light scattering to the consumer market at an affordable price. Accuracy of light scatteringe-based PM2.5 monitors significantly depends on the method of calibration. Static calibration curve is used as the most popular calibration method for low-cost PM2.5 sensors particularly because of ease of application. Drawback in this approach is, however, the lack of accuracy. Methods: This study discussed the calibration of a low-cost PM2.5-monitoring device (PMD) to improve the accuracy and reliability for practical use. The proposed method is based on construction of the PM2.5 sensor network using Message Queuing Telemetry Transport (MQTT) protocol and web query of reference measurement data available at government-authorized PM monitoring station (GAMS) in the republic of Korea. Four machine learning (ML) algorithms such as support vector machine, k-nearest neighbors, random forest, and extreme gradient boosting were used as regression models to calibrate the PMD measurements of PM2.5. Performance of each ML algorithm was evaluated using stratified K-fold cross-validation, and a linear regression model was used as a reference. Results: Based on the performance of ML algorithms used, regression of the output of the PMD to PM2.5 concentrations data available from the GAMS through web query was effective. The extreme gradient boosting algorithm showed the best performance with a mean coefficient of determination (R2) of 0.78 and standard error of 5.0 ㎍/㎥, corresponding to 8% increase in R2 and 12% decrease in root mean square error in comparison with the linear regression model. Minimum 100 hours of calibration period was found required to calibrate the PMD to its full capacity. Calibration method proposed poses a limitation on the location of the PMD being in the vicinity of the GAMS. As the number of the PMD participating in the sensor network increases, however, calibrated PMDs can be used as reference devices to nearby PMDs that require calibration, forming a calibration chain through MQTT protocol. Conclusions: Calibration of a low-cost PMD, which is based on construction of PM2.5 sensor network using MQTT protocol and web query of reference measurement data available at a GAMS, significantly improves the accuracy and reliability of a PMD, thereby making practical use of the low-cost PMD possible.

기계학습기법을 이용한 땅밀림 위험등급 분류 (Classification of Soil Creep Hazard Class Using Machine Learning)

  • 이기하;레수안히엔;연민호;서준표;이창우
    • 한국방재안전학회논문집
    • /
    • 제14권3호
    • /
    • pp.17-27
    • /
    • 2021
  • 본 연구에서는 6개의 기계학습 기법들을 활용하여 2019년과 2020년 전국 땅밀림 현장조사 결과를 기반으로 땅밀림 위험지역을 A부터 C까지 3개 등급(A등급: 위험, B등급: 보통, C등급: 양호)으로 구분할 수 있는 분류모형을 구축하고, 분류 정확도를 비교·분석한다. 기계학습 기법으로는 K-Nearest Neighbor, Support Vector Machine, Logistic Regression, Decision Tree, Random Forest, Extreme Gradient Boosting 총 6개를 적용하였다. 분류 정확도 분석결과, 6개의 기법 모두 0.9 이상의 우수한 정확도를 보여주었다. 수치형 자료를 학습에 적용한 경우가, 문자형 자료를 학습한 모형보다 우수한 성능을 나타냈으며, 현장조사 평가점수 자료군(C1~C4) 보다는 전문가의견이 반영된 평가점수 자료군(R1~R4)으로 학습한 모형이 정확도가 높은 것으로 분석되었다. 특히, 직접징후와 간접징후 정보를 학습에 반영한 경우가 예측정확도가 높게 나타났다. 향후 땅밀림 현장조사 자료가 지속적으로 확보될 경우, 본 연구에서 활용한 기계학습기법은 땅밀림 분류를 위한 도구로 활용이 가능할 것으로 판단된다.

앙상블 기반 모델을 이용한 서울시 PM2.5 농도 예측 및 분석 (Prediction and Analysis of PM2.5 Concentration in Seoul Using Ensemble-based Model)

  • 류민지;손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1191-1205
    • /
    • 2022
  • 복잡하고 광범위한 원인을 가진 대기오염물질 중 particulate matter (PM)은 입자의 크기에 따라 분류된다. 그 중 PM2.5는 그 크기가 매우 작아 사람이 흡입하면 인간의 호흡기나 심혈관에 질병을 유발할 수 있다. 이러한 위험에 대비하기 위해서는 국가 중심의 관리와 사전에 예방할 수 있는 모니터링 및 예측이 중요하다. 본 연구는 고농도 미세먼지의 발생이 잦은 서울시의 PM2.5를 local data assimilation and prediction system (LDAPS) 기상 관련 인자 15가지와 aerosol optical depth (AOD), 화학인자 4가지를 독립변수로 하여 앙상블 모델 두 가지 random forest (RF)와 extreme gradient boosting (XGB)로 예측하고자 하였다. 예측에 사용된 두 모델의 성능 평가와 인자 중요도 평가를 수행하였으며, 계절별 모델 분석도 수행하였다. 예측 정확도 결과, RF가 R2 = 0.85, XGB가 R2 = 0.91의 높은 예측 정확도를 보이며 XGB가 RF보다 PM2.5 예측에 적합한 모델임을 확인하였다. 계절별 모델 분석 결과, 봄에 농도가 높은 관측 값과 비교하여 예측 수행이 잘 되었다고 할 수 있다. 본 연구는 다양한 인자를 이용하여 서울시의 PM2.5를 예측하였고, 좋은 성능을 보이는 앙상블 기반의 PM2.5 예측 모델을 구축하였다.