• 제목/요약/키워드: SHAP(Shapley additive explanations)

검색결과 11건 처리시간 0.026초

SHAP을 이용한 설명 가능한 신용카드 연체 예측 (Explainable Credit Default Prediction Using SHAP)

  • 김민중;김승우;문지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.39-40
    • /
    • 2024
  • 본 연구는 SHAP(SHapley Additive exPlanations)을 활용하여 신용카드 사용자의 연체 가능성을 예측하는 기계학습 모델의 해석 가능성을 강화하는 방법을 제안한다. 대규모 신용카드 데이터를 분석하여, 고객의 나이, 성별, 결혼 상태, 결제 이력 등이 연체 발생에 미치는 영향을 명확히 하는 것을 목표로 한다. 본 연구를 토대로 금융기관은 더 정확한 위험 관리를 수행하고, 고객에게 맞춤형 서비스를 제공할 수 있는 기반을 마련할 수 있다.

  • PDF

SHAP을 활용한 벌크선 메인엔진 연료 소모량 예측연구 (A Study on the Prediction of Fuel Consumption of Bulk Ship Main Engine Using Explainable Artificial Intelligence)

  • 김현주;박민규;이지환
    • 한국항해항만학회지
    • /
    • 제47권4호
    • /
    • pp.182-190
    • /
    • 2023
  • 본 연구에서는 벌크 선박의 연료 소비를 예측하기 위해 XGBoost와 SHapley Additive exPlanation (SHAP)을 사용하는 예측 모델을 제안한다. 기존 연구에서도 선박 엔진 데이터와 기상데이터를 활용하였지만 선박 연료소모량 예측 모델에 대한 예측 결과의 신뢰성과 예측 모델 구현에 사용된 변수들에 대한 설명이 부족한 한계가 있었다. 이러한 문제를 해결하기 위해 본 연구에서는 XGBoost와 SHAP를 사용하여 예측 모델을 개발하였다. 이 연구는 연구 배경, 범위, 관련 규정 및 이전 연구들, 그리고 연구 방법론에 대한 소개를 제공하며, 또한 벌크선 데이터 정제 방법과 예측 모델 결과의 검증을 설명한다.

Experimental Analysis of Bankruptcy Prediction with SHAP framework on Polish Companies

  • Tuguldur Enkhtuya;Dae-Ki Kang
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.53-58
    • /
    • 2023
  • With the fast development of artificial intelligence day by day, users are demanding explanations about the results of algorithms and want to know what parameters influence the results. In this paper, we propose a model for bankruptcy prediction with interpretability using the SHAP framework. SHAP (SHAPley Additive exPlanations) is framework that gives a visualized result that can be used for explanation and interpretation of machine learning models. As a result, we can describe which features are important for the result of our deep learning model. SHAP framework Force plot result gives us top features which are mainly reflecting overall model score. Even though Fully Connected Neural Networks are a "black box" model, Shapley values help us to alleviate the "black box" problem. FCNNs perform well with complex dataset with more than 60 financial ratios. Combined with SHAP framework, we create an effective model with understandable interpretation. Bankruptcy is a rare event, then we avoid imbalanced dataset problem with the help of SMOTE. SMOTE is one of the oversampling technique that resulting synthetic samples are generated for the minority class. It uses K-nearest neighbors algorithm for line connecting method in order to producing examples. We expect our model results assist financial analysts who are interested in forecasting bankruptcy prediction of companies in detail.

SHAP를 활용한 중요변수 파악 및 선택에 따른 잔여유효수명 예측 성능 변동에 대한 연구 (A Study on the Remaining Useful Life Prediction Performance Variation based on Identification and Selection by using SHAP)

  • 윤연아;이승훈;김용수
    • 산업경영시스템학회지
    • /
    • 제44권4호
    • /
    • pp.1-11
    • /
    • 2021
  • Recently, the importance of preventive maintenance has been emerging since failures in a complex system are automatically detected due to the development of artificial intelligence techniques and sensor technology. Therefore, prognostic and health management (PHM) is being actively studied, and prediction of the remaining useful life (RUL) of the system is being one of the most important tasks. A lot of researches has been conducted to predict the RUL. Deep learning models have been developed to improve prediction performance, but studies on identifying the importance of features are not carried out. It is very meaningful to extract and interpret features that affect failures while improving the predictive accuracy of RUL is important. In this paper, a total of six popular deep learning models were employed to predict the RUL, and identified important variables for each model through SHAP (Shapley Additive explanations) that one of the explainable artificial intelligence (XAI). Moreover, the fluctuations and trends of prediction performance according to the number of variables were identified. This paper can suggest the possibility of explainability of various deep learning models, and the application of XAI can be demonstrated. Also, through this proposed method, it is expected that the possibility of utilizing SHAP as a feature selection method.

전이 학습 및 SHAP 분석을 활용한 트랜스포머 기반 감정 분류 모델 (A Transformer-Based Emotion Classification Model Using Transfer Learning and SHAP Analysis )

  • 임수빈 ;이병천 ;전인수 ;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.706-708
    • /
    • 2023
  • In this study, we embark on a journey to uncover the essence of emotions by exploring the depths of transfer learning on three pre-trained transformer models. Our quest to classify five emotions culminates in discovering the KLUE (Korean Language Understanding Evaluation)-BERT (Bidirectional Encoder Representations from Transformers) model, which is the most exceptional among its peers. Our analysis of F1 scores attests to its superior learning and generalization abilities on the experimental data. To delve deeper into the mystery behind its success, we employ the powerful SHAP (Shapley Additive Explanations) method to unravel the intricacies of the KLUE-BERT model. The findings of our investigation are presented with a mesmerizing text plot visualization, which serves as a window into the model's soul. This approach enables us to grasp the impact of individual tokens on emotion classification and provides irrefutable, visually appealing evidence to support the predictions of the KLUE-BERT model.

머신러닝을 활용한 사회 · 경제지표 기반 산재 사고사망률 상대비교 방법론 (Socio-economic Indicators Based Relative Comparison Methodology of National Occupational Accident Fatality Rates Using Machine Learning)

  • 김경훈;이수동
    • 대한안전경영과학회지
    • /
    • 제24권4호
    • /
    • pp.41-47
    • /
    • 2022
  • A reliable prediction model of national occupational accident fatality rate can be used to evaluate level of safety and health protection for workers in a country. Moreover, the socio-economic aspects of occupational accidents can be identified through interpretation of a well-organized prediction model. In this paper, we propose a machine learning based relative comparison methods to predict and interpret a national occupational accident fatality rate based on socio-economic indicators. First, we collected 29 years of the relevant data from 11 developed countries. Second, we applied 4 types of machine learning regression models and evaluate their performance. Third, we interpret the contribution of each input variable using Shapley Additive Explanations(SHAP). As a result, Gradient Boosting Regressor showed the best predictive performance. We found that different patterns exist across countries in accordance with different socio-economic variables and occupational accident fatality rate.

컨셉 드리프트를 고려한 조기탐지 및 해석 프레임워크 (A Framework for Early Detection and Interpretation of Concept Drift)

  • 강민정;오수빈;이상민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.701-704
    • /
    • 2023
  • 본 연구는 반도체 제조 과정에서 생산 가용 능력이 저하되는 시점을 조기 탐지하기 위한 프레임워크를 제안한다. 이를 위해 데이터 패턴의 불규칙한 변동이 잦은 환경에서 모델의 재학습 없이 최적의 성능을 유지할 수 있도록 온라인 학습 방식을 활용하였다. Augmented Dicky-Fuller test 를 통해 데이터의 정상성 여부를 검정하고, 데이터에 변화가 있을 경우 학습 모델은 지속적으로 업데이트된다. 특히, 상한 재공재고는 생산량과 직결되는 주요 지표로써, 낮게 예측된 시점에서 주요 원인 변수를 파악하는 것이 중요하다. 따라서 정확도와 효율성 측면에서 다른 모델 대비 가장 우수한 성능을 보였던 제안 기법에 shapley additive explanations(SHAP)을 적용하여 생산 저하 시 문제가 되는 원인 변수를 분석하고자 하였다.

PageRank 특징을 활용한 RDP기반 내부전파경로 탐지 및 SHAP를 이용한 설명가능한 시스템 (RDP-based Lateral Movement Detection using PageRank and Interpretable System using SHAP)

  • 윤지영;김동욱;신건윤;김상수;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.1-11
    • /
    • 2021
  • 인터넷이 발달함에 따라 다양하고 복잡한 사이버공격들이 등장하기 시작했다. 공격들을 방어하기 위해 네트워크 외부에서 다양한 방식의 탐지 시스템들이 활용되었으나 내부에서 공격자를 탐지하는 시스템 및 연구는 현저히 드물어 내부에 들어온 공격자를 탐지하지 못해 큰 문제를 야기하기도 했다. 이를 해결하고자 공격자의 움직임을 추적하고 탐지하는 내부전파경로 탐지 시스템에 대한 연구가 등장하기 시작했다. 특히 그중에서도 Remote Desktop Protocol(RDP) 내 특징을 추출해 탐지하는 방식은 간편하면서도 매우 좋은 결과를 나타내었다. 하지만 그럼에도 불구하고 이전 연구들은 각 로그온 된 노드들 자체의 영향 및 관계성을 고려하지 않았으며, 제시된 특징 또한 일부 모델에서는 떨어지는 결과를 제공하기도 했다. 또한 왜 그렇게 판단했는지 판단에 대해 설명하지 못한다는 문제점도 존재했다. 이는 결과적으로 모델의 신뢰성 및 견고성 문제를 야기하게 된다. 이를 해결하기 위해 본 연구에서는 PageRank 특징을 활용한 RDP기반 내부전파경로 탐지 및 SHAP를 이용한 설명가능한 시스템을 제안한다. 페이지랭크 알고리즘과 여러 통계적인 기법을 활용해 여러 모델에서 활용 가능한 특징들을 생성하고 SHAP을 활용해 모델 예측에 대한 설명을 제공한다. 본 연구에서는 이전 연구에 비해 대부분의 모델에서 더 높은 성능을 보여주는 특징을 생성했고 이를 SHAP을 이용해 효과적으로 증명했다.

Development of ensemble machine learning models for evaluating seismic demands of steel moment frames

  • Nguyen, Hoang D.;Kim, JunHee;Shin, Myoungsu
    • Steel and Composite Structures
    • /
    • 제44권1호
    • /
    • pp.49-63
    • /
    • 2022
  • This study aims to develop ensemble machine learning (ML) models for estimating the peak floor acceleration and maximum top drift of steel moment frames. For this purpose, random forest, adaptive boosting, gradient boosting regression tree (GBRT), and extreme gradient boosting (XGBoost) models were considered. A total of 621 steel moment frames were analyzed under 240 ground motions using OpenSees software to generate the dataset for ML models. From the results, the GBRT and XGBoost models exhibited the highest performance for predicting peak floor acceleration and maximum top drift, respectively. The significance of each input variable on the prediction was examined using the best-performing models and Shapley additive explanations approach (SHAP). It turned out that the peak ground acceleration had the most significant impact on the peak floor acceleration prediction. Meanwhile, the spectral accelerations at 1 and 2 s had the most considerable influence on the maximum top drift prediction. Finally, a graphical user interface module was created that places a pioneering step for the application of ML to estimate the seismic demands of building structures in practical design.

설명 가능한 인공지능과 CNN을 활용한 암호화폐 가격 등락 예측모형 (The Prediction of Cryptocurrency Prices Using eXplainable Artificial Intelligence based on Deep Learning)

  • 홍태호;원종관;김은미;김민수
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.129-148
    • /
    • 2023
  • 블록체인 기술이 적용되어 있는 암호화폐는 높은 가격 변동성을 가지며 투자자 및 일반 대중으로부터 큰 관심을 받아왔다. 이러한 관심을 바탕으로 암호화폐를 비롯한 투자상품의 미래가치를 예측하기 위한 연구가 이루어지고 있으나 예측모형에 대한 설명력 및 해석 가능성이 낮아 실무에서 활용하기 어렵다는 비판을 받아왔다. 본 연구에서는 암호화폐 가격 예측모형의 성과를 향상시키기 위해 금융투자상품의 가치평가에 활용되는 기술적 지표들과 함께 투자자의 사회적 관심도를 반영할 수 있는 구글 키워드 검색량 데이터를 사용하고 설명 가능한 인공지능을 적용하여 모형에 대한 해석을 제공하고자 한다. 최근 금융 시계열 분야에서 예측성과의 우수성을 인정받고 있는 LSTM(Long Short Term Memory)과 CNN(Convolutional Neural Networks)을 활용하고, 'bitcoin'을 검색어로 하는 구글 검색량 데이터를 적용해 일주일 후의 가격 등락 예측모형을 구축하였다. LSTM과 CNN을 활용해 구축한 모형들이 높은 예측성능을 보였으며 구글 검색량을 반영한 모형에서 더 높은 예측성과를 확인할 수 있었다. 딥러닝 모형의 해석 가능성 및 설명력을 위해 XAI의 SHAP 기법을 적용한 결과, 구글 검색량과 함께 과매수, 과매도 정도를 파악할 수 있는 지표들이 모형의 의사결정에 가장 큰 영향들을 미치고 있음을 파악할 수 있었다. 본 연구는 암호화폐 가격 등락 예측에 있어 전통적으로 시계열 예측에 우수한 성과를 인정받고 있는 LSTM뿐만 아니라 이미지 분류에서 높은 예측성과를 보이는 딥러닝 기법인 CNN 또한 우수한 예측성능을 보일 수 있음을 확인하였으며, XAI를 통해 예측모형에 대한 해석을 제공하고, 대중의 심리를 반영하는 정보 중 하나인 구글 검색량을 활용해 예측성과를 향상시킬 수 있다는 것을 확인했다는 점에서 의의가 있다.