• 제목/요약/키워드: Shapley Additive exPlanations (SHAP)

검색결과 20건 처리시간 0.021초

SHAP을 이용한 설명 가능한 신용카드 연체 예측 (Explainable Credit Default Prediction Using SHAP)

  • 김민중;김승우;문지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.39-40
    • /
    • 2024
  • 본 연구는 SHAP(SHapley Additive exPlanations)을 활용하여 신용카드 사용자의 연체 가능성을 예측하는 기계학습 모델의 해석 가능성을 강화하는 방법을 제안한다. 대규모 신용카드 데이터를 분석하여, 고객의 나이, 성별, 결혼 상태, 결제 이력 등이 연체 발생에 미치는 영향을 명확히 하는 것을 목표로 한다. 본 연구를 토대로 금융기관은 더 정확한 위험 관리를 수행하고, 고객에게 맞춤형 서비스를 제공할 수 있는 기반을 마련할 수 있다.

  • PDF

Experimental Analysis of Bankruptcy Prediction with SHAP framework on Polish Companies

  • Tuguldur Enkhtuya;Dae-Ki Kang
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.53-58
    • /
    • 2023
  • With the fast development of artificial intelligence day by day, users are demanding explanations about the results of algorithms and want to know what parameters influence the results. In this paper, we propose a model for bankruptcy prediction with interpretability using the SHAP framework. SHAP (SHAPley Additive exPlanations) is framework that gives a visualized result that can be used for explanation and interpretation of machine learning models. As a result, we can describe which features are important for the result of our deep learning model. SHAP framework Force plot result gives us top features which are mainly reflecting overall model score. Even though Fully Connected Neural Networks are a "black box" model, Shapley values help us to alleviate the "black box" problem. FCNNs perform well with complex dataset with more than 60 financial ratios. Combined with SHAP framework, we create an effective model with understandable interpretation. Bankruptcy is a rare event, then we avoid imbalanced dataset problem with the help of SMOTE. SMOTE is one of the oversampling technique that resulting synthetic samples are generated for the minority class. It uses K-nearest neighbors algorithm for line connecting method in order to producing examples. We expect our model results assist financial analysts who are interested in forecasting bankruptcy prediction of companies in detail.

An Exploratory Approach to Discovering Salary-Related Wording in Job Postings in Korea

  • Ha, Taehyun;Coh, Byoung-Youl;Lee, Mingook;Yun, Bitnari;Chun, Hong-Woo
    • Journal of Information Science Theory and Practice
    • /
    • 제10권spc호
    • /
    • pp.86-95
    • /
    • 2022
  • Online recruitment websites discuss job demands in various fields, and job postings contain detailed job specifications. Analyzing this text can elucidate the features that determine job salaries. Text embedding models can learn the contextual information in a text, and explainable artificial intelligence frameworks can be used to examine in detail how text features contribute to the models' outputs. We collected 733,625 job postings using the WORKNET API and classified them into low, mid, and high-range salary groups. A text embedding model that predicts job salaries based on the text in job postings was trained with the collected data. Then, we applied the SHapley Additive exPlanations (SHAP) framework to the trained model and discovered the significant words that determine each salary class. Several limitations and remaining words are also discussed.

Prediction of Stock Returns from News Article's Recommended Stocks Using XGBoost and LightGBM Models

  • Yoo-jin Hwang;Seung-yeon Son;Zoon-ky Lee
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.51-59
    • /
    • 2024
  • 투자자는 수익의 극대화를 위해 언론사의 기사를 포함한 다양한 정보를 활용하여 투자 전략을 수립한다. 이에 국내 언론사에서도 신뢰도 있는 투자정보를 제공하기 위해, 애널리스트의 종목분석 보고서에 기초한 종목 추천기사를 게재하고 있다. 본 연구에서는 종목 추천기사 게재를 하나의 사건(event)으로 간주하고, XGBoost와 LightGBM 모델을 활용하여 기사 게재 10일 이후 가격의 상승 또는 하락을 예측하는 분류 모델을 제시한다. 또한, 전체 추천종목을 유가증권시장과 코스닥 시장 및 기업규모(대형/소형)에 따라 4가지로 분류하고, 하위 그룹에 따라 모델의 예측 정확도에 차이가 있는지 파악하고자 한다. 학습 결과 전체 모델의 분류 정확도는 XGBoost 75%, LightGBM 71%로 나타났고, 예측 정확도는 유가증권 시장 예측력이 코스닥시장 주식 대비 높게 나타났으며, 대형주의 예측력이 소형주 보다 높게 나타났다. 마지막으로, SHAP(Shapley Additive exPlanations) 분석을 통해 개별 모델의 예측에 중요한 변수를 살펴보고 모델의 해석력을 제고하였다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.

Hybrid machine learning with moth-flame optimization methods for strength prediction of CFDST columns under compression

  • Quang-Viet Vu;Dai-Nhan Le;Thai-Hoan Pham;Wei Gao;Sawekchai Tangaramvong
    • Steel and Composite Structures
    • /
    • 제51권6호
    • /
    • pp.679-695
    • /
    • 2024
  • This paper presents a novel technique that combines machine learning (ML) with moth-flame optimization (MFO) methods to predict the axial compressive strength (ACS) of concrete filled double skin steel tubes (CFDST) columns. The proposed model is trained and tested with a dataset containing 125 tests of the CFDST column subjected to compressive loading. Five ML models, including extreme gradient boosting (XGBoost), gradient tree boosting (GBT), categorical gradient boosting (CAT), support vector machines (SVM), and decision tree (DT) algorithms, are utilized in this work. The MFO algorithm is applied to find optimal hyperparameters of these ML models and to determine the most effective model in predicting the ACS of CFDST columns. Predictive results given by some performance metrics reveal that the MFO-CAT model provides superior accuracy compared to other considered models. The accuracy of the MFO-CAT model is validated by comparing its predictive results with existing design codes and formulae. Moreover, the significance and contribution of each feature in the dataset are examined by employing the SHapley Additive exPlanations (SHAP) method. A comprehensive uncertainty quantification on probabilistic characteristics of the ACS of CFDST columns is conducted for the first time to examine the models' responses to variations of input variables in the stochastic environments. Finally, a web-based application is developed to predict ACS of the CFDST column, enabling rapid practical utilization without requesting any programing or machine learning expertise.

식생지수를 활용한 LULUCF 정주지 온실가스 인벤토리 산정을 위한 수목탐지 방법 개발 (Development of Tree Detection Methods for Estimating LULUCF Settlement Greenhouse Gas Inventories Using Vegetation Indices)

  • 이준우;한유한;이정택;박진혁;김근한
    • 대한원격탐사학회지
    • /
    • 제39권6_3호
    • /
    • pp.1721-1730
    • /
    • 2023
  • 전 세계적으로 지구온난화와 관련된 문제인식이 대두되면서, 도시지역에서의 탄소중립을 위해 탄소흡수원의 역할이 더욱 강조되고 있다. 정주지 탄소흡수원의 관리를 위해서는 탄소흡수원의 현황 파악이 필요하며, 이를 위해서는 많은 인력과 시간과 이에 따른 예산이 소요되게 된다. 본 연구에서는 서울시를 대상으로 기구축된 수목의 위치정보와 Sentinel-2 위성영상을 이용해 수목의 위치를 예측할 수 있는 지도를 제작했다. 이를 위해 수목 유무 데이터셋을 구축한 뒤 위성영상으로부터 구축한 식생지수 16종 정보를 이용하여 분석에 활용할 정형데이터를 생성했다. 그리고 생성된 정형데이터에 Extreme Gradient Boosting (XGBoost) 모델을 적용하여 학습 후, 수목 예측 지도를 제작했다. 이후 Shapley Additive exPlanations (SHAP) 분석을 통해 모델 학습에서 독립변수와 종속변수 간의 관계를 조사하였다. 서울의 국소 부분에 대해 제작된 지도와 세분류 토지피복지도와의 비교분석을 수행했고, 본 연구에서 제작된 수목 예측 모델의 경우 대로변 주변의 탐지하기 어려운 가로수의 경우에도 수목의 위치로 예측이 된다는 것을 확인했다.

CNC 가공 공정 불량 예측 및 변수 영향력 분석 (Defect Prediction and Variable Impact Analysis in CNC Machining Process)

  • 홍지수;정영진;강성우
    • 품질경영학회지
    • /
    • 제52권2호
    • /
    • pp.185-199
    • /
    • 2024
  • Purpose: The improvement of yield and quality in product manufacturing is crucial from the perspective of process management. Controlling key variables within the process is essential for enhancing the quality of the produced items. In this study, we aim to identify key variables influencing product defects and facilitate quality enhancement in CNC machining process using SHAP(SHapley Additive exPlanations) Methods: Firstly, we conduct model training using boosting algorithm-based models such as AdaBoost, GBM, XGBoost, LightGBM, and CatBoost. The CNC machining process data is divided into training data and test data at a ratio 9:1 for model training and test experiments. Subsequently, we select a model with excellent Accuracy and F1-score performance and apply SHAP to extract variables influencing defects in the CNC machining process. Results: By comparing the performances of different models, the selected CatBoost model demonstrated an Accuracy of 97% and an F1-score of 95%. Using Shapley Value, we extract key variables that positively of negatively impact the dependent variable(good/defective product). We identify variables with relatively low importance, suggesting variables that should be prioritized for management. Conclusion: The extraction of key variables using SHAP provides explanatory power distinct from traditional machine learning techniques. This study holds significance in identifying key variables that should be prioritized for management in CNC machining process. It is expected to contribute to enhancing the production quality of the CNC machining process.

설명 가능 인공지능 기술을 적용한 인천광역시 범죄 예측 및 요인 분석 (Crime Prediction and Factor Analysis of Incheon Metropolitan City Using Explainable Artificial Intelligence)

  • 김다현;김유경;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.513-515
    • /
    • 2022
  • 본 연구는 범죄를 발생시키는데 관련된 여러가지 요인들을 기반으로 범죄 예측 모델을 생성하고 설명 가능 인공지능 기술을 적용하여 인천 광역시를 대상으로 범죄 발생에 영향을 미치는 요인들을 분석하였다. 범죄 예측 모델 생성을 위해 XG Boost 알고리즘을 적용하였으며, 설명 가능 인공지능 기술로는 Shapley Additive exPlanations (SHAP)을 사용하였다. 기존 관련 사례들을 참고하여 범죄 예측에 사용된 변수를 선정하였고 변수에 대한 데이터는 공공 데이터를 수집하였다. 실험 결과 성매매단속 현황과 청소년 실종 가출 신고 현황이 범죄 발생에 큰 영향을 미치는 주요 요인으로 나타났다. 제안하는 모델은 범죄 발생 지역, 요인들을 미리 예측하여 제시함으로써 범죄 예방에 사용되는 인력자원, 물적자원 등을 용이하게 쓸 수 있도록 활용할 수 있다.

건설 사고사례 데이터 기반 건설업 사망사고 요인분석 (A Data-Driven Causal Analysis on Fatal Accidents in Construction Industry)

  • 최지윤;김시현;이송이;김경훈;이수동
    • 대한안전경영과학회지
    • /
    • 제25권3호
    • /
    • pp.63-71
    • /
    • 2023
  • The construction industry stands out for its higher incidence of accidents in comparison to other sectors. A causal analysis of the accidents is necessary for effective prevention. In this study, we propose a data-driven causal analysis to find significant factors of fatal construction accidents. We collected 14,318 cases of structured and text data of construction accidents from the Construction Safety Management Integrated Information (CSI). For the variables in the collected dataset, we first analyze their patterns and correlations with fatal construction accidents by statistical analysis. In addition, machine learning algorithms are employed to develop a classification model for fatal accidents. The integration of SHAP (SHapley Additive exPlanations) allows for the identification of root causes driving fatal incidents. As a result, the outcome reveals the significant factors and keywords wielding notable influence over fatal accidents within construction contexts.