• 제목/요약/키워드: SHAP Analysis

검색결과 57건 처리시간 0.036초

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

머신러닝과 설명가능한 인공지능 SHAP을 활용한 사범대 과학교육 전공생의 전공만족도 및 학업만족도 영향요인 탐색 (Exploration of Factors on Pre-service Science Teachers' Major Satisfaction and Academic Satisfaction Using Machine Learning and Explainable AI SHAP)

  • 서지범;강남화
    • 과학교육연구지
    • /
    • 제47권1호
    • /
    • pp.37-51
    • /
    • 2023
  • 본 연구는 사범대 과학교육전공 재학생의 전공만족도와 학업만족도에 영향을 주는 요인을 머신러닝 모델인 랜덤 포레스트와 그래디언트 부스팅 모델과 SHAP 기법을 활용하여 탐색했다. 연구 결과, 그래디언트 부스팅 모델의 성능이 랜덤 포레스트보다 우수한 것으로 드러났으나 그 차이는 크지 않았다. 전공만족도에 영향을 주는 요인으로는 '본인 전공 교과에 해당하는 고교시절 과학교사 만족도', '교직 동기', '나이' 등이 있으며, 학업만족도는 '나이', '성별', '내신 과학 전문교과 이수여부'의 영향을 크게 받는 것으로 드러났다. SHAP value를 활용하여 변인의 영향력을 밝힐 수 있었고, 그 결과가 집단 전체에 대한 것과 개별적 분석으로 각각 도출이 가능했고, 서로 보완적 결과가 도출이 가능함을 확인하였다. 연구 결과를 바탕으로 과학교육과 재학생의 전공 및 학업 만족도를 지원하기 위한 방안을 제안하였다.

거대언어모델 기반 SHAP 분석을 이용한 리튬 이온 배터리 잔존 수명 예측 기법 해석 (Large Language Model-based SHAP Analysis for Interpretation of Remaining Useful Life Prediction of Lithium-ion Battery)

  • 이재승;유제혁
    • 한국산업정보학회논문지
    • /
    • 제29권5호
    • /
    • pp.51-68
    • /
    • 2024
  • 이동성을 갖춘 전자 장비에 에너지원을 공급하는 리튬 이온 배터리를 안전하게 운영하기 위해서는 배터리의 잔존 수명을 정확히 예측하는 것이 중요하다. 최근, 기계학습 기술의 발달로, 인공지능 기반의 배터리 잔존 수명 예측 모델이 활발히 연구되고 있다. 하지만, 기존 모델들은 모델 내부에서 일어나는 추론 과정을 알 수 없어 기계학습을 통해 예측된 값을 완전히 신뢰하고 사용하는 데 제약이 있었다. 이를 해결하기 위해 여러 설명가능한 인공지능 기법이 제안되었지만, 이러한 기법들은 단순히 결과를 그래프 형태로 시각화하였기에 사용자가 직접 그래프를 분석해야 했다. 이에 본 논문에서는 거대언어모델에 기반한 SHAP 분석을 이용하여 예측 모델의 추론 과정을 텍스트 형태로 해석하는 설명가능한 리튬 이온 배터리 잔존 수명 예측 기법을 제안한다. 공개 리튬 이온 배터리 데이터셋을 이용한 실험 결과, 거대언어모델 기반 SHAP 분석을 통해 모델의 예측 근거를 텍스트 형태로 구체화하여 이해할 수 있었다.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

Experimental Analysis of Bankruptcy Prediction with SHAP framework on Polish Companies

  • Tuguldur Enkhtuya;Dae-Ki Kang
    • International journal of advanced smart convergence
    • /
    • 제12권1호
    • /
    • pp.53-58
    • /
    • 2023
  • With the fast development of artificial intelligence day by day, users are demanding explanations about the results of algorithms and want to know what parameters influence the results. In this paper, we propose a model for bankruptcy prediction with interpretability using the SHAP framework. SHAP (SHAPley Additive exPlanations) is framework that gives a visualized result that can be used for explanation and interpretation of machine learning models. As a result, we can describe which features are important for the result of our deep learning model. SHAP framework Force plot result gives us top features which are mainly reflecting overall model score. Even though Fully Connected Neural Networks are a "black box" model, Shapley values help us to alleviate the "black box" problem. FCNNs perform well with complex dataset with more than 60 financial ratios. Combined with SHAP framework, we create an effective model with understandable interpretation. Bankruptcy is a rare event, then we avoid imbalanced dataset problem with the help of SMOTE. SMOTE is one of the oversampling technique that resulting synthetic samples are generated for the minority class. It uses K-nearest neighbors algorithm for line connecting method in order to producing examples. We expect our model results assist financial analysts who are interested in forecasting bankruptcy prediction of companies in detail.

증권 금융 상품 거래 고객의 이탈 예측 및 원인 추론 (A Securities Company's Customer Churn Prediction Model and Causal Inference with SHAP Value)

  • 나광택;이진영;김은찬;이효찬
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.215-229
    • /
    • 2020
  • 산업 분야를 막론하고 머신러닝의 관심이 매우 높아지고 있으나, 머신러닝이 지닌 설명 불가능성은 여전히 문제로 남아있어 적극적인 업무 적용에 어려움이 있다. 본고에서는 증권사 금융 고객을 대상으로 이탈예측 모델 개발 사례를 소개하고 SHAP Value 기법을 사용하여 설명 가능한 머신러닝 모델 개발 시도와 해석 가능성 도출에 대한 연구 결과를 소개한다. 총 6가지 고객이탈 모델을 비교 분석하였으며, SHAP Value와 고객의 자산 변화에 따른 유형 분류 및 데이터 분석을 통해 고객 이탈 원인을 추론한다. 본 연구 결과를 토대로, 향후 마케팅 담당자의 실제 고객 마케팅 수행에 있어 원인 추론이 가능한 이탈 예측 결괏값을 사용하고 고객별 마케팅 여부를 점검하는 등의 종합적 판단 지표로 활용할 수 있을 것으로 판단된다.

전이 학습과 SHAP 분석을 이용한 설명가능한 동물 울음소리 분류 기법 (Explainable Animal Sound Classification Scheme using Transfer Learning and SHAP Analysis)

  • 이재승;문재욱;박성우;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.768-771
    • /
    • 2024
  • 인간의 산업 활동으로 인하여 동물들의 생존이 위협받으면서, 동물의 서식 분포를 효과적으로 파악할 수 있는 자동 야생동물 모니터링 기술의 필요성이 점점 더 커지고 있다. 그중에서도 동물 소리 분류 기술은 시각적으로 식별이 어려운 동물에게도 효과적으로 적용할 수 있는 장점으로 인하여 널리 사용되고 있다. 최근 심층학습 기반의 분류 모델들이 좋은 판별 성능을 보여주고 있어 동물 소리 분류에 많이 사용되고 있지만, 희귀종과 같이 개체 수가 적어 데이터가 부족한 경우에는 학습이 제대로 이루어지지 않을 수 있다. 또한, 이러한 모델들은 모델 내부에서 일어나는 추론 과정을 알 수 없어 결과를 완전히 신뢰하고 사용하는 데 제약이 따른다. 이에 본 논문에서는 전이 학습을 통해 데이터 부족 문제를 고려하고, SHAP을 이용하여 분류 모델의 추론 과정을 해석하는 설명가능한 동물 소리 분류 기법을 제안한다. 실험 결과, 제안하는 기법은 지도 학습을 한 경우보다 분류 성능이 향상됨을 확인하였으며, SHAP 분석을 통해 모델의 분류 근거를 이해할 수 있었다.

시간대를 고려한 SHAP 기반의 신용카드 이상 거래 탐지 (Credit Card Fraud Detection Based on SHAP Considering Time Sequences)

  • 양소연 ;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.370-372
    • /
    • 2023
  • 신용카드 부정 사용은 고객 및 기업의 신용과 재산에 막대한 손실을 미치고 있다. 이에 따라 금융사들은 이상금융거래탐지시스템을 도입하였으나 이상 거래 발생 여부를 지속적으로 모니터링하고 있기 때문에 시스템 유지에 많은 비용이 따른다. 따라서 본 논문에서는 컴퓨팅 리소스를 절약함과 동시에 성능 개선 효과를 보인 신용카드 이상 거래 탐지 알고리즘을 제안한다. CTGAN 을 활용하여 정상 거래와 이상 거래의 비율을 일부 완화하였고 XAI 기법인 SHAP 를 활용하여 유의미한 속성값을 선택하였다. 이것을 기반으로 LSTM Autoencoder를 사용하여 이상데이터를 탐지하였다. 그 결과 전통적인 비지도 학습 기법에 비해 제안 알고리즘이 우수한 성능을 보였음을 확인하였다.

Optimizing Clustering and Predictive Modelling for 3-D Road Network Analysis Using Explainable AI

  • Rotsnarani Sethy;Soumya Ranjan Mahanta;Mrutyunjaya Panda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권9호
    • /
    • pp.30-40
    • /
    • 2024
  • Building an accurate 3-D spatial road network model has become an active area of research now-a-days that profess to be a new paradigm in developing Smart roads and intelligent transportation system (ITS) which will help the public and private road impresario for better road mobility and eco-routing so that better road traffic, less carbon emission and road safety may be ensured. Dealing with such a large scale 3-D road network data poses challenges in getting accurate elevation information of a road network to better estimate the CO2 emission and accurate routing for the vehicles in Internet of Vehicle (IoV) scenario. Clustering and regression techniques are found suitable in discovering the missing elevation information in 3-D spatial road network dataset for some points in the road network which is envisaged of helping the public a better eco-routing experience. Further, recently Explainable Artificial Intelligence (xAI) draws attention of the researchers to better interprete, transparent and comprehensible, thus enabling to design efficient choice based models choices depending upon users requirements. The 3-D road network dataset, comprising of spatial attributes (longitude, latitude, altitude) of North Jutland, Denmark, collected from publicly available UCI repositories is preprocessed through feature engineering and scaling to ensure optimal accuracy for clustering and regression tasks. K-Means clustering and regression using Support Vector Machine (SVM) with radial basis function (RBF) kernel are employed for 3-D road network analysis. Silhouette scores and number of clusters are chosen for measuring cluster quality whereas error metric such as MAE ( Mean Absolute Error) and RMSE (Root Mean Square Error) are considered for evaluating the regression method. To have better interpretability of the Clustering and regression models, SHAP (Shapley Additive Explanations), a powerful xAI technique is employed in this research. From extensive experiments , it is observed that SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions SHAP analysis validated the importance of latitude and altitude in predicting longitude, particularly in the four-cluster setup, providing critical insights into model behavior and feature contributions with an accuracy of 97.22% and strong performance metrics across all classes having MAE of 0.0346, and MSE of 0.0018. On the other hand, the ten-cluster setup, while faster in SHAP analysis, presented challenges in interpretability due to increased clustering complexity. Hence, K-Means clustering with K=4 and SVM hybrid models demonstrated superior performance and interpretability, highlighting the importance of careful cluster selection to balance model complexity and predictive accuracy.

전이 학습 및 SHAP 분석을 활용한 트랜스포머 기반 감정 분류 모델 (A Transformer-Based Emotion Classification Model Using Transfer Learning and SHAP Analysis )

  • 임수빈 ;이병천 ;전인수 ;문지훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.706-708
    • /
    • 2023
  • In this study, we embark on a journey to uncover the essence of emotions by exploring the depths of transfer learning on three pre-trained transformer models. Our quest to classify five emotions culminates in discovering the KLUE (Korean Language Understanding Evaluation)-BERT (Bidirectional Encoder Representations from Transformers) model, which is the most exceptional among its peers. Our analysis of F1 scores attests to its superior learning and generalization abilities on the experimental data. To delve deeper into the mystery behind its success, we employ the powerful SHAP (Shapley Additive Explanations) method to unravel the intricacies of the KLUE-BERT model. The findings of our investigation are presented with a mesmerizing text plot visualization, which serves as a window into the model's soul. This approach enables us to grasp the impact of individual tokens on emotion classification and provides irrefutable, visually appealing evidence to support the predictions of the KLUE-BERT model.