• 제목/요약/키워드: SHAP 분석

검색결과 51건 처리시간 0.028초

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

설명 가능한 인공지능(XAI)을 활용한 침입탐지 신뢰성 강화 방안 (The Enhancement of intrusion detection reliability using Explainable Artificial Intelligence(XAI))

  • 정일옥;최우빈;김수철
    • 융합보안논문지
    • /
    • 제22권3호
    • /
    • pp.101-110
    • /
    • 2022
  • 다양한 분야에서 인공지능을 활용한 사례가 증가하면서 침입탐지 분야 또한 다양한 이슈를 인공지능을 통해 해결하려는 시도가 증가하고 있다. 하지만, 머신러닝을 통한 예측된 결과에 관한 이유를 설명하거나 추적할 수 없는 블랙박스 기반이 대부분으로 이를 활용해야 하는 보안 전문가에게 어려움을 주고 있다. 이러한 문제를 해결하고자 다양한 분야에서 머신러닝의 결정을 해석하고 이해하는데 도움이 되는 설명 가능한 AI(XAI)에 대한 연구가 증가하고 있다. 이에 본 논문에서는 머신러닝 기반의 침입탐지 예측 결과에 대한 신뢰성을 강화하기 위한 설명 가능한 AI를 제안한다. 먼저, XGBoost를 통해 침입탐지 모델을 구현하고, SHAP을 활용하여 모델에 대한 설명을 구현한다. 그리고 기존의 피처 중요도와 SHAP을 활용한 결과를 비교 분석하여 보안 전문가가 결정을 수행하는데 신뢰성을 제공한다. 본 실험을 위해 PKDD2007 데이터셋을 사용하였으며 기존의 피처 중요도와 SHAP Value에 대한 연관성을 분석하였으며, 이를 통해 SHAP 기반의 설명 가능한 AI가 보안 전문가들에게 침입탐지 모델의 예측 결과에 대한 신뢰성을 주는데 타당함을 검증하였다.

증권 금융 상품 거래 고객의 이탈 예측 및 원인 추론 (A Securities Company's Customer Churn Prediction Model and Causal Inference with SHAP Value)

  • 나광택;이진영;김은찬;이효찬
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.215-229
    • /
    • 2020
  • 산업 분야를 막론하고 머신러닝의 관심이 매우 높아지고 있으나, 머신러닝이 지닌 설명 불가능성은 여전히 문제로 남아있어 적극적인 업무 적용에 어려움이 있다. 본고에서는 증권사 금융 고객을 대상으로 이탈예측 모델 개발 사례를 소개하고 SHAP Value 기법을 사용하여 설명 가능한 머신러닝 모델 개발 시도와 해석 가능성 도출에 대한 연구 결과를 소개한다. 총 6가지 고객이탈 모델을 비교 분석하였으며, SHAP Value와 고객의 자산 변화에 따른 유형 분류 및 데이터 분석을 통해 고객 이탈 원인을 추론한다. 본 연구 결과를 토대로, 향후 마케팅 담당자의 실제 고객 마케팅 수행에 있어 원인 추론이 가능한 이탈 예측 결괏값을 사용하고 고객별 마케팅 여부를 점검하는 등의 종합적 판단 지표로 활용할 수 있을 것으로 판단된다.

SHAP을 이용한 설명 가능한 신용카드 연체 예측 (Explainable Credit Default Prediction Using SHAP)

  • 김민중;김승우;문지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.39-40
    • /
    • 2024
  • 본 연구는 SHAP(SHapley Additive exPlanations)을 활용하여 신용카드 사용자의 연체 가능성을 예측하는 기계학습 모델의 해석 가능성을 강화하는 방법을 제안한다. 대규모 신용카드 데이터를 분석하여, 고객의 나이, 성별, 결혼 상태, 결제 이력 등이 연체 발생에 미치는 영향을 명확히 하는 것을 목표로 한다. 본 연구를 토대로 금융기관은 더 정확한 위험 관리를 수행하고, 고객에게 맞춤형 서비스를 제공할 수 있는 기반을 마련할 수 있다.

  • PDF

머신러닝과 설명가능한 인공지능 SHAP을 활용한 사범대 과학교육 전공생의 전공만족도 및 학업만족도 영향요인 탐색 (Exploration of Factors on Pre-service Science Teachers' Major Satisfaction and Academic Satisfaction Using Machine Learning and Explainable AI SHAP)

  • 서지범;강남화
    • 과학교육연구지
    • /
    • 제47권1호
    • /
    • pp.37-51
    • /
    • 2023
  • 본 연구는 사범대 과학교육전공 재학생의 전공만족도와 학업만족도에 영향을 주는 요인을 머신러닝 모델인 랜덤 포레스트와 그래디언트 부스팅 모델과 SHAP 기법을 활용하여 탐색했다. 연구 결과, 그래디언트 부스팅 모델의 성능이 랜덤 포레스트보다 우수한 것으로 드러났으나 그 차이는 크지 않았다. 전공만족도에 영향을 주는 요인으로는 '본인 전공 교과에 해당하는 고교시절 과학교사 만족도', '교직 동기', '나이' 등이 있으며, 학업만족도는 '나이', '성별', '내신 과학 전문교과 이수여부'의 영향을 크게 받는 것으로 드러났다. SHAP value를 활용하여 변인의 영향력을 밝힐 수 있었고, 그 결과가 집단 전체에 대한 것과 개별적 분석으로 각각 도출이 가능했고, 서로 보완적 결과가 도출이 가능함을 확인하였다. 연구 결과를 바탕으로 과학교육과 재학생의 전공 및 학업 만족도를 지원하기 위한 방안을 제안하였다.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.

전이 학습과 SHAP 분석을 이용한 설명가능한 동물 울음소리 분류 기법 (Explainable Animal Sound Classification Scheme using Transfer Learning and SHAP Analysis)

  • 이재승;문재욱;박성우;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.768-771
    • /
    • 2024
  • 인간의 산업 활동으로 인하여 동물들의 생존이 위협받으면서, 동물의 서식 분포를 효과적으로 파악할 수 있는 자동 야생동물 모니터링 기술의 필요성이 점점 더 커지고 있다. 그중에서도 동물 소리 분류 기술은 시각적으로 식별이 어려운 동물에게도 효과적으로 적용할 수 있는 장점으로 인하여 널리 사용되고 있다. 최근 심층학습 기반의 분류 모델들이 좋은 판별 성능을 보여주고 있어 동물 소리 분류에 많이 사용되고 있지만, 희귀종과 같이 개체 수가 적어 데이터가 부족한 경우에는 학습이 제대로 이루어지지 않을 수 있다. 또한, 이러한 모델들은 모델 내부에서 일어나는 추론 과정을 알 수 없어 결과를 완전히 신뢰하고 사용하는 데 제약이 따른다. 이에 본 논문에서는 전이 학습을 통해 데이터 부족 문제를 고려하고, SHAP을 이용하여 분류 모델의 추론 과정을 해석하는 설명가능한 동물 소리 분류 기법을 제안한다. 실험 결과, 제안하는 기법은 지도 학습을 한 경우보다 분류 성능이 향상됨을 확인하였으며, SHAP 분석을 통해 모델의 분류 근거를 이해할 수 있었다.

가상현실 기반 건설안전교육에서 개인특성이 학습성과에 미치는 영향 - 머신러닝과 SHAP을 활용하여 - (Impact of personal characteristics on learning performance in virtual reality-based construction safety training - Using machine learning and SHAP -)

  • 최다정;구충완
    • 한국건설관리학회논문집
    • /
    • 제24권6호
    • /
    • pp.3-11
    • /
    • 2023
  • 건설산업의 높은 재해율을 줄이고자, VR 기반 건설안전교육의 도입이 장려되고 있다. 그러나 학습자의 특성을 고려하지 않은 교육방식으로 인해, 학습자의 개인특성에 맞는 효과적인 교육을 수행하지 못하는 한계가 있다. 본 연구에서는, VR 기반 건설안전교육에서 학습성과에 영향을 미치는 개인특성을 분석하는 것으로 목표로 하였고, 이를 위해 머신러닝과 SHAP 기법을 활용하였다. SHAP 분석 결과, 연령이 학습성과에 가장 많은 영향을 미치는 것으로 나타났고, 경력이 가장 작은 영향을 미치는 것으로 나타났다. 또한, 연령은 학습성과와 음(-)의 상관관계를 보이고 있어, VR 기반 건설안전교육의 도입은 낮은 연령에게 더 효과적일 수 있는 것으로 나타났다. 반면, 학력, 자격, 경력은 양(+)의 상관관계를 보였다. 학력이 낮은 학습자에게 더욱 이해하기 쉬운 컨텐츠를 제공함으로써, 학습성과를 향상시킬 필요가 있다. 또한, 자격과 경력이 낮은 학습자의 특성은 학습성과에 영향을 거의 미치지 않으므로, 그 이외의 학습자 특성에 집중함으로써, 학습자 맞춤형 교육 컨텐츠를 제공할 수 있을 것으로 기대된다. 본 연구를 통해, 여러 개인특성이 학습성과에 서로 다른 영향을 미칠 수 있음을 확인했고, 이러한 결과를 활용함으로써, 건설근로자의 개인특성을 고려한 효과적인 안전교육의 기회를 제공할 수 있을 것으로 기대된다.

SHAP 기반 NSL-KDD 네트워크 공격 분류의 주요 변수 분석 (Analyzing Key Variables in Network Attack Classification on NSL-KDD Dataset using SHAP)

  • 이상덕;김대규;김창수
    • 한국재난정보학회 논문집
    • /
    • 제19권4호
    • /
    • pp.924-935
    • /
    • 2023
  • Purpose: The central aim of this study is to leverage machine learning techniques for the classification of Intrusion Detection System (IDS) data, with a specific focus on identifying the variables responsible for enhancing overall performance. Method: First, we classified 'R2L(Remote to Local)' and 'U2R (User to Root)' attacks in the NSL-KDD dataset, which are difficult to detect due to class imbalance, using seven machine learning models, including Logistic Regression (LR) and K-Nearest Neighbor (KNN). Next, we use the SHapley Additive exPlanation (SHAP) for two classification models that showed high performance, Random Forest (RF) and Light Gradient-Boosting Machine (LGBM), to check the importance of variables that affect classification for each model. Result: In the case of RF, the 'service' variable and in the case of LGBM, the 'dst_host_srv_count' variable were confirmed to be the most important variables. These pivotal variables serve as key factors capable of enhancing performance in the context of classification for each respective model. Conclusion: In conclusion, this paper successfully identifies the optimal models, RF and LGBM, for classifying 'R2L' and 'U2R' attacks, while elucidating the crucial variables associated with each selected model.