• 제목/요약/키워드: SHAP 모델

검색결과 48건 처리시간 0.024초

SHAP을 활용한 벌크선 메인엔진 연료 소모량 예측연구 (A Study on the Prediction of Fuel Consumption of Bulk Ship Main Engine Using Explainable Artificial Intelligence)

  • 김현주;박민규;이지환
    • 한국항해항만학회지
    • /
    • 제47권4호
    • /
    • pp.182-190
    • /
    • 2023
  • 본 연구에서는 벌크 선박의 연료 소비를 예측하기 위해 XGBoost와 SHapley Additive exPlanation (SHAP)을 사용하는 예측 모델을 제안한다. 기존 연구에서도 선박 엔진 데이터와 기상데이터를 활용하였지만 선박 연료소모량 예측 모델에 대한 예측 결과의 신뢰성과 예측 모델 구현에 사용된 변수들에 대한 설명이 부족한 한계가 있었다. 이러한 문제를 해결하기 위해 본 연구에서는 XGBoost와 SHAP를 사용하여 예측 모델을 개발하였다. 이 연구는 연구 배경, 범위, 관련 규정 및 이전 연구들, 그리고 연구 방법론에 대한 소개를 제공하며, 또한 벌크선 데이터 정제 방법과 예측 모델 결과의 검증을 설명한다.

LIME과 SHAP 모델 공유에 의한 모델 해석 (Model Interpretation through LIME and SHAP Model Sharing)

  • 김용길
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.177-184
    • /
    • 2024
  • 데이터가 빠른 속도로 증가하고 있는 가운데 가능한 최고의 정확도를 달성하기 위해 모든 종류의 복잡한 앙상블 및 딥 러닝 알고리즘이 사용되고 있다. 그렇지만, 이러한 모델이 알 수 없는 데이터를 예측/분류/인식/추적하는 방법과 관련하여 예측, 분류, 인식, 추적이 항상 신뢰할 수 있는 것은 아니다. 데이터 부족, 불균형 데이터 세트, 편향된 데이터 세트 등과 같은 다양한 이유가 학습 모델에 의해 포착되는 결정에 영향을 미칠 수 있다. 이와 관련하여 현재 모델의 설명 가능성에 관한 연구가 관심을 끌고 있다. 현재 설명 가능성 기법과 관련하여 LIME과 SHAP가 보편적으로 사용되고 있지만, 출력 결과들은 다소 상이한 측면을 나타내고 있다. 이에 본 연구에서는 LIME과 SHAP을 결합하는 방식을 소개하고, 데모와 관련해서 IEEE CIS 데이터 세트에서 거래를 사기로 분류할 때 LightGBM 및 Keras 모델이 내린 결정에 대한 설명 가능성을 분석한다.

설명가능 AI 기반의 변수선정을 이용한 기업부실예측모형 (Corporate Bankruptcy Prediction Model using Explainable AI-based Feature Selection)

  • 문건두;김경재
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.241-265
    • /
    • 2023
  • 기업의 부실 예측 모델은 기업의 재무 상태를 객관적으로 모니터링하는 데 필수적인 도구 역할을 한다. 적시에 경고하고 대응 조치를 용이하게 하며 파산 위험을 완화하고 성과를 개선하기 위한 효과적인 관리 전략을 수립할 수 있도록 지원한다. 투자자와 금융 기관은 금융 손실을 최소화하기 위해 부실 예측 모델을 이용한다. 기업 부실 예측을 위한 인공지능(AI) 기술 활용에 대한 관심이 높아지면서 이 분야에 대한 광범위한 연구가 진행되고 있다. 해석 가능성과 신뢰성이 강조되며 기업 부실 예측에서 설명 가능한 AI 모델에 대한 수요가 증가하고 있다. 널리 채택된 SHAP(SHapley Additive exPlanations) 기법은 유망한 성능을 보여주었으나 변수 수에 따른 계산 비용, 처리 시간, 확장성 문제 등의 한계가 있다. 이 연구는 전체 데이터 세트를 사용하는 대신 부트스트랩 된 데이터 하위 집합에서 SHAP 값을 평균화하여 변수 수를 줄이는 새로운 변수 선택 접근법을 소개한다. 이 기술은 뛰어난 예측 성능을 유지하면서 계산 효율을 향상시키는 것을 목표로 한다. 해석 가능성이 높은 선택된 변수를 사용하여 랜덤 포레스트, XGBoost 및 C5.0 모델을 훈련하여 분류 결과를 얻고자 한다. 분류 결과는 고성능 모델 설계를 목표로 soft voting을 통해 생성된 앙상블 모델의 분류 정확성과 비교한다. 이 연구는 1,698개 한국 경공업 기업의 데이터를 활용하고 부트스트래핑을 사용하여 고유한 데이터 그룹을 생성한다. 로지스틱 회귀 분석은 각 데이터 그룹의 SHAP 값을 계산하는 데 사용되며, SHAP 값 평균은 최종 SHAP 값을 도출하기 위해 계산된다. 제안된 모델은 해석 가능성을 향상시키고 우수한 예측 성능을 달성하는 것을 목표로 한다.

설명 가능한 인공지능(XAI)을 활용한 침입탐지 신뢰성 강화 방안 (The Enhancement of intrusion detection reliability using Explainable Artificial Intelligence(XAI))

  • 정일옥;최우빈;김수철
    • 융합보안논문지
    • /
    • 제22권3호
    • /
    • pp.101-110
    • /
    • 2022
  • 다양한 분야에서 인공지능을 활용한 사례가 증가하면서 침입탐지 분야 또한 다양한 이슈를 인공지능을 통해 해결하려는 시도가 증가하고 있다. 하지만, 머신러닝을 통한 예측된 결과에 관한 이유를 설명하거나 추적할 수 없는 블랙박스 기반이 대부분으로 이를 활용해야 하는 보안 전문가에게 어려움을 주고 있다. 이러한 문제를 해결하고자 다양한 분야에서 머신러닝의 결정을 해석하고 이해하는데 도움이 되는 설명 가능한 AI(XAI)에 대한 연구가 증가하고 있다. 이에 본 논문에서는 머신러닝 기반의 침입탐지 예측 결과에 대한 신뢰성을 강화하기 위한 설명 가능한 AI를 제안한다. 먼저, XGBoost를 통해 침입탐지 모델을 구현하고, SHAP을 활용하여 모델에 대한 설명을 구현한다. 그리고 기존의 피처 중요도와 SHAP을 활용한 결과를 비교 분석하여 보안 전문가가 결정을 수행하는데 신뢰성을 제공한다. 본 실험을 위해 PKDD2007 데이터셋을 사용하였으며 기존의 피처 중요도와 SHAP Value에 대한 연관성을 분석하였으며, 이를 통해 SHAP 기반의 설명 가능한 AI가 보안 전문가들에게 침입탐지 모델의 예측 결과에 대한 신뢰성을 주는데 타당함을 검증하였다.

머신러닝과 설명가능한 인공지능 SHAP을 활용한 사범대 과학교육 전공생의 전공만족도 및 학업만족도 영향요인 탐색 (Exploration of Factors on Pre-service Science Teachers' Major Satisfaction and Academic Satisfaction Using Machine Learning and Explainable AI SHAP)

  • 서지범;강남화
    • 과학교육연구지
    • /
    • 제47권1호
    • /
    • pp.37-51
    • /
    • 2023
  • 본 연구는 사범대 과학교육전공 재학생의 전공만족도와 학업만족도에 영향을 주는 요인을 머신러닝 모델인 랜덤 포레스트와 그래디언트 부스팅 모델과 SHAP 기법을 활용하여 탐색했다. 연구 결과, 그래디언트 부스팅 모델의 성능이 랜덤 포레스트보다 우수한 것으로 드러났으나 그 차이는 크지 않았다. 전공만족도에 영향을 주는 요인으로는 '본인 전공 교과에 해당하는 고교시절 과학교사 만족도', '교직 동기', '나이' 등이 있으며, 학업만족도는 '나이', '성별', '내신 과학 전문교과 이수여부'의 영향을 크게 받는 것으로 드러났다. SHAP value를 활용하여 변인의 영향력을 밝힐 수 있었고, 그 결과가 집단 전체에 대한 것과 개별적 분석으로 각각 도출이 가능했고, 서로 보완적 결과가 도출이 가능함을 확인하였다. 연구 결과를 바탕으로 과학교육과 재학생의 전공 및 학업 만족도를 지원하기 위한 방안을 제안하였다.

전이 학습과 SHAP 분석을 이용한 설명가능한 동물 울음소리 분류 기법 (Explainable Animal Sound Classification Scheme using Transfer Learning and SHAP Analysis)

  • 이재승;문재욱;박성우;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.768-771
    • /
    • 2024
  • 인간의 산업 활동으로 인하여 동물들의 생존이 위협받으면서, 동물의 서식 분포를 효과적으로 파악할 수 있는 자동 야생동물 모니터링 기술의 필요성이 점점 더 커지고 있다. 그중에서도 동물 소리 분류 기술은 시각적으로 식별이 어려운 동물에게도 효과적으로 적용할 수 있는 장점으로 인하여 널리 사용되고 있다. 최근 심층학습 기반의 분류 모델들이 좋은 판별 성능을 보여주고 있어 동물 소리 분류에 많이 사용되고 있지만, 희귀종과 같이 개체 수가 적어 데이터가 부족한 경우에는 학습이 제대로 이루어지지 않을 수 있다. 또한, 이러한 모델들은 모델 내부에서 일어나는 추론 과정을 알 수 없어 결과를 완전히 신뢰하고 사용하는 데 제약이 따른다. 이에 본 논문에서는 전이 학습을 통해 데이터 부족 문제를 고려하고, SHAP을 이용하여 분류 모델의 추론 과정을 해석하는 설명가능한 동물 소리 분류 기법을 제안한다. 실험 결과, 제안하는 기법은 지도 학습을 한 경우보다 분류 성능이 향상됨을 확인하였으며, SHAP 분석을 통해 모델의 분류 근거를 이해할 수 있었다.

증권 금융 상품 거래 고객의 이탈 예측 및 원인 추론 (A Securities Company's Customer Churn Prediction Model and Causal Inference with SHAP Value)

  • 나광택;이진영;김은찬;이효찬
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.215-229
    • /
    • 2020
  • 산업 분야를 막론하고 머신러닝의 관심이 매우 높아지고 있으나, 머신러닝이 지닌 설명 불가능성은 여전히 문제로 남아있어 적극적인 업무 적용에 어려움이 있다. 본고에서는 증권사 금융 고객을 대상으로 이탈예측 모델 개발 사례를 소개하고 SHAP Value 기법을 사용하여 설명 가능한 머신러닝 모델 개발 시도와 해석 가능성 도출에 대한 연구 결과를 소개한다. 총 6가지 고객이탈 모델을 비교 분석하였으며, SHAP Value와 고객의 자산 변화에 따른 유형 분류 및 데이터 분석을 통해 고객 이탈 원인을 추론한다. 본 연구 결과를 토대로, 향후 마케팅 담당자의 실제 고객 마케팅 수행에 있어 원인 추론이 가능한 이탈 예측 결괏값을 사용하고 고객별 마케팅 여부를 점검하는 등의 종합적 판단 지표로 활용할 수 있을 것으로 판단된다.

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

PageRank 특징을 활용한 RDP기반 내부전파경로 탐지 및 SHAP를 이용한 설명가능한 시스템 (RDP-based Lateral Movement Detection using PageRank and Interpretable System using SHAP)

  • 윤지영;김동욱;신건윤;김상수;한명묵
    • 인터넷정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.1-11
    • /
    • 2021
  • 인터넷이 발달함에 따라 다양하고 복잡한 사이버공격들이 등장하기 시작했다. 공격들을 방어하기 위해 네트워크 외부에서 다양한 방식의 탐지 시스템들이 활용되었으나 내부에서 공격자를 탐지하는 시스템 및 연구는 현저히 드물어 내부에 들어온 공격자를 탐지하지 못해 큰 문제를 야기하기도 했다. 이를 해결하고자 공격자의 움직임을 추적하고 탐지하는 내부전파경로 탐지 시스템에 대한 연구가 등장하기 시작했다. 특히 그중에서도 Remote Desktop Protocol(RDP) 내 특징을 추출해 탐지하는 방식은 간편하면서도 매우 좋은 결과를 나타내었다. 하지만 그럼에도 불구하고 이전 연구들은 각 로그온 된 노드들 자체의 영향 및 관계성을 고려하지 않았으며, 제시된 특징 또한 일부 모델에서는 떨어지는 결과를 제공하기도 했다. 또한 왜 그렇게 판단했는지 판단에 대해 설명하지 못한다는 문제점도 존재했다. 이는 결과적으로 모델의 신뢰성 및 견고성 문제를 야기하게 된다. 이를 해결하기 위해 본 연구에서는 PageRank 특징을 활용한 RDP기반 내부전파경로 탐지 및 SHAP를 이용한 설명가능한 시스템을 제안한다. 페이지랭크 알고리즘과 여러 통계적인 기법을 활용해 여러 모델에서 활용 가능한 특징들을 생성하고 SHAP을 활용해 모델 예측에 대한 설명을 제공한다. 본 연구에서는 이전 연구에 비해 대부분의 모델에서 더 높은 성능을 보여주는 특징을 생성했고 이를 SHAP을 이용해 효과적으로 증명했다.

LSTM을 사용한 SHAP 기반의 설명 가능한 태양광 발전량 예측 기법 (SHAP-based Explainable Photovoltaic Power Forecasting Scheme Using LSTM)

  • 박성우;노윤아;정승민;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.845-848
    • /
    • 2021
  • 최근 화석연료의 급격한 사용에 따른 자원고갈이나 환경오염과 같은 문제들이 심각해짐에 따라 화석연료를 대체할 수 있는 신재생에너지에 대한 관심이 높아지고 있다. 태양광 에너지는 다른 에너지원에 비해 고갈의 우려가 없고, 부지 선정의 제약이 크지 않아 수요가 증가하고 있다. 태양광 발전 시스템에서 생산된 전력을 효과적으로 사용하기 위해서는 태양광 발전량에 대한 정확한 예측 모델이 필요하다. 이를 위한 다양한 딥러닝 기반의 예측 모델들이 제안되었지만, 이러한 모델들은 모델 내부에서 일어나는 의사결정 과정을 들여다보기가 어렵다. 의사결정에 대한 설명이 없다면 예측 모델의 결과를 완전히 신뢰하고 사용하는 데 제약이 따른다. 이런 문제를 위해서 최근 주목을 받는 설명 가능한 인공지능 기술을 사용한다면, 예측 모델의 결과 도출에 대한 해석을 제공할 수 있어 모델의 신뢰성을 확보할 수 있을 뿐만 아니라 모델의 성능 향상을 기대할 수도 있다. 이에 본 논문에서는 Long Short-Term Memory(LSTM)을 사용하여 모델을 구성하고, 모델에서 어떻게 예측값이 도출되었는지를 SHapley Additive exPlanation(SHAP)을 통하여 설명하는 태양광 발전량 예측 기법을 제안한다.