• 제목/요약/키워드: 적대적 공격

검색결과 86건 처리시간 0.024초

XAI 를 활용한 적대적 공격 탐지 연구 동향 분석 (Research trend analysis on adversarial attack detection utilizing XAI)

  • 전아영;이연지;이일구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.401-402
    • /
    • 2024
  • 인공지능 기술은 사회 전반에 걸쳐 다양한 분야에서 활용되고 있다. 그러나 인공지능 기술의 발전과 함께 인공지능 기술을 악용한 적대적 공격의 위험성도 높아지고 있다. 적대적 공격은 작은 왜곡으로도 의료, 교통, 커넥티드카 등 인간의 생명과 안전에 직결되는 인공지능 학습 모델의 성능에 악영향을 미치기 때문에 효과적인 탐지 기술이 요구되고 있다. 본 논문에서는 설명 가능한 AI 를 활용한 적대적 공격을 탐지하는 최신 연구 동향을 분석한다.

계층별 모델 역추론 공격 (Layer-wise Model Inversion Attack)

  • 권현호;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2024
  • 모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.

감쇠 요소가 적용된 데이터 어그멘테이션을 이용한 대체 모델 학습과 적대적 데이터 생성 방법 (A Substitute Model Learning Method Using Data Augmentation with a Decay Factor and Adversarial Data Generation Using Substitute Model)

  • 민정기;문종섭
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1383-1392
    • /
    • 2019
  • 적대적 공격은 기계학습 분류 모델의 오분류를 유도하는 적대적 데이터를 생성하는 공격으로, 실생활에 적용된 분류 모델에 혼란을 야기하여 심각한 피해를 발생시킬 수 있다. 이러한 적대적 공격 중 블랙박스 방식의 공격은, 대상 모델과 유사한 대체 모델을 학습시켜 대체 모델을 이용해 적대적 데이터를 생성하는 공격 방식이다. 이 때 사용되는 야코비 행렬 기반의 데이터 어그멘테이션 기법은 합성되는 데이터의 왜곡이 심해진다는 단점이 있다. 본 논문은 기존의 데이터 어그멘테이션 방식에 존재하는 단점을 보완하기 위해 감쇠 요소를 추가한 데이터 어그멘테이션을 사용하여 대체 모델을 학습시키고, 이를 이용해 적대적 데이터를 생성하는 방안을 제안한다. 실험을 통해, 기존의 연구 결과보다 공격 성공률이 최대 8.5% 가량 높음을 입증하였다.

선형 판별 분석 및 k-means 알고리즘을 이용한 적대적 공격 유형 분류 방안 (An Adversarial Attack Type Classification Method Using Linear Discriminant Analysis and k-means Algorithm)

  • 최석환;김형건;최윤호
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1215-1225
    • /
    • 2021
  • 인공지능 기술은 우수한 성능을 기반으로 다양한 분야에 적용되고 있지만 입력 데이터에 인간이 감지할 수 없는 적대적 섭동을 추가하여 인공지능 모델의 오작동을 유도하는 적대적 예제에 취약하다. 현재까지 적대적 예제에 대응하기 위한 방법은 세 가지 범주로 분류할 수 있다. (1) 모델 재학습 방법; (2) 입력 변환 방법; (3) 적대적 예제 탐지 방법. 이러한 적대적 예제에 대응하기 위한 방법은 끊임없이 등장하고 있지만 각 적대적 공격 유형을 분류하는 연구는 미비한 실정이다. 따라서, 본 논문에서는 차원 축소와 군집화 알고리즘을 활용한 적대적 공격 유형 분류 방법을 제안한다. 구체적으로, 제안하는 방법은 적대적 예시로부터 적대적 섭동을 추출하고 선형 판별 분석(LDA)를 통해 적대적 섭동의 차원을 축소한 후에 k-means 알고리즘으로 적대적 공격 유형 분류를 수행한다. MNIST 데이터셋과 CIFAR-10 데이터셋을 대상으로 한 실험을 통해, 제안하는 기법은 5개의 적대적 공격(FGSM, BIM, PGD, DeepFool, C&W)을 효율적으로 분류할 수 있으며, 적대적 예제에 대한 정상 입력을 알 수 없는 제한적인 상황에서도 우수한 분류 성능을 나타내는 것을 확인하였다.

적대적 공격을 방어하기 위한 StarGAN 기반의 탐지 및 정화 연구 (StarGAN-Based Detection and Purification Studies to Defend against Adversarial Attacks)

  • 박성준;류권상;최대선
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.449-458
    • /
    • 2023
  • 인공지능은 빅데이터와 딥러닝 기술을 이용해 다양한 분야에서 삶의 편리함을 주고 있다. 하지만, 딥러닝 기술은 적대적 예제에 매우 취약하여 적대적 예제가 분류 모델의 오분류를 유도한다. 본 연구는 StarGAN을 활용해 다양한 적대적 공격을 탐지 및 정화하는 방법을 제안한다. 제안 방법은 Categorical Entropy loss를 추가한 StarGAN 모델에 다양한 공격 방법으로 생성된 적대적 예제를 학습시켜 판별자는 적대적 예제를 탐지하고, 생성자는 적대적 예제를 정화한다. CIFAR-10 데이터셋을 통해 실험한 결과 평균 탐지 성능은 약 68.77%, 평균정화성능은 약 72.20%를 보였으며 정화 및 탐지 성능으로 도출되는 평균 방어 성능은 약 93.11%를 보였다.

대학생의 거부민감성과 반응적 공격성 간의 관계: 자기개념 명확성과 적대적 귀인편향의 매개효과 (The Relationship between Rejection Sensitivity and Reactive Aggression in University Students: Mediating Effects of Self-Concept Clarity and Hostile Attribution Bias)

  • 이건희;이민규
    • 한국심리학회지 : 문화 및 사회문제
    • /
    • 제29권4호
    • /
    • pp.477-496
    • /
    • 2023
  • 본 연구는 대학생을 대상으로 거부민감성이 반응적 공격성과 어떠한 관련이 있는지 알아보고. 거부민감성이 반응적 공격성에 미치는 영향에서 자기개념 명확성과 적대적 귀인편향의 매개효과가 있는지 확인하기 위하여 진행되었다. 이를 위하여 만 18세 이상 대학생을 대상으로 자기 보고식 설문을 온라인으로 실시하였으며, 총 250명의 자료를 분석에 사용하였다. 자료분석은 SPSS 27.0을 사용하여 변수의 기초통계량을 확인하였고 빈도분석, 신뢰도분석, 상관분석을 실시하였다. 또한 AMOS 21.0을 사용하여 모델의 적합도를 확인하였으며, 부트스트래핑(Bootstrapping) 방식으로 간접효과의 유의성을 검증하였다. 본 연구의 결과는 다음과 같다. 첫째, 거부민감성이 자기개념 명확성을 통해 반응적 공격성에 정적인 영향을 미치는 것으로 나타났다. 둘째, 거부민감성이 적대적 귀인편향을 증가시키고 이로 인해 반응적 공격성이 증가하는 것으로 나타났다. 셋째, 거부민감성이 자기개념 명확성과 적대적 귀인편향을 통해 순차적으로 반응적 공격성에 간접적으로 정적인 영향을 주는 것으로 나타났다. 이러한 결과는 대학생의 반응적 공격성에 영향을 미치는 심리적 요인을 확인함으로써 범죄와 같은 사회문제와 관련이 있는 반응적 공격성에 대한 개입에서의 심리학적 접근의 필요성과 치유 및 예방을 위한 기초자료를 제시하였다는 점에서 의의가 있다. 마지막으로 본 연구의 제한점 및 후속 연구에 필요한 시사점을 제안하였다.

적대적 회피 공격에 대응하는 안전한 자율주행 자동차 시스템 (Secure Self-Driving Car System Resistant to the Adversarial Evasion Attacks)

  • 이승열;이현로;하재철
    • 정보보호학회논문지
    • /
    • 제33권6호
    • /
    • pp.907-917
    • /
    • 2023
  • 최근 자율주행 자동차는 운전자 지원 시스템에 딥러닝 기술을 적용하여 운전자에게 편의성을 제공하고 있지만, 딥러닝 기술이 적대적 회피 공격(adversarial evasion attacks)에 취약함이 밝혀졌다. 본 논문에서는 객체 인식 알고리즘인 YOLOv5(You Only Look Once)를 대상으로 MI-FGSM (Momentum Iterative-Fast Gradient Sign Method)를 포함한 5가지 적대적 회피 공격을 수행하였으며 객체 탐지 성능을 mAP(mean Average Precision)로 측정하였다. 특히, 본 논문에서는 모폴로지 연산을 적용하여 적대적 공격으로부터 노이즈를 제거하고 경계선을 추출하여 YOLO가 객체를 정상적 탐지할 수 있는 방안을 제안하고 이를 실험을 통해 그 성능을 분석하였다. 실험 결과, 적대적 공격을 수행했을 때 YOLO의 mAP가 최소 7.9%까지 떨어져 YOLO가 객체를 정확하게 탐지하지 못하는 것을 87.3%까지 성능을 개선하였다.

딥러닝 기반 얼굴인식 모델에 대한 변조 영역 제한 기만공격

  • 류권상;박호성;최대선
    • 정보보호학회지
    • /
    • 제29권3호
    • /
    • pp.44-50
    • /
    • 2019
  • 최근 딥러닝 기술은 다양한 분야에서 놀라운 성능을 보여주고 있어 많은 서비스에 적용되고 있다. 얼굴인식 또한 딥러닝 기술을 접목하여 높은 수준으로 얼굴인식이 가능해졌다. 하지만 딥러닝 기술은 원본 이미지를 최소한으로 변조시켜 딥러닝 모델의 오인식을 발생시키는 적대적 예제에 취약하다. 이에 따라, 본 논문에서는 딥러닝 기반 얼굴인식 시스템에 대해 적대적 예제를 이용하여 기만공격 실험을 수행하였으며 실제 얼굴에 분장할 수 있는 영역을 고려하여 설정된 변조 영역에 따른 기만공격 성능을 분석한다.