• 제목/요약/키워드: Adversarial attack

검색결과 62건 처리시간 0.03초

컨벌루션 신경망 모델의 적대적 공격에 따른 성능과 개체군 희소 지표의 상관성에 관한 경험적 연구 (Empirical Study on Correlation between Performance and PSI According to Adversarial Attacks for Convolutional Neural Networks)

  • 이영석
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권2호
    • /
    • pp.113-120
    • /
    • 2024
  • 개체군 희소 지표는 인공 신경망을 구성하고 있는 내부 레이어의 동작을 뉴런의 관점에서 관찰할 수 있기 때문에 블랙박스로 불리는 인공 신경망 내부의 동작을 설명하기 위하여 활용될 수 있다. 최근의 연구에서는 개체군 희소 지표를 두 종류의 컨벌루션 신경망 모델 분석에 적용하여, 레이어의 층이 깊어질수록 지표 값이 비례하여 증가하는 것이 관찰되었음을 보고하였다. 또한, 영상 분류를 위한 컨벌루션 신경망 모델에서 개체군 희소성 지표와 성능이 양의 상관성을 보인다는 연구도 있다. 본 연구에서는 적대적 예제가 컨벌루션 신경망에 적용되었을 때 신경망 내부에서 어떠한 동작이 수행되는지에 대하여 관찰하였다. 이를 위하여 적대적 예제를 입력으로 하는 컨벌루션 신경망의 개체군 희소 지표를 구한 다음, 컨벌루션 신경망의 성능과의 상관성을 비교하였다. 실험의 결과로부터 사전에 5%의 정확도를 갖도록 변형된 적대적 예제들에 대하여 온건한 데이터를 적용한 경우와 유사한 패턴의 양의 상관성을 갖는 것을 확인할 수 있었다. 이 실험결과는 적대적 예제와 온건한 데이터에 대한 각각의 개체군 희소성 지표 값들이 거시적인 관점에서 차이가 없다는 것을 의미하며 적대적 예제가 뉴런의 활성화 측면에서부터 적대적으로 동작한다는 것을 의미한다.

완전 무인 매장의 AI 보안 취약점: 객체 검출 모델에 대한 Adversarial Patch 공격 및 Data Augmentation의 방어 효과성 분석 (AI Security Vulnerabilities in Fully Unmanned Stores: Adversarial Patch Attacks on Object Detection Model & Analysis of the Defense Effectiveness of Data Augmentation)

  • 이원호;나현식;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권2호
    • /
    • pp.245-261
    • /
    • 2024
  • 코로나19 팬데믹으로 인해 비대면 거래가 보편화되면서, 완전 무인 매장의 증가 추세가 두드러지고 있다. 이러한 매장에서는 모든 운영 과정이 자동화되어 있으며, 주로 인공지능 기술이 적용된다. 그러나 이러한 인공지능기술에는 여러 보안 취약점이 존재하고, 이러한 취약점들은 완전 무인 매장 환경에서 치명적으로 작용할 수 있다. 본 논문은 인공지능 기반의 완전 무인 매장이 직면할 수 있는 보안 취약점을 분석하고, 특히 객체 검출 모델인 YOLO에 초점을 맞추어, 적대적 패치를 활용한 Hiding Attack과 Altering Attack이 가능함을 보인다. 이러한 공격으로 인해, 적대적 패치를 부착한 객체는 검출 모델에 의해 인식되지 않거나 다른 객체로 잘못 인식될 수 있다는 것을 확인한다. 또한, 보안 위협을 완화하기 위해 Data Augmentation 기법이 적대적 패치 공격에 어떠한 방어 효과를 주는지 분석한다. 우리는 이러한 결과를 토대로 완전 무인 매장에서 사용되는 인공지능 기술에 내재된 보안 위협에 대응하기 위한 적극적인 방어 연구의 필요성을 강조한다.

Attention 기법에 기반한 적대적 공격의 강건성 향상 연구 (Improving Adversarial Robustness via Attention)

  • 김재욱;오명교;박래현;권태경
    • 정보보호학회논문지
    • /
    • 제33권4호
    • /
    • pp.621-631
    • /
    • 2023
  • 적대적 학습은 적대적 샘플에 대한 딥러닝 모델의 강건성을 향상시킨다. 하지만 기존의 적대적 학습 기법은 입력단계의 작은 섭동마저도 은닉층의 특징에 큰 변화를 일으킨다는 점을 간과하여 adversarial loss function에만집중한다. 그 결과로 일반 샘플 또는 다른 공격 기법과 같이 학습되지 않은 다양한 상황에 대한 정확도가 감소한다. 이 문제를 해결하기 위해서는 특징 표현 능력을 향상시키는 모델 아키텍처에 대한 분석이 필요하다. 본 논문에서는 입력 이미지의 attention map을 생성하는 attention module을 일반 모델에 적용하고 PGD 적대적학습을수행한다. CIFAR-10 dataset에서의 제안된 기법은 네트워크 구조에 상관없이 적대적 학습을 수행한 일반 모델보다 적대적 샘플에 대해 더 높은 정확도를 보였다. 특히 우리의 접근법은 PGD, FGSM, BIM과 같은 다양한 공격과 더 강력한 adversary에 대해서도 더 강건했다. 나아가 우리는 attention map을 시각화함으로써 attention module이 적대적 샘플에 대해서도 정확한 클래스의 특징을 추출한다는 것을 확인했다.

임의의 잡음 신호 추가를 활용한 적대적으로 생성된 이미지 데이터셋 탐지 방안에 대한 연구 (Random Noise Addition for Detecting Adversarially Generated Image Dataset)

  • 황정환;윤지원
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권6호
    • /
    • pp.629-635
    • /
    • 2019
  • 여러 분야에서 사용되는 이미지 분류를 위한 딥러닝(Deep Learning) 모델은 오류 역전파 방법을 통해 미분을 구현하고 미분 값을 통해 예측 상의 오류를 학습한다. 엄청난 계산량을 향상된 계산 능력으로 해결하여, 복잡하게 설계된 모델에서도 파라미터의 전역 (혹은 국소) 최적점을 찾을 수 있다는 것이 장점이다. 하지만 정교하게 계산된 데이터를 만들어내면 이 딥러닝 모델을 '속여' 모델의 예측 정확도와 같은 성능을 저하시킬 수 있다. 이렇게 생성된 적대적 사례는 딥러닝을 저해할 수 있을 뿐 아니라, 사람의 눈으로는 쉽게 발견할 수 없도록 정교하게 계산되어 있다. 본 연구에서는 임의의 잡음 신호를 추가하는 방법을 통해 적대적으로 생성된 이미지 데이터셋을 탐지하는 방안을 제안한다. 임의의 잡음 신호를 추가하였을 때 일반적인 데이터셋은 예측 정확도가 거의 변하지 않는 반면, 적대적 데이터셋의 예측 정확도는 크게 변한다는 특성을 이용한다. 실험은 공격 기법(FGSM, Saliency Map)과 잡음 신호의 세기 수준(픽셀 최댓값 255 기준 0-19) 두 가지 변수를 독립 변수로 설정하고 임의의 잡음 신호를 추가하였을 때의 예측 정확도 차이를 종속 변수로 설정하여 시뮬레이션을 진행하였다. 각 변수별로 일반적 데이터셋과 적대적 데이터셋을 구분하는 탐지 역치를 도출하였으며, 이 탐지 역치를 통해 적대적 데이터셋을 탐지할 수 있었다.

적대적 머신러닝 공격과 방어기법 (A Study Adversarial machine learning attacks and defenses)

  • 이제민;박재경
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.621-623
    • /
    • 2023
  • 본 논문에서는 기계 학습 모델의 취약점과 대응책에 초점을 맞추어 적대적인 기계 학습 공격 및 방어 분야를 탐구한다. 신중하게 만들어진 입력 데이터를 도입하여 기계 학습 모델을 속이거나 조작하는 것을 목표로 하는 적대적 공격에 대한 심층 분석을 제공한다. 이 논문은 회피 및 독성 공격을 포함한 다양한 유형의 적대적 공격을 조사하고 기계 학습 시스템의 안정성과 보안에 대한 잠재적 영향을 조사한다. 또한 적대적 공격에 대한 기계 학습 모델의 견고성을 향상시키기 위해 다양한 방어 메커니즘과 전략을 제안하고 평가한다. 본 논문은 광범위한 실험과 분석을 통해 적대적 기계 학습에 대한 이해에 기여하고 효과적인 방어 기술에 대한 통찰력을 제공하는 것을 목표로 한다.

  • PDF

GAN 기반 은닉 적대적 패치 생성 기법에 관한 연구

  • 김용수;강효은;김호원
    • 정보보호학회지
    • /
    • 제30권5호
    • /
    • pp.71-77
    • /
    • 2020
  • 딥러닝 기술은 이미지 분류 문제에 뛰어난 성능을 보여주지만, 공격자가 입력 데이터를 조작하여 의도적으로 오작동을 일으키는 적대적 공격(adversarial attack)에 취약하다. 최근 이미지에 직접 스티커를 부착하는 형태로 딥러닝 모델의 오작동을 일으키는 적대적 패치(adversarial patch)에 관한 연구가 활발히 진행되고 있다. 하지만 기존의 적대적 패치는 대부분 눈에 잘 띄기 때문에 실제 공격을 받은 상황에서 쉽게 식별하여 대응할 수 있다는 단점이 있다. 본 연구에서는 GAN(Generative Adversarial Networks)을 이용하여 식별하기 어려운 적대적 패치를 생성하는 기법을 제안한다. 실험을 통해 제안하는 방법으로 생성한 적대적 패치를 이미지에 부착하여 기존 이미지와의 구조적 유사도를 확인하고 이미지 분류모델에 대한 공격 성능을 분석한다.

악성 댓글 탐지기에 대한 대항 예제 생성 (Generating adversarial examples on toxic comment detection)

  • 손수현;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.795-797
    • /
    • 2019
  • In this paper, we propose a method to generate adversarial examples for toxicity detection neural networks. Our dataset is represented by a one-hot vector and we constrain that only one character is allowed to be modified. The location to be changed is founded by the maximum area of input gradient, which represents the most affecting character the model to make decisions. Despite the fact that we have strong constraint compared to the image-based adversarial attack, we have achieved about 49% successful rate.

Pruning for Robustness by Suppressing High Magnitude and Increasing Sparsity of Weights

  • Cho, Incheon;Ali, Muhammad Salman;Bae, Sung-Ho
    • 방송공학회논문지
    • /
    • 제26권7호
    • /
    • pp.862-867
    • /
    • 2021
  • Although Deep Neural Networks (DNNs) have shown remarkable performance in various artificial intelligence fields, it is well known that DNNs are vulnerable to adversarial attacks. Since adversarial attacks are implemented by adding perturbations onto benign examples, increasing the sparsity of DNNs minimizes the propagation of errors to high-level layers. In this paper, unlike the traditional pruning scheme removing low magnitude weights, we eliminate high magnitude weights that are usually considered high absolute values, named 'reverse pruning' to ensure robustness. By conducting both theoretical and experimental analyses, we observe that reverse pruning ensures the robustness of DNNs. Experimental results show that our reverse pruning outperforms previous work with 29.01% in Top-1 accuracy on perturbed CIFAR-10. However, reverse pruning does not guarantee benign samples. To relax this problem, we further conducted experiments by adding a regularization term for the high magnitude weights. With adding the regularization term, we also applied conventional pruning to ensure the robustness of DNNs.

적대적 공격에 따른 딥페이크 탐지 모델 강화 (Improving the Robustness of Deepfake Detection Models Against Adversarial Attacks)

  • 이상영;허종욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.724-726
    • /
    • 2022
  • 딥페이크(deepfake)로 인한 디지털 범죄는 날로 교묘해지면서 사회적으로 큰 파장을 불러일으키고 있다. 이때, 딥러닝 기반 모델의 오류를 발생시키는 적대적 공격(adversarial attack)의 등장으로 딥페이크를 탐지하는 모델의 취약성이 증가하고 있고, 이는 매우 치명적인 결과를 초래한다. 본 연구에서는 2 가지 방법을 통해 적대적 공격에도 영향을 받지 않는 강인한(robust) 모델을 구축하는 것을 목표로 한다. 모델 강화 기법인 적대적 학습(adversarial training)과 영상처리 기반 방어 기법인 크기 변환(resizing), JPEG 압축을 통해 적대적 공격에 대한 강인성을 입증한다.

데이터 증강 기반의 효율적인 포이즈닝 공격 방어 기법 (Efficient Poisoning Attack Defense Techniques Based on Data Augmentation)

  • 전소은;옥지원;김민정;홍사라;박새롬;이일구
    • 융합보안논문지
    • /
    • 제22권3호
    • /
    • pp.25-32
    • /
    • 2022
  • 최근 이미지 인식 및 탐지 분야에 딥러닝 기반의 기술이 도입되면서 영상 처리 산업이 활성화되고 있다. 딥러닝 기술의 발전과 함께 적대적 공격에 대한 학습 모델 취약점이 계속해서 보고되고 있지만, 학습 시점에 악의적인 데이터를 주입하는 포이즈닝 공격의 대응 방안에 대한 연구가 미흡한 실정이다. 종래 포이즈닝 공격의 대응 방안은 매번 학습 데이터를 검사하여 별도의 탐지 및 제거 작업을 수행해야 한다는 한계가 있었다. 따라서, 본 논문에서는 포이즌 데이터에 대해 별도의 탐지 및 제거과정 없이 학습 데이터와 추론 데이터에 약간의 변형을 가함으로써 공격 성공률을 저하시키는 기법을 제안한다. 선행연구에서 제안된 클린 라벨 포이즌 공격인 원샷킬 포이즌 공격을 공격 모델로 활용하였고, 공격자의 공격 전략에 따라 일반 공격자와 지능형 공격자로 나누어 공격 성능을 확인하였다. 실험 결과에 따르면 제안하는 방어 메커니즘을 적용하면 종래 방법 대비 최대 65%의 공격 성공률을 저하시킬 수 있었다.