• 제목/요약/키워드: Adversarial examples

검색결과 38건 처리시간 0.019초

악성 댓글 탐지기에 대한 대항 예제 생성 (Generating adversarial examples on toxic comment detection)

  • 손수현;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.795-797
    • /
    • 2019
  • In this paper, we propose a method to generate adversarial examples for toxicity detection neural networks. Our dataset is represented by a one-hot vector and we constrain that only one character is allowed to be modified. The location to be changed is founded by the maximum area of input gradient, which represents the most affecting character the model to make decisions. Despite the fact that we have strong constraint compared to the image-based adversarial attack, we have achieved about 49% successful rate.

Intrusion Detection System을 회피하고 Physical Attack을 하기 위한 GAN 기반 적대적 CAN 프레임 생성방법 (GAN Based Adversarial CAN Frame Generation Method for Physical Attack Evading Intrusion Detection System)

  • 김도완;최대선
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1279-1290
    • /
    • 2021
  • 차량 기술이 성장하면서 운전자의 개입이 필요 없는 자율주행까지 발전하였고, 이에 따라 차량 내부 네트워크인 CAN 보안도 중요해졌다. CAN은 해킹 공격에 취약점을 보이는데, 이러한 공격을 탐지하기 위해 기계학습 기반 IDS가 도입된다. 하지만 기계학습은 높은 정확도에도 불구하고 적대적 예제에 취약한 모습을 보여주었다. 본 논문에서는 IDS를 회피할 수 있도록 feature에 잡음을 추가하고 또한 실제 차량의 physical attack을 위한 feature 선택 및 패킷화를 진행하여 IDS를 회피하고 실제 차량에도 공격할 수 있도록 적대적 CAN frame 생성방법을 제안한다. 모든 feature 변조 실험부터 feature 선택 후 변조 실험, 패킷화 이후 전처리하여 IDS 회피실험을 진행하여 생성한 적대적 CAN frame이 IDS를 얼마나 회피하는지 확인한다.

Improving Adversarial Domain Adaptation with Mixup Regularization

  • Bayarchimeg Kalina;Youngbok Cho
    • Journal of information and communication convergence engineering
    • /
    • 제21권2호
    • /
    • pp.139-144
    • /
    • 2023
  • Engineers prefer deep neural networks (DNNs) for solving computer vision problems. However, DNNs pose two major problems. First, neural networks require large amounts of well-labeled data for training. Second, the covariate shift problem is common in computer vision problems. Domain adaptation has been proposed to mitigate this problem. Recent work on adversarial-learning-based unsupervised domain adaptation (UDA) has explained transferability and enabled the model to learn robust features. Despite this advantage, current methods do not guarantee the distinguishability of the latent space unless they consider class-aware information of the target domain. Furthermore, source and target examples alone cannot efficiently extract domain-invariant features from the encoded spaces. To alleviate the problems of existing UDA methods, we propose the mixup regularization in adversarial discriminative domain adaptation (ADDA) method. We validated the effectiveness and generality of the proposed method by performing experiments under three adaptation scenarios: MNIST to USPS, SVHN to MNIST, and MNIST to MNIST-M.

딥뉴럴네트워크에서의 적대적 샘플에 관한 앙상블 방어 연구 (Detecting Adversarial Example Using Ensemble Method on Deep Neural Network)

  • 권현;윤준혁;김준섭;박상준;김용철
    • 융합보안논문지
    • /
    • 제21권2호
    • /
    • pp.57-66
    • /
    • 2021
  • 딥뉴럴네트워크는 이미지 인식, 음성 인식, 패턴 인식 등에 좋은 성능을 보여주고 있는 대표적인 딥러닝모델 중에 하나이다. 하지만 이러한 딥뉴럴네트워크는 적대적 샘플을 오인식하는 취약점이 있다. 적대적 샘플은 원본 데이터에 최소한의 노이즈를 추가하여 사람이 보기에는 이상이 없지만 딥뉴럴네트워크가 잘못 인식 하게 하는 샘플을 의미한다. 이러한 적대적 샘플은 딥뉴럴네트워크를 활용하는 자율주행차량이나 의료사업에서 차량 표지판 오인식이나 환자 진단의 오인식을 일으키면 큰 사고가 일어나기 때문에 적대적 샘플 공격에 대한 방어연구가 요구된다. 본 논문에서는 여러 가지 파라미터를 조절하여 적대적 샘플에 대한 앙상블 방어방법을 실험적으로 분석하였다. 적대적 샘플의 생성방법으로 fast gradient sign method, DeepFool method, Carlini & Wanger method을 이용하여 앙상블 방어방법의 성능을 분석하였다. 실험 데이터로 MNIST 데이터셋을 사용하였으며, 머신러닝 라이브러리로는 텐서플로우를 사용하였다. 실험방법의 각 파라미터들로 3가지 적대적 샘플 공격방법, 적정기준선, 모델 수, 랜덤노이즈에 따른 성능을 분석하였다. 실험결과로 앙상블 방어방법은 모델수가 7이고 적정기준선이 1일 때, 적대적 샘플에 대한 탐지 성공률 98.3%이고 원본샘플의 99.2% 정확도를 유지하는 성능을 보였다.

Adversarial Machine Learning: A Survey on the Influence Axis

  • Alzahrani, Shahad;Almalki, Taghreed;Alsuwat, Hatim;Alsuwat, Emad
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.193-203
    • /
    • 2022
  • After the everyday use of systems and applications of artificial intelligence in our world. Consequently, machine learning technologies have become characterized by exceptional capabilities and unique and distinguished performance in many areas. However, these applications and systems are vulnerable to adversaries who can be a reason to confer the wrong classification by introducing distorted samples. Precisely, it has been perceived that adversarial examples designed throughout the training and test phases can include industrious Ruin the performance of the machine learning. This paper provides a comprehensive review of the recent research on adversarial machine learning. It's also worth noting that the paper only examines recent techniques that were released between 2018 and 2021. The diverse systems models have been investigated and discussed regarding the type of attacks, and some possible security suggestions for these attacks to highlight the risks of adversarial machine learning.

객체탐지 모델에 대한 위장형 적대적 패치 공격 (Camouflaged Adversarial Patch Attack on Object Detector)

  • 김정훈;양훈민;오세윤
    • 한국군사과학기술학회지
    • /
    • 제26권1호
    • /
    • pp.44-53
    • /
    • 2023
  • Adversarial attacks have received great attentions for their capacity to distract state-of-the-art neural networks by modifying objects in physical domain. Patch-based attack especially have got much attention for its optimization effectiveness and feasible adaptation to any objects to attack neural network-based object detectors. However, despite their strong attack performance, generated patches are strongly perceptible for humans, violating the fundamental assumption of adversarial examples. In this paper, we propose a camouflaged adversarial patch optimization method using military camouflage assessment metrics for naturalistic patch attacks. We also investigate camouflaged attack loss functions, applications of various camouflaged patches on army tank images, and validate the proposed approach with extensive experiments attacking Yolov5 detection model. Our methods produce more natural and realistic looking camouflaged patches while achieving competitive performance.

적대적 공격에 견고한 Perceptual Ad-Blocker 기법 (Perceptual Ad-Blocker Design For Adversarial Attack)

  • 김민재;김보민;허준범
    • 정보보호학회논문지
    • /
    • 제30권5호
    • /
    • pp.871-879
    • /
    • 2020
  • Perceptual Ad-Blocking은 인공지능 기반의 광고 이미지 분류 모델을 이용하여 온라인 광고를 탐지하는 새로운 광고 차단 기법이다. 이러한 Perceptual Ad-Blocking은 최근 이미지 분류 모델이 이미지를 틀리게 분류하게 끔 이미지에 노이즈를 추가하는 적대적 예제(adversarial example)를 이용한 적대적 공격(adversarialbattack)에 취약하다는 연구 결과가 제시된 바 있다. 본 논문에서는 다양한 적대적 예제를 통해 기존 Perceptual Ad-Blocking 기법의 취약점을 증명하고, MNIST, CIFAR-10 등의 데이터 셋에서 성공적인 방어를 수행한 Defense-GAN과 MagNet이 광고 이미지에도 효과적으로 작용함을 보인다. 이를 통해 Defense-GAN과 MagNet 기법을 이용해 적대적 공격에 견고한 새로운 광고 이미지 분류 모델을 제시한다. 기존 다양한 적대적 공격 기법을 이용한 실험 결과에 따르면, 본 논문에서 제안하는 기법은 적대적 공격에 견고한 이미지 분류 기술을 통해 공격 이전의 이미지 분류 모델의 정확도와 성능을 확보할 수 있으며, 더 나아가 방어 기법의 세부사항을 아는 공격자의 화이트박스 공격(White-box attack)에도 일정 수준 방어가 가능함을 보였다.

A Study on the Efficacy of Edge-Based Adversarial Example Detection Model: Across Various Adversarial Algorithms

  • Jaesung Shim;Kyuri Jo
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.31-41
    • /
    • 2024
  • 딥러닝 모델(Deep Learning Model)은 컴퓨터 비전(Computer Vision) 분야의 이미지(Image) 분류 및 객체 탐지와 같은 작업에서 뛰어난 성과를 보이며, 실제 산업 현장에서 다양하게 활용되고 있다. 최근 다양한 알고리즘(Algorithm)의 적대적 예제를 이용하여 딥러닝 모델의 취약성을 지적하며, 강건성 향상 방안을 제시하는 연구들이 활발하게 진행되고 있다. 적대적 예제는 오분류를 유도하기 위해 작은 노이즈(Noise)가 추가된 이미지로서, 딥러닝 모델을 실제 환경에 적용 시 중대한 위협이 될 수 있다. 본 논문에서는 다양한 알고리즘의 적대적 예제를 대상으로 에지 학습 분류 모델의 강건성 및 이를 이용한 적대적 예제 탐지 모델의 성능을 확인하고자 하였다. 강건성 실험 결과, FGSM(Fast Gradient Sign Method) 알고리즘에 대하여 기본 분류 모델이 약 17%의 정확도를 보였으나, 에지(Edge) 학습 모델들은 60~70%대의 정확도를 유지하였고, PGD(projected gradient descent)/DeepFool/CW(Carlini-Wagner) 알고리즘에 대해서는 기본 분류 모델이 0~1%의 정확도를 보였으나, 에지 학습 모델들은 80~90%의 정확도를 유지하였다. 적대적 예제 탐지 실험 결과, FGSM/PGD/DeepFool/CW의 모든 알고리즘에 대해서 91~95%의 높은 탐지율을 확인할 수 있었다. 본 연구를 통하여 다양한 적대적 알고리즘에 대한 방어 가능성을 제시함으로써, 컴퓨터 비전을 활용하는 여러 산업 분야에서 딥러닝 모델의 안전성 및 신뢰성 제고를 기대한다.

Pruning for Robustness by Suppressing High Magnitude and Increasing Sparsity of Weights

  • Cho, Incheon;Ali, Muhammad Salman;Bae, Sung-Ho
    • 방송공학회논문지
    • /
    • 제26권7호
    • /
    • pp.862-867
    • /
    • 2021
  • Although Deep Neural Networks (DNNs) have shown remarkable performance in various artificial intelligence fields, it is well known that DNNs are vulnerable to adversarial attacks. Since adversarial attacks are implemented by adding perturbations onto benign examples, increasing the sparsity of DNNs minimizes the propagation of errors to high-level layers. In this paper, unlike the traditional pruning scheme removing low magnitude weights, we eliminate high magnitude weights that are usually considered high absolute values, named 'reverse pruning' to ensure robustness. By conducting both theoretical and experimental analyses, we observe that reverse pruning ensures the robustness of DNNs. Experimental results show that our reverse pruning outperforms previous work with 29.01% in Top-1 accuracy on perturbed CIFAR-10. However, reverse pruning does not guarantee benign samples. To relax this problem, we further conducted experiments by adding a regularization term for the high magnitude weights. With adding the regularization term, we also applied conventional pruning to ensure the robustness of DNNs.

Class Specific Autoencoders Enhance Sample Diversity

  • Kumar, Teerath;Park, Jinbae;Ali, Muhammad Salman;Uddin, AFM Shahab;Bae, Sung-Ho
    • 방송공학회논문지
    • /
    • 제26권7호
    • /
    • pp.844-854
    • /
    • 2021
  • Semi-supervised learning (SSL) and few-shot learning (FSL) have shown impressive performance even then the volume of labeled data is very limited. However, SSL and FSL can encounter a significant performance degradation if the diversity gap between the labeled and unlabeled data is high. To reduce this diversity gap, we propose a novel scheme that relies on an autoencoder for generating pseudo examples. Specifically, the autoencoder is trained on a specific class using the available labeled data and the decoder of the trained autoencoder is then used to generate N samples of that specific class based on N random noise, sampled from a standard normal distribution. The above process is repeated for all the classes. Consequently, the generated data reduces the diversity gap and enhances the model performance. Extensive experiments on MNIST and FashionMNIST datasets for SSL and FSL verify the effectiveness of the proposed approach in terms of classification accuracy and robustness against adversarial attacks.