• 제목/요약/키워드: adversarial attacks

검색결과 61건 처리시간 0.02초

Addressing Emerging Threats: An Analysis of AI Adversarial Attacks and Security Implications

  • HoonJae Lee;ByungGook Lee
    • International journal of advanced smart convergence
    • /
    • 제13권2호
    • /
    • pp.69-79
    • /
    • 2024
  • AI technology is a central focus of the 4th Industrial Revolution. However, compared to some existing non-artificial intelligence technologies, new AI adversarial attacks have become possible in learning data management, input data management, and other areas. These attacks, which exploit weaknesses in AI encryption technology, are not only emerging as social issues but are also expected to have a significant negative impact on existing IT and convergence industries. This paper examines various cases of AI adversarial attacks developed recently, categorizes them into five groups, and provides a foundational document for developing security guidelines to verify their safety. The findings of this study confirm AI adversarial attacks that can be applied to various types of cryptographic modules (such as hardware cryptographic modules, software cryptographic modules, firmware cryptographic modules, hybrid software cryptographic modules, hybrid firmware cryptographic modules, etc.) incorporating AI technology. The aim is to offer a foundational document for the development of standardized protocols, believed to play a crucial role in rejuvenating the information security industry in the future.

Ensemble of Degraded Artificial Intelligence Modules Against Adversarial Attacks on Neural Networks

  • Sutanto, Richard Evan;Lee, Sukho
    • Journal of information and communication convergence engineering
    • /
    • 제16권3호
    • /
    • pp.148-152
    • /
    • 2018
  • Adversarial attacks on artificial intelligence (AI) systems use adversarial examples to achieve the attack objective. Adversarial examples consist of slightly changed test data, causing AI systems to make false decisions on these examples. When used as a tool for attacking AI systems, this can lead to disastrous results. In this paper, we propose an ensemble of degraded convolutional neural network (CNN) modules, which is more robust to adversarial attacks than conventional CNNs. Each module is trained on degraded images. During testing, images are degraded using various degradation methods, and a final decision is made utilizing a one-hot encoding vector that is obtained by summing up all the output vectors of the modules. Experimental results show that the proposed ensemble network is more resilient to adversarial attacks than conventional networks, while the accuracies for normal images are similar.

AI 모델의 Robustness 향상을 위한 효율적인 Adversarial Attack 생성 방안 연구 (A Study on Effective Adversarial Attack Creation for Robustness Improvement of AI Models)

  • 정시온;한태현;임승범;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.25-36
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술은 보안 분야를 비롯하여 다양한 분야에 도입됨에 따라 기술의 발전이 가속화되고 있다. 하지만 AI 기술의 발전과 더불어 악성 행위 탐지를 교묘하게 우회하는 공격 기법들도 함께 발전되고 있다. 이러한 공격 기법 중 AI 모델의 분류 과정에서 입력값의 미세한 조정을 통해 오 분류와 신뢰도 하락을 유도하는 Adversarial attack이 등장하였다. 앞으로 등장할 공격들은 공격자가 새로이 공격을 생성하는 것이 아닌, Adversarial attack처럼 기존에 생성된 공격에 약간의 변형을 주어 AI 모델의 탐지체계를 회피하는 방식이다. 이러한 악성코드의 변종에도 대응이 가능한 견고한 모델을 만들어야 한다. 본 논문에서는 AI 모델의 Robustness 향상을 위한 효율적인 Adversarial attack 생성 기법으로 2가지 기법을 제안한다. 제안하는 기법은 XAI 기법을 활용한 XAI based attack 기법과 모델의 결정 경계 탐색을 통한 Reference based attack이다. 이후 성능 검증을 위해 악성코드 데이터 셋을 통해 분류 모델을 구축하여 기존의 Adversarial attack 중 하나인 PGD attack과의 성능 비교를 하였다. 생성 속도 측면에서 기존 20분이 소요되는 PGD attack에 비하여 XAI based attack과 Reference based attack이 각각 0.35초, 0.47초 소요되어 매우 빠른 속도를 보이며, 특히 Reference based attack의 경우 생성률이 97.7%로 기존 PGD attack의 생성률인 75.5%에 비해 높은 성공률을 보이는 것을 확인하였다. 따라서 제안한 기법을 통해 더욱 효율적인 Adversarial attack이 가능하며, 이후 견고한 AI 모델을 구축하기 위한 연구에 기여 할 수 있을 것으로 기대한다.

강화학습 모델에 대한 적대적 공격과 이미지 필터링 기법을 이용한 대응 방안 (Adversarial Attacks on Reinforce Learning Model and Countermeasures Using Image Filtering Method)

  • 이승열;하재철
    • 정보보호학회논문지
    • /
    • 제34권5호
    • /
    • pp.1047-1057
    • /
    • 2024
  • 최근 심층 신경망을 이용한 강화학습 모델들이 자율주행, 스마트 팩토리, 홈 네트워크 등 다양한 첨단 산업 분야에 사용되고 있으나 적대적 공격(adversarial attacks)에 취약하다는 것이 밝혀졌다. 본 논문에서는 강화학습 기반의 딥러닝 모델인 DQN과 PPO를 자율주행 가상환경 HighwayEnv에 적용하여 FGSM(Fast Gradient Sign Method), BIM(Basic Iterative Method), PGD(Projected Gradient Descent) 그리고 CW(Carlini and Wagner)을 이용하여 적대적 공격을 수행하였다. 적대적 공격에 대응하기 위해 양방향 필터(bilateral filter) 알고리즘을 사용하여 적대적 이미지의 잡음을 제거함으로써 강화학습 기반의 딥러닝 모델들이 정상적으로 작동할 수 있는 방법을 제안하였다. 그리고 HighwayEnv 환경에서 에피소드 수행 길이(episode during)의 평균과 에이전트가 획득한 보상(episode reward)의 평균을 성능평가 지표로 사용하여 공격의 성능을 평가하였다. 실험 결과 양방향 필터를 통해 적대적 이미지의 잡음을 제거한 결과, 적대적 공격이 수행되기 이전의 성능을 유지할 수 있음을 보였다.

데이터 예측 클래스 기반 적대적 공격 탐지 및 분류 모델 (Adversarial Example Detection and Classification Model Based on the Class Predicted by Deep Learning Model)

  • 고은나래;문종섭
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1227-1236
    • /
    • 2021
  • 딥러닝 분류 모델에 대한 공격 중 하나인 적대적 공격은 입력 데이터에 인간이 구별할 수 없는 섭동을 추가하여 딥러닝 분류 모델이 잘못 분류하도록 만드는 공격이며, 다양한 적대적 공격 알고리즘이 존재한다. 이에 따라 적대적 데이터를 탐지하는 연구는 많이 진행되었으나 적대적 데이터가 어떤 적대적 공격 알고리즘에 의해 생성되었는지 분류하는 연구는 매우 적게 진행되었다. 적대적 공격을 분류할 수 있다면, 공격 간의 차이를 분석하여 더욱 견고한 딥러닝 분류 모델을 구축할 수 있을 것이다. 본 논문에서는 공격 대상 딥러닝 모델이 예측하는 클래스를 기반으로 은닉층의 출력값에서 특징을 추출하고 추출된 특징을 입력으로 하는 랜덤 포레스트 분류 모델을 구축하여 적대적 공격을 탐지 및 분류하는 모델을 제안한다. 실험 결과 제안한 모델은 최신의 적대적 공격 탐지 및 분류 모델보다 정상 데이터의 경우 3.02%, 적대적 데이터의 경우 0.80% 높은 정확도를 보였으며, 기존 연구에서 분류하지 않았던 새로운 공격을 분류한다.

적대적 공격 및 방어 기술의 성능 향상을 위한 역방향 적대적 데이터 생성 연구 (Reverse-Update Adversarial Data for Enhancing Adversarial Attack and Adversarial Training Performance)

  • 이정엽;조원영;박래현;권태경
    • 정보보호학회논문지
    • /
    • 제34권5호
    • /
    • pp.981-991
    • /
    • 2024
  • 인공지능 기술의 오작동을 유도하는 적대적 공격은 다양한 도메인과 모델에 적용 가능하며, 성능이 높은 SOTA(State-of-the-Art) 모델의 성능도 손쉽게 저해 시킬 수 있다. 이에 대처하기 위해 적대적 방어 기술들이 개발되고 있지만, 명확한 한계점으로 인해 활용이 제한된다. 그 결과, 특정 분야에서 인공지능 기술의 도입 뿐만 아니라 고도화 연구도 지체되고 있다. 해당 문제를 해결하기 위해, 본 논문에서는 적대적 공격의 손실 함수 업데이트 방향의 부호를 바꿔 새로운 개념의 적대적 데이터를 소개한다. 본 연구에서 소개한 역방향 적대적 데이터를 데이터 오염 및 적대적 훈련 환경에 적용하여 실험을 진행한 결과, 모델의 성능을 최대 72% 낮추고 9개 환경 중 6개 환경에서 강건성 향상에 가장 효율적임을 입증했다. 결과적으로, 제시한 적대적 데이터는 적대적 공격과 방어 기술의 연구 확장을 유도할 수 있으며, 더 나아가 방어 기술 개발의 고도화를 촉진할 수 있어 AI의 안전한 도입에 기여한다.

악성코드 변종 분석을 위한 AI 모델의 Robust 수준 측정 및 개선 연구 (A Study on Robustness Evaluation and Improvement of AI Model for Malware Variation Analysis)

  • 이은규;정시온;이현우;이태진
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.997-1008
    • /
    • 2022
  • 오늘날 AI(Artificial Intelligence) 기술은 악성코드 분야를 비롯하여 다양한 분야에서 광범위하게 연구되고 있다. 중요한 의사결정 및 자원을 보호하는 역할에 AI 시스템을 도입하기 위해서는 신뢰할 수 있는 AI 모델이어야 한다. 학습 데이터셋에 의존적인 AI 모델은 새로운 공격에 대해서도 견고한지 확인이 필요하다. 공격자는 악성코드를 새로 생성하기보단, 기존에 탐지되었던 악성코드의 변종을 대량 생산하여 공격에 성공하는 악성코드를 탐색다. AI 모델의 Misclassification을 유도하는 Adversarial attack과 같이 대부분의 공격은 기존 공격에 약간에 변형을 가해 만든 공격들이다. 이러한 변종에도 대응 가능한 Robust한 모델이 필요하며, AI 평가지표로 많이 사용되는 Accuracy, Recall 등으로는 모델의 Robustness 수준을 측정할 수 없다. 본 논문에서는 Adversarial attack 중 하나인 C&W attack을 기반으로 Adversarial sample을 생성하여 Robustness 수준을 측정하고 Adversarial training 을 통해 Robustness 수준을 개선하는 방법을 실험한다. 본 연구의 악성코드 데이터셋 기반 실험을 통해 악성코드 분야에서 해당 제안 방법의 한계 및 가능성을 확인하였다.

Defending and Detecting Audio Adversarial Example using Frame Offsets

  • Gong, Yongkang;Yan, Diqun;Mao, Terui;Wang, Donghua;Wang, Rangding
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권4호
    • /
    • pp.1538-1552
    • /
    • 2021
  • Machine learning models are vulnerable to adversarial examples generated by adding a deliberately designed perturbation to a benign sample. Particularly, for automatic speech recognition (ASR) system, a benign audio which sounds normal could be decoded as a harmful command due to potential adversarial attacks. In this paper, we focus on the countermeasures against audio adversarial examples. By analyzing the characteristics of ASR systems, we find that frame offsets with silence clip appended at the beginning of an audio can degenerate adversarial perturbations to normal noise. For various scenarios, we exploit frame offsets by different strategies such as defending, detecting and hybrid strategy. Compared with the previous methods, our proposed method can defense audio adversarial example in a simpler, more generic and efficient way. Evaluated on three state-of-the-arts adversarial attacks against different ASR systems respectively, the experimental results demonstrate that the proposed method can effectively improve the robustness of ASR systems.

딥러닝 기반 적외선 객체 검출을 위한 적대적 공격 기술 연구 (Adversarial Attacks for Deep Learning-Based Infrared Object Detection)

  • 김호성;현재국;유현정;김춘호;전현호
    • 한국군사과학기술학회지
    • /
    • 제24권6호
    • /
    • pp.591-601
    • /
    • 2021
  • Recently, infrared object detection(IOD) has been extensively studied due to the rapid growth of deep neural networks(DNN). Adversarial attacks using imperceptible perturbation can dramatically deteriorate the performance of DNN. However, most adversarial attack works are focused on visible image recognition(VIR), and there are few methods for IOD. We propose deep learning-based adversarial attacks for IOD by expanding several state-of-the-art adversarial attacks for VIR. We effectively validate our claim through comprehensive experiments on two challenging IOD datasets, including FLIR and MSOD.

영상 인식을 위한 딥러닝 모델의 적대적 공격에 대한 백색 잡음 효과에 관한 연구 (Study on the White Noise effect Against Adversarial Attack for Deep Learning Model for Image Recognition)

  • 이영석;김종원
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권1호
    • /
    • pp.27-35
    • /
    • 2022
  • 본 논문에서는 영상 데이터에 대한 적대적 공격으로부터 생성된 적대적 예제로 인하여 발생할 수 있는 딥러닝 시스템의 오분류를 방어하기 위한 방법으로 분류기의 입력 영상에 백색 잡음을 가산하는 방법을 제안하였다. 제안된 방법은 적대적이든 적대적이지 않던 구분하지 않고 분류기의 입력 영상에 백색 잡음을 더하여 적대적 예제가 분류기에서 올바른 출력을 발생할 수 있도록 유도하는 것이다. 제안한 방법은 FGSM 공격, BIM 공격 및 CW 공격으로 생성된 적대적 예제에 대하여 서로 다른 레이어 수를 갖는 Resnet 모델에 적용하고 결과를 고찰하였다. 백색 잡음의 가산된 데이터의 경우 모든 Resnet 모델에서 인식률이 향상되었음을 관찰할 수 있다. 제안된 방법은 단순히 백색 잡음을 경험적인 방법으로 가산하고 결과를 관찰하였으나 에 대한 엄밀한 분석이 추가되는 경우 기존의 적대적 훈련 방법과 같이 비용과 시간이 많이 소요되는 적대적 공격에 대한 방어 기술을 제공할 수 있을 것으로 사료된다.