Layer-wise Model Inversion Attack

계층별 모델 역추론 공격

  • Hyun-Ho Kwon (Dept. of Electrical and Electronic Engineering, Yonsei University) ;
  • Han-Jun Kim (Dept. of Electrical and Electronic Engineering, Yonsei University)
  • 권현호 (연세대학교 전기전자공학과 통합과정) ;
  • 김한준 (연세대학교 전기전자공학과)
  • Published : 2024.05.23

Abstract

모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.

Keywords

Acknowledgement

이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No. 2020-0-01361, 인공지능대학원지원(연세대학교); No. 2022-0-00050, 데이터 플로우 구조 기반 PIM 의 실행 및 프로그래밍 모델 개발; No. RS-2023-00277060, 개방형 엣지 AI 반도체 설계 및 SW 플랫폼 기술개발; No. RS-2024-00395134, 차세대 AI 반도체를 위한 DPU 중심의 데이터센터 아키텍처). 또한 이 논문은 삼성전자의 지원을 받아 수행된 연구임.

References

  1. H. Yin, P. Molchanov, J. M. Alvarez, Z. Li, A. Mallya, D. Hoiem, N. K. Jha, and J. Kautz, "Dreaming to distill: Data-free knowledge transfer via deepinversion," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 8715-8724.
  2. Y. Zhang, R. Jia, H. Pei, W. Wang, B. Li, and D. Song, "The secret revealer: Generative model-inversion attacks against deep neural networks," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 253-261.
  3. Z. Yang, J. Zhang, E.-C. Chang, and Z. Liang, "Neural network inversion in adversarial setting via background knowledge alignment," in Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security (CCS), 2019, pp. 225-240.
  4. Ian J. Goodfellow, Pouget-Abadie, Mirza, Bing Xu, D. Warde-Farly, S. Ozair, A. Courville, Y. Bengio, "Generative Adversarial Nets," NIPS, 2014.
  5. Martin Arjovsky, Soumith Chintala, and Leon Bottou, "Wasserstein gan," arXiv preprint arXiv:1701.07875, 2017.