DOI QR코드

DOI QR Code

A Research Trends on Robustness in ViT-based Models

ViT 기반 모델의 강건성 연구동향

  • Shin, Yeong-Jae (Dept. of Information and Convergence Engineering, Pusan National University) ;
  • Hong, Yoon-Young (Dept. of Information and Convergence Engineering, Pusan National University) ;
  • Kim, Ho-Won (Dept. of Information and Convergence Engineering, Pusan National University)
  • 신영재 (부산대학교 정보융합공학과) ;
  • 홍윤영 (부산대학교 정보융합공학과) ;
  • 김호원 (부산대학교 정보융합공학과)
  • Published : 2022.11.21

Abstract

컴퓨터 비전 분야에서 오랫동안 사용되었던 CNN(Convolution Neural Network)은 오분류를 일으키기 위해 악의적으로 추가된 섭동에 매우 취약하다. ViT(Vision Transformer)는 입력 이미지의 전체적인 특징을 탐색하는 어텐션 구조를 적용함으로 CNN의 국소적 특징 탐색보다 특성 픽셀에 섭동을 추가하는 적대적 공격에 강건한 특성을 보이지만 최근 어텐션 구조에 대한 강건성 분석과 다양한 공격 기법의 발달로 보안 취약성 문제가 제기되고 있다. 본 논문은 ViT가 CNN 대비 강건성을 가지는 구조적인 특징을 분석하는 연구와 어텐션 구조에 대한 최신 공격기법을 소개함으로 향후 등장할 ViT 파생 모델의 강건성을 유지하기 위해 중점적으로 다루어야 할 부분이 무엇인지 소개한다.

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 대학ICT연구센터육성지원사업의 연구결과로 수행되었음(IITP-2022-2020-0-01797)