Comparative Analysis of VT-ADL Model Performance Based on Variations in the Loss Function

Loss Function 변화에 따른 VT-ADL 모델 성능 비교 분석

  • Namjung Kim (Dept. of Software, Korea National University of Transportation) ;
  • Changjoon Park (Dept. of IT.Energy Convergence, Engineering, Korea National University of Transportation) ;
  • Junhwi Park (Dept. of AI.Robotics Engineering, Korea National University of Transportation) ;
  • Jaehyun Lee (Dept. of Computer Engineering, Korea National University of Transportation) ;
  • Jeonghwan Gwak (Dept. of Software, Korea National University of Transportation)
  • 김남중 (국립한국교통대학교 소프트웨어학과) ;
  • 박창준 (국립한국교통대학교 교통.에너지융합학과) ;
  • 박준휘 (국립한국교통대학교 AI.로봇공학과) ;
  • 이재현 (국립한국교통대학교 컴퓨터공학과) ;
  • 곽정환 (국립한국교통대학교 소프트웨어학과)
  • Published : 2024.01.17

Abstract

본 연구에서는 Vision Transformer 기반의 Anomaly Detection and Localization (VT-ADL) 모델에 초점을 맞추고, 손실 함수의 변경이 MVTec 데이터셋에 대한 이상 검출 및 지역화 성능에 미치는 영향을 비교 분석한다. 기존의 손실 함수를 KL Divergence와 Log-Likelihood Loss의 조합인 VAE Loss로 대체하여, 성능 변화를 심층적으로 조사했다. 실험을 통해 VAE Loss로의 전환은 VT-ADL 모델의 이상 검출 능력을 현저히 향상시키며, 특히 PRO-score에서 기존 대비 약 5%의 개선을 보였다는 점을 확인하였다. 이러한 결과는 손실 함수의 최적화가 VT-ADL 모델의 전반적인 성능에 중요한 영향을 미칠 수 있음을 시사한다. 또한, 이 연구는 Vision Transformer 기반 모델의 이상 검출과 지역화 작업에 있어서 손실 함수 선택의 중요성을 강조하며, 향후 관련 연구에 유용한 기준을 제공할 수 있을 것으로 기대된다.

Keywords

Acknowledgement

This work was supported by the Institute of Information & Communications Technology Planning & Evaluation (IITP) grant funded by the Korean government (MSIT) (No. 2014-3-00077).

References

  1. P. Bergmann, M. Fauser, D. Sattlegger and C. Steger, "MVTec AD - A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9584-9592, 2021, doi: 10.1109/CVPR.2019.00982.
  2. P. Mishra, R. Verk, D. Fornasier, C. Piciarelli and G. L. Foresti, "VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization," 2021 IEEE 30th International Symposium on Industrial Electronics (ISIE), pp. 01-06, 2021, doi: 10.1109/ISIE45552.2021.9576231.
  3. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaizer and I. Polosukhin, "Attention is All You Need," Advances in Neural Information Processing Systems 30, Vol. 1, pp. 5999-6009, Dec. 2017.
  4. A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszhoreit and N. Houlsby," An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," In International Conference on Learning Representations, 2021.
  5. J. Terven, D. M. Cordova-Esparza, A. Ramizez-Pedraza and E. A. Chavez-Urbiola, "Loss functions and metrics in deep learning. A review." arXiv preprint arXiv:2307.02694, 2023.