LMM(Large Multimodal Model)을 활용한 In-Context Learning 기반 이상 상황 탐지 및 분류

Anomaly Detection and Classification Based on In-Context Learning Using LMM

  • 이하리 (과학기술연합대학원대학교 인공지능전공 ) ;
  • 문진영 (과학기술연합대학원대학교 인공지능전공)
  • Ha-Ri Lee (Dept. of Artificial Intelligence, University of Science and Technology) ;
  • Jin-Young Moon (Electronics and Telecommunications Research Institute)
  • 발행 : 2024.10.31

초록

본 연구는 In-context learning 을 적용한 LMM 을 이용하여 감시 카메라 비디오 데이터를 기반으로 이상 상황을 탐지하고 이에 대한 범죄 클래스를 분류하는 방법을 제안한다. 특히 VTimeLLM[1] 모델을 사용하여 비디오 데이터를 분석하고, '정상' 및 '비정상' 이벤트를 분류한다. 추가적으로 '비정상' 이벤트는 13 개의 범죄 클래스 중 하나로 분류된다. 본 연구에서 zero-shot 과 few-shot 학습 기법을 적용하여 기존 방법들과 정량적으로 비교 실험을 수행했다. 실험 결과 LMM 과 In-context learning 을 결합한 방식이 기존 방법들과 비교해 이상 상황 탐지 성능이 개선되었다.

키워드

과제정보

본 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2020-0-00004, 장기 시각 메모리 네트워크 기반의 예지형 시각지능 핵심기술 개발)

참고문헌

  1. B. Huang, X. Wang, H. Chen, Z. Song, W. Zhu, "VTimeLLM: Empower LLM to Grasp Video Moments," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.14271-14280, 2024.
  2. W. Sultani, C. Chen, and M. Shah, "Real-World Anomaly Detection in Surveillance Videos," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
  3. A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, I. Sutskever, "Learning Transferable Visual Models From Natural Language Supervision," Proceedings of the 38th International Conference on Machine Learning (ICML), 2021.
  4. J.-C. Wu, H.-Y. Hsieh, D.-J. Chen, C.-S. Fuh, T.-L. Liu, "Self-Supervised Sparse Representation for Video Anomaly Detection," Proceedings of the European Conference on Computer Vision (ECCV), 2022.
  5. Y. Zhou, Y. Qu, X. Xu, F. Shen, J. Song, H. Shen, "BatchNorm-based Weakly Supervised Video Anomaly Detection," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.