장기 동영상 이해를 위한 효율적인 메모리 메커니즘

Efficient Memory Mechanism for Long-form Video Understanding

  • 조선희 (한밭대학교 전자공학과) ;
  • 김종희 (한국전자통신연구원) ;
  • 문진영 (한국전자통신연구원)
  • Sun hee Jo (Dept. of Electronics Engineering, Hanbat National University) ;
  • Jonghee Kim (Electronics and Telecommunications Research Institute (ETRI)) ;
  • Jinyoung Moon (Electronics and Telecommunications Research Institute (ETRI))
  • 발행 : 2024.10.31

초록

본 논문에서는 장기 비디오 이해를 위한 새로운 메모리 메커니즘을 제안하였다. 제안된 메모리 메커니즘은 메모리 구성에 사용되는 시각 토큰을 압축하여, 메모리 사용량과 연산 비용을 줄이면서도 효율적인 비디오 처리를 목표로 한다. 다양한 시각 토큰 압축 방법을 적용 및 비교하였으며, MSVD-QA 데이터셋을 활용한 실험 결과, 제안된 메커니즘이 기존 방법에 비해 효율성과 성능 면에서 모두 우수함을 확인하였다. 본 연구는 장기 비디오 이해의 효율성을 높일 수 있는 새로운 접근 방식을 제시한다.

키워드

과제정보

이 논문은 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임. (No.2020-0-00004, 장기 시각 메모리 네트워크 기반의 예지형 시각지능 핵심기술 개발).

참고문헌

  1. Bo He et al., "MA-LMM: Memory-augmented large multimodal model for long-term video understanding," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.
  2. Enxin Song et al., "Moviechat: From dense token to sparse memory for long video understanding," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.
  3. Dejing Xu et al., "Video Question Answering via Gradually Refined Attention over Appearance and Motion," in Proceedings of the ACM International Conference on Multimedia, 2017.
  4. Muhammad Maaz et al., "VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding," arXiv preprint arXiv:2406.09418, 2024.
  5. Daniel Bolya et al., "Token Merging: Your ViT But Faster," in Proceedings of the International Conference on Learning and Representation, 2023.