시간적 정보를 고려하는 Dynamic Scene Graph Generation

Temporal-Aware Dynamic Scene Graph Generation

  • 조혜원 (전남대학교 인공지능학부 ) ;
  • 조영준 (전남대학교 인공지능융합학과 )
  • Hae-Won Jo (Dept. of Artificial Intelligence Convergence, Chonnam National University) ;
  • Yeong-Jun Cho (Dept. of Artificial Intelligence Convergence, Chonnam National University)
  • 발행 : 2024.10.31

초록

최근 Scene Graph Generation(SGG)이 시각적 이해와 상호작용 시스템에서 중요한 연구 분야로 떠오르고 있으며, 이는 정적 이미지에서의 객체와 객체 간 관계를 분석하는데 주로 사용되었다. 하지만 동적인 환경에서의 장면 그래프 생성은 시간에 따라 변화하는 객체의 상태와 그 사이의 관계를 정확히 파악하고 모델링하는 데 있어 훨씬 더 큰 도전이다. 본 논문에서는 비디오 시퀀스로부터 Dynamic Scene Graph(DSG)를 생성하는 새로운 방법을 제안한다. 이는 동적 환경에서의 객체 변화와 그 사이의 상호작용을 실시간으로 추적하고 이해하는 데 필수적인 기능을 제공한다. 본 논문에선 CNN 백본 네트워크와 인코더를 사용하여 각 프레임에서 시각적 표현을 추출하고, attention 메커니즘을 적용하여 시간적 정보를 통합한다. 또한, 디코더 내부에서 학습 가능한 쿼리를 이용해 복잡한 객체 간 관계를 인식하며, 헝가리안 알고리즘 매칭 로스를 사용하여 각 쿼리는 쌍별 인스턴스 특징을 학습하게되고, 디코더의 각 attention layer에서는 객체 간의 복잡한 관계를 추출하고, 이를 통해 각 관계에 적합한 predicate를 예측한다.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능융합혁신인재양성사업(IITP-2023-RS-2023-00256629) 및 소프트웨어중심대학사업(2021-0-01409)의 연구결과로 수행되었음.

참고문헌

  1. X. Lin, C. Ding, J. Zeng, and D. Tao, "GPS-Net: Graph property sensing network for scene graph generation,"in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2020, pp. 3746-3753.
  2. D. Xu, Y. Zhu, C. B. Choy, and L. Fei-Fei, "Scene graph generation by iterative message passing," in Proc. IEEEConf. Comput. Vis. Pattern Recognit., 2017, pp. 5410-5419.
  3. J. Yang, J. Lu, S. Lee, D. Batra, and D. Parikh, "Graph R-CNN for scene graph generation," in Proc. Eur. Conf. Comput. Vis., 2018, pp. 670-685.
  4. S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137-1149, Jun. 2017.
  5. N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, "End-to-end object detection with transformers," in Proc. Eur. Conf. Comput. Vis., 2020, pp. 213-229. 3
  6. G. Wang, Z. Li, Q. Chen, and Y. Liu, "OED: Towards One-stage End-to-End Dynamic Scene Graph Generation,"in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2024, pp. 27938-27947.
  7. J. Im, J. Nam, N. Park, H. Lee, and S. Park, "Egtr: Extracting graph from transformer for scene graph generation," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., 2024, pp. 24229-24238. 4, 5