미세조정된 VideoLLaMA2 기반의 멀티모달 보행자 횡단 의도 예측

Multi-modal Pedestrian Crossing Intention Prediction based on Finetuned VideoLLaMA2

  • 김성훈 (순천향대학교 AI.빅데이터학과) ;
  • 함제석 (한국전자통신연구원) ;
  • 문진영 (한국전자통신연구원)
  • Sunghun Kim (Dept. of AI.Bigdata, Soonchunhyang University) ;
  • Je-Seok Ham (Electronics and Telecommunications Research Institute (ETRI)) ;
  • Jinyoung Moon (Electronics and Telecommunications Research Institute (ETRI))
  • 발행 : 2024.10.31

초록

급속한 도시화와 교통량의 증가로 인해 보행자 안전이 중요한 사회적 문제로 부각되고 있다. 이에 따라 보행자의 횡단 여부를 예측하는 다양한 연구가 활발히 진행 중이다. 본 연구에서는 보행자 행동 예측에 대표적으로 활용되는 JAAD 데이터셋을 기반으로 QA 셋을 제작하고, 이를 최신의 오픈소스 MLLM에 해당하는 VideoLLaMA2 모델에서 미세조정을 진행하였다. 이 모델을 기반으로 과거 16 프레임 동안의 보행자 움직임을 관찰한 후, 30프레임 이후 시점에서 보행자의 횡단 의도(crossing/not-crossing)를 예측하고 그 정확도를 비교·분석한다. 그 결과, 미세조정을 진행한 모델에서 더 높은 예측 정확도를 나타내었으며. 향후 복잡하고 새로운 도로 환경에서도 보행자의 미래 횡단 의도를 예측하여 보행자의 안전성을 높일 수 있다.

키워드

과제정보

이 논문은 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임.(No.2020-0-00004, 장기 시각 메모리 네트워크 기반의 예지형 시각지능 핵심기술 개발).

참고문헌

  1. Sanganaikar, R.S., Mulangi, R.H. "Pedestrian Safety Studies on Urban Infrastructure: A Review", Sustainable Infrastructure: Innovation, Opportunities and Challenges, Singapore, 2024, 183-188.
  2. Namatovu S, Balugaba BE, Muni K, Ningwa A, Nsabagwa L, Oporia F, et al. "Interventions to reduce pedestrian road traffic injuries: A systematic review of randomized controlled trials, cluster randomized controlled trials, interrupted time-series, and controlled before-after studies.", PLOS ONE, 17, 1, ,DOI: https://doi.org/10.1371/journal.pone.0262681, 2022
  3. Job RFS, "Policies and Interventions to Provide Safety for Pedestrians and Overcome the Systematic Biases Underlying the Failures", Frontiers in Su stainable Cities, 2, 30, DOI: https://doi.org/10.3389/frsc.2020.00030, 2020
  4. Ham, Je-Seok, et al., "CIPF: Crossing Intention Prediction Network based on Feature Fusion Modules for Improving Pedestrian Safety", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, 2023, pp.3666-3675
  5. Ham, Je-Seok, et al., "MCIP: Multi-Stream Net work for Pedestrian Crossing Intention Prediction", European Conference on Computer Vision, Tel-Aviv, 2022, pp.663-679
  6. Soroori, Emad, et al., "Spatial association between urban neighbourhood characteristics and child pedestrian-motor vehicle collisions.", Applied Spatial Analysis and Policy, 16, 4, 1443-1462, 2023
  7. Adinarayana, Badveeti, and Mohammad ShafiMir. "Development of pedestrian safety index models for safety of pedestrian flow at un-signalized junctions on urban roads under mixed traffic conditions using MLR." Innovative Infrastructure Solutions, 6, 54, 1-9, 2021
  8. Rasouli, Amir, Iuliia Kotseruba, and John K. Tsotsos. "Are they going to cross? a benchmark dataset and baseline for pedestrian crosswalk behavior." Proceedings of the IEEE International Conference on Computer Vision Workshops, Venice, 2017, 206-213.
  9. Cheng, Zesen, et al. "VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs." arXiv preprint arXiv:2406.07476, 2024.