DOI QR코드

DOI QR Code

단일 프레임 지도 시간적 행동 지역화에서 1D 합성곱 층의 커널 사이즈 변화 연구

A Study on Kernel Size Variations in 1D Convolutional Layer for Single-Frame supervised Temporal Action Localization

  • 조혜정 ;
  • 권희원 ;
  • 조선희 ;
  • 정찬호
  • Hyejeong Jo (Dept. of Electrical Engineering, Hanbat National University) ;
  • Huiwon Gwon (Dept. of Electrical Engineering, Hanbat National University) ;
  • Sunhee Jo (Dept. of Electrical Engineering, Hanbat National University) ;
  • Chanho Jung (Dept. of Electrical Engineering, Hanbat National University)
  • 투고 : 2024.05.10
  • 심사 : 2024.06.26
  • 발행 : 2024.06.30

초록

본 논문에서는 단일 프레임 지도 시간적 행동 지역화에서 1D 합성곱 층의 커널 사이즈 변화를 제안한다. 본 논문에서는 두 개의 1D 합성곱 층의 커널 사이즈를 각각 3과 1을 사용하는 기존 방법을 기반으로, 각각의 1D 합성곱 층의 커널 사이즈를 변화시키는 방법을 제안하였다. 제안하는 방법의 효율성을 검증하기 위하여 THUMOS'14 데이터셋을 활용하여 비교실험을 수행하였다. 또한 성능 평가를 위해 전체 비디오에 대한 분류 정확도(Accuracy), mAP(mean Average Precision) 그리고 Average mAP를 성능 지표로 사용하였다. 본 논문의 실험 결과에 따르면 제안하는 방법이 기존 방법보다 더 정확한 mAP와 Average mAP를 제공할 수 있음을 관찰하였다. 또한 커널 사이즈를 7과 1로 변화시킨 방법이 전체 비디오에 대한 분류 정확도에서 8.0% 개선된 것을 확인할 수 있었다.

In this paper, we propose variations in the kernel size of 1D convolutional layers for single-frame supervised temporal action localization. Building upon the existing method, which utilizes two 1D convolutional layers with kernel sizes of 3 and 1, we introduce an approach that adjusts the kernel sizes of each 1D convolutional layer. To validate the efficiency of our proposed approach, we conducted comparative experiments using the THUMOS'14 dataset. Additionally, we use overall video classification accuracy, mAP (mean Average Precision), and Average mAP as performance metrics for evaluation. According to the experimental results, our proposed approach demonstrates higher accuracy in terms of mAP and Average mAP compared to the existing method. The method with variations in kernel size of 7 and 1 further demonstrates an 8.0% improvement in overall video classification accuracy.

키워드

참고문헌

  1. Y. G. Jiang, et al., "Thumos challenge: Actionrecognition with a large number of classes," 2014, http://crcv.ucf.edu/THUMOS14/.
  2. LEE, Pilhyeon; BYUN, Hyeran. "Learning action completeness from points for weakly-supervised temporal action localization," In: Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. pp.13648-13657. DOI: 10.1109/ICCV48922.2021.01339