Abstract
In this paper, we propose variations in the kernel size of 1D convolutional layers for single-frame supervised temporal action localization. Building upon the existing method, which utilizes two 1D convolutional layers with kernel sizes of 3 and 1, we introduce an approach that adjusts the kernel sizes of each 1D convolutional layer. To validate the efficiency of our proposed approach, we conducted comparative experiments using the THUMOS'14 dataset. Additionally, we use overall video classification accuracy, mAP (mean Average Precision), and Average mAP as performance metrics for evaluation. According to the experimental results, our proposed approach demonstrates higher accuracy in terms of mAP and Average mAP compared to the existing method. The method with variations in kernel size of 7 and 1 further demonstrates an 8.0% improvement in overall video classification accuracy.
본 논문에서는 단일 프레임 지도 시간적 행동 지역화에서 1D 합성곱 층의 커널 사이즈 변화를 제안한다. 본 논문에서는 두 개의 1D 합성곱 층의 커널 사이즈를 각각 3과 1을 사용하는 기존 방법을 기반으로, 각각의 1D 합성곱 층의 커널 사이즈를 변화시키는 방법을 제안하였다. 제안하는 방법의 효율성을 검증하기 위하여 THUMOS'14 데이터셋을 활용하여 비교실험을 수행하였다. 또한 성능 평가를 위해 전체 비디오에 대한 분류 정확도(Accuracy), mAP(mean Average Precision) 그리고 Average mAP를 성능 지표로 사용하였다. 본 논문의 실험 결과에 따르면 제안하는 방법이 기존 방법보다 더 정확한 mAP와 Average mAP를 제공할 수 있음을 관찰하였다. 또한 커널 사이즈를 7과 1로 변화시킨 방법이 전체 비디오에 대한 분류 정확도에서 8.0% 개선된 것을 확인할 수 있었다.