Deep learning-based Human Action Recognition Technique Considering the Spatio-Temporal Relationship of Joints

관절의 시·공간적 관계를 고려한 딥러닝 기반의 행동인식 기법

  • Choi, Inkyu (Korea Electronic Technology Institute) ;
  • Song, Hyok (Korea Electronic Technology Institute)
  • Published : 2022.05.26

Abstract

Since human joints can be used as useful information for analyzing human behavior as a component of the human body, many studies have been conducted on human action recognition using joint information. However, it is a very complex problem to recognize human action that changes every moment using only each independent joint information. Therefore, an additional information extraction method to be used for learning and an algorithm that considers the current state based on the past state are needed. In this paper, we propose a human action recognition technique considering the positional relationship of connected joints and the change of the position of each joint over time. Using the pre-trained joint extraction model, position information of each joint is obtained, and bone information is extracted using the difference vector between the connected joints. In addition, a simplified neural network is constructed according to the two types of inputs, and spatio-temporal features are extracted by adding LSTM. As a result of the experiment using a dataset consisting of 9 behaviors, it was confirmed that when the action recognition accuracy was measured considering the temporal and spatial relationship features of each joint, it showed superior performance compared to the result using only single joint information.

인간의 관절은 인간의 신체를 구성하는 요소로 인간의 행동을 분석하는데 유용한 정보로 활용될 수 있기 때문에 관절 정보를 이용한 행동인식에 대한 많은 연구가 진행되었다. 하지만 각각의 독립적인 관절 정보만을 이용해서 시시각각 변화하는 인간의 행동을 인식하는 것은 매우 복잡한 문제이다. 따라서 학습에 사용할 부가적인 정보 추출 방법과 과거의 상태를 기반으로 현재 상태를 판단하는 고려하는 알고리즘이 필요하다. 본 논문에서는 연결된 관절들의 위치 관계와 각 관절의 위치가 시간의 흐름에 따라 변화하는 것을 고려한 행동 인식 기법을 제안한다. 사전 학습된 관절 추출 모델을 이용하여 각 관절의 위치 정보를 획득하고 연결된 관절 사이의 차 벡터를 이용하여 뼈대 정보를 추출한다. 그리고 두 가지 형태의 입력에 맞춰 간소화된 신경망을 구성하고 LSTM을 더하여 시·공간적 특징을 추출하도록 한다. 9개의 행동으로 구성된 데이터 셋을 이용하여 실험한 결과 각 관절 및 뼈대의 시·공간적 관계 특징을 고려하여 행동 인식 정확도를 측정하였을 때 단일 관절 정보만을 이용한 결과에 비해 뛰어난 성능을 보임을 확인하였다.

Keywords

Acknowledgement

이 논문은 2022년도 중소벤처기업부의 기술개발사업 지원에 의한 연구임 [S2977538].