초록
본 논문에서는 Kinect와 같은 RGB-D 센서를 이용하여 사람의 3차원 신체 포즈 스트림 데이터를 생성하고, 이로부터 사람의 일상 행위를 효과적으로 인식하는 방법을 제안한다. Kinect SDK나 OpenNI에서 제공하는 실시간 신체 포즈 데이터는 Kinect 중심의 3차원 데카르트 좌표계로 표현되기 때문에, 시점 변화 문제와 크기 변화 문제를 겪을 가능성이 높다. 이러한 문제를 해결하고 시점 및 크기 불변인 특징을 얻기 위해, 본 논문에서는 신체 포즈 데이터를 실험자의 골반을 원점으로 하는 구면 좌표계로 변환하고 실험자의 팔 길이를 이용한 크기 정규화를 수행한다. 또한, 본 논문에서는 확률 그래프 모델 중 하나인 은닉 조건부 랜덤 필드를 이용하여, 고수준의 일상 행위들이 내포하는 다양한 내부 구조를 효과적으로 표현한다. 두 가지 데이터 집합 KAD-70과 CAD-60을 이용한 실험을 통해, 본 논문에서 제안한 행위 인식 방법과 구현 시스템의 높은 인식 성능을 확인하였다.
In this paper, we propose an effective method for recognizing daily human activities from a stream of three dimensional body poses, which can be obtained by using Kinect-like RGB-D sensors. The body pose data provided by Kinect SDK or OpenNI may suffer from both the view variance problem and the scale variance problem, since they are represented in the 3D Cartesian coordinate system, the origin of which is located on the center of Kinect. In order to resolve the problem and get the view-invariant and scale-invariant features, we transform the pose data into the spherical coordinate system of which the origin is placed on the center of the subject's hip, and then perform on them the scale normalization using the length of the subject's arm. In order to represent effectively complex internal structures of high-level daily activities, we utilize Hidden state Conditional Random Field (HCRF), which is one of probabilistic graphical models. Through various experiments using two different datasets, KAD-70 and CAD-60, we showed the high performance of our method and the implementation system.