Abstract
This paper proposes a novel hidden Markov model (HMM)-based gesture recognition method and applies it to an HCI to control a computer game. The novelty of the proposed method is two-fold: 1) the proposed method uses a continuous streaming of human motion as the input to the HMM instead of isolated data sequences or pre-segmented sequences of data and 2) the gesture segmentation and recognition are performed simultaneously. The proposed method consists of a single HMM composed of thirteen gesture-specific HMMs that independently recognize certain gestures. It takes a continuous stream of pose symbols as an input, where a pose is composed of coordinates that indicate the face, left hand, and right hand. Whenever a new input Pose arrives, the HMM continuously updates its state probabilities, then recognizes a gesture if the probability of a distinctive state exceeds a predefined threshold. To assess the validity of the proposed method, it was applied to a real game, Quake II, and the results demonstrated that the proposed HMM could provide very useful information to enhance the discrimination between different classes and reduce the computational cost.
본 논문에서는 은닉 마르코프 모델 (HMM: hidden Markov model)을 이용한 제스처 인식 방법을 제안하고, 이를 게임 시스템의 인터페이스로 적용한 사례를 소개한다. 제안된 방법은 다음의 두 가지 특징을 가진다. 첫 번째는 사전에 분할된 데이터 열을 입력으로 사용하는 기존의 방법과는 달리, 제안된 방법은 카메라로부터 입력되는 비디오 스트림을 HMM의 입력으로 사용한다는 것이다. 두 번째는 제안된 HMM은 제스처의 분할과 인식을 동시에 수행한다는 것이다. 제안된 방법에서 사용자의 제스처는 13개의 제스처들을 인식하는 13개의 specific-HMM들을 결합하는 하나의 통합된 HMM을 통해 인식된다. 제안된 HMM은 사용자의 머리와 양손의 2D-위치 좌표로 구성된 포즈 심볼들의 열을 입력받는다. 그리고 새로운 포즈가 입력될 때마다, HMM의 상태 확률 값을 갱신한다. 그때, 만약 특정 상태의 확률 값이 미리 정해둔 임계치보다 큰 경우, 그 특정 상태를 포함하고 있는 제스처로 인식한다 제안된 방법의 정당성을 입증하기 위하여, 제안된 방법은 Quake II라는 컴퓨터 게임에 적용되었다. 실험결과는 제안된 방법이 높은 인식 정확률과, 계산 시간을 확연하게 감소시킬 수 있었음을 보여주었다.