강화 학습을 이용한 비전 기반의 강인한 손 모양 인식에 대한 연구

A Study on Vision-based Robust Hand-Posture Recognition Using Reinforcement Learning

  • Jang Hyo-Young (Department of Electrical Engineering and Computer Science, KAIST) ;
  • Bien Zeung-Nam (Department of Electrical Engineering and Computer Science, KAIST)
  • 발행 : 2006.05.01

초록

본 논문에서는 비전 기술에 기반을 둔 손 모양 인식 시스템의 성능 향상을 위하여 강화학습에 의한 손 모양 인식 방법을 제안한다. 비전 센서에 기반을 둔 손 모양 인식은 손의 높은 자유도로 인한 자체 겹침 (self-occlusion) 현상과 관찰 방향 변화에 따른 입력 영상의 다양함으로 인식에 어려움이 따른다. 따라서 비전 기반 손 모양 인식의 경우, 카메라와 손 간의 상대적인 각도에 제한을 두거나 여러 대의 카메라를 배치하는 것이 일반적이다. 그러나 카메라와 손 간의 상대적 각도에 제한을 두는 경우에는 사용자의 움직임에 제약이 따르게 되며, 여러 대의 카메라를 사용할 경우에도 각 입력된 영상에 대한 인식 결과를 최종 인식 결과에 반영하는 방식에 대하여 추가적인 고려를 해야 한다. 본 논문에서는 비전 기반 손 모양 인식의 이러한 문제점을 개선하기 위하여 인식 과정에서 사용되는 특징을 손 구조적인 각도 정보와 손 윤곽선 정보로 나누고 강화학습을 통하여 각 특징간의 연관성을 정의하는 방식을 제안한다. 또한 제안된 방법을 세 대의 카메라를 이용한 손 모양 인식 시스템에 적용하여 유용성을 검증한다.

This paper proposes a hand-posture recognition method using reinforcement learning for the performance improvement of vision-based hand-posture recognition. The difficulties in vision-based hand-posture recognition lie in viewing direction dependency and self-occlusion problem due to the high degree-of-freedom of human hand. General approaches to deal with these problems include multiple camera approach and methods of limiting the relative angle between cameras and the user's hand. In the case of using multiple cameras, however, fusion techniques to induce the final decision should be considered. Limiting the angle of user's hand restricts the user's freedom. The proposed method combines angular features and appearance features to describe hand-postures by a two-layered data structure and reinforcement learning. The validity of the proposed method is evaluated by appling it to the hand-posture recognition system using three cameras.

키워드

참고문헌

  1. Mark Weiser, The Computer for 21st century, Sci. Amer., 1991
  2. Jung-Bae Kim, Kwang-Hyun Park, Won-Chul Bang and Z. Zenn Bien, 'Continuous gesture recognition system for Korean sign language based on fuzzy logic and hidden markov model,' Proc. of FUZZ-IEEE, 2000
  3. Chan-Su Lee, Sang-Won Ghyme, Chan-Jong Park, and Kwang-Yun Wohn, 'Virtual reality software and technology archive,' Proc. of the ACM symposium on virtual realityzxsdhg and technology 1998, pp.59-65, 1998 https://doi.org/10.1145/293701.293709
  4. Ernest Gardner, Gardner-Gray-O'Rahillv anatomy : a regional study of human structure, Saunders, 1986
  5. 석동일, 한국 수화의 언어학적 분석, 박사 학위 논문, 대구대학교, 1989
  6. J. M. Rehg and T. Kanede, 'Visual tracking of high DOF articulated structures: an application to human hand tracking,' Proc. of ECCV'94, pp.35-46, 1994
  7. D. Lowe, 'Fitting parameterized, three dimensional models to images,' IEEE Trans., PAMI, vol.13, no.5, pp.441-450, 1991 https://doi.org/10.1109/34.134043
  8. B. Moghaddam and A. Penmtland, 'Maximum likelihood detection of faces and hands,' Proc. of Int. Workshop on Automatic Face and Gesture Recognition, pp. 122-128, 1995
  9. U. Brockl-Fox, 'Realtime 3-D Interaction with up to 16 degrees of freedom from monocular video image flows,' Proc. of Int. Workshop on Automatic Face and Gesture Recognition, pp.172-178, 1995
  10. H. H. Buelthoff, S. Y. Edelman, and M. J. Tarr, 'How are three-dimensional objects represented in the brain?,' A. I. memo no. 1479, Artificial intelligence lab., Massachusetts Institute of Technology, 1994
  11. J. Hu and M. P. Wellman, Multiagent reinforceme learning: theoretical framework and an algorithm, Proc. of Int'l Conf. of Machine Learning, 1998