An Efficient Hand Gesture Recognition Method using Two-Stream 3D Convolutional Neural Network Structure

이중흐름 3차원 합성곱 신경망 구조를 이용한 효율적인 손 제스처 인식 방법

  • 최현종 (서경대학교 컴퓨터공학과) ;
  • 노대철 (서경대학교 컴퓨터공학과) ;
  • 김태영 (서경대학교 컴퓨터공학과)
  • Received : 2018.11.16
  • Accepted : 2018.12.13
  • Published : 2018.12.31

Abstract

Recently, there has been active studies on hand gesture recognition to increase immersion and provide user-friendly interaction in a virtual reality environment. However, most studies require specialized sensors or equipment, or show low recognition rates. This paper proposes a hand gesture recognition method using Deep Learning technology without separate sensors or equipment other than camera to recognize static and dynamic hand gestures. First, a series of hand gesture input images are converted into high-frequency images, then each of the hand gestures RGB images and their high-frequency images is learned through the DenseNet three-dimensional Convolutional Neural Network. Experimental results on 6 static hand gestures and 9 dynamic hand gestures showed an average of 92.6% recognition rate and increased 4.6% compared to previous DenseNet. The 3D defense game was implemented to verify the results of our study, and an average speed of 30 ms of gesture recognition was found to be available as a real-time user interface for virtual reality applications.

최근 가상환경에서 몰입감을 늘리고 자유로운 상호작용을 제공하기 위한 손 제스처 인식에 대한 연구가 활발히 진행되고 있다. 그러나 기존의 연구는 특화된 센서나 장비를 요구하거나, 낮은 인식률을 보이고 있다. 본 논문은 정적 손 제스처와 동적 손 제스처 인식을 위해 카메라 이외의 별도의 센서나 장비 없이 딥러닝 기술을 사용한 손 제스처 인식 방법을 제안한다. 일련의 손 제스처 영상을 고주파 영상으로 변환한 후 손 제스처 RGB 영상들과 이에 대한 고주파 영상들 각각에 대해 덴스넷 3차원 합성곱 신경망을 통해 학습한다. 6개의 정적 손 제스처와 9개의 동적 손 제스처 인터페이스에 대해 실험한 결과 기존 덴스넷에 비해 4.6%의 성능이 향상된 평균 92.6%의 인식률을 보였다. 본 연구결과를 검증하기 위하여 3D 디펜스 게임을 구현한 결과 평균 34ms로 제스처 인식이 가능하여 가상현실 응용의 실시간 사용자 인터페이스로 사용가능함을 알 수 있었다.

Keywords

Acknowledgement

Supported by : 서경대학교

References

  1. 박경범, 이재열, "가상현실 환경에서 3D 가상객체 조작을 위한 인터페이스와 인터랙션 비교 연구," 한국CDE학회 논문집, 21(1), pp. 20-30, 2016. 3.
  2. 윤종원, 민준기, 조성배, "몰입형 가상현실의 착용식 사용자 인터페이스를 위한 Mixture-of- Experts 기반 제스처 인식," 한국HCI학회 논문지, 6(1), pp. 1-8, 2011. 5.
  3. 나민영, 유휘종, 김태영, "스마트 디바이스 제어를 위한 비전 기반 실시간 손 포즈 및 제스처 인식방법," 한국차세대컴퓨팅학회 논문지, 8(4), pp.27-34, 2012.8.
  4. 이새봄, 정일홍, "키넥트를 사용한 NUI 설계 및 구현," 한국디지털콘텐츠학회 논문지, 15(4), pp. 473-480, 2014. 8.
  5. 고택균, 윤민호, 김태영, "HMM과 MCSVM 기반 손 제스처 인터페이스 연구," 한국차세대컴퓨팅학회 논문지, 14(1), pp. 57-64, 2018. 2.
  6. 김민재, 허정만, 김진형, 박소영, 장준호, "직관적인 손 동작을 고려한 립모션 기반 게임 인터페이스의 개발 및 평가," 한국컴퓨터게임학회 논문지, 27(4), pp. 69-75, 2014. 12.
  7. 김설호, 김경섭, 김계영, "ToF 깊이영상과 벡터내적을 이용한 손 모양 인식," 한국차세대컴퓨팅학회 논문지, 12(4), pp. 89-101, 2016.8.
  8. 문현철, 양안나, 김재곤, "웨어러블 응용을 위한 CNN 기반 손 제스처 인식," 방송공학회 논문지, 23(2), pp. 246-252, 2018. 3.
  9. A. Sinha, C. Choi, and K. Ramani, "DeepHand: Robust hand pose estimation by completing a matrix imputed with deep features," In IEEE Conference on Computer Vision and Patter Recognition, pp. 4150-4158, 2016.
  10. P. Molchanov, S. Gupta, K. Kim, and J. Kauts "Hand Gesture Recognition with 3D Convolutional Neural Networks," In IEEE Conference on Computer Vision and Pattern Recognition, pp.1-7, 2015.
  11. G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten. "Densely connected convolutional networks," In IEEE Conference on Computer Vision and Pattern Recognition, pp 3-11, 2017.
  12. K. Simonyan, A. Zisserman. "Two- stream convolutional networks for action recognition in videos," In NIPS, 2014.
  13. C. Feichtenhofer, A. Pinz, A. Zisserman, "Convolutional two-stream network fusion for video action recognition," The IEEE Conference on Computer Vision and Pattern Recognition, pp. 1933-1941, 2016.
  14. Min Lin, Qiang Chen, Shuicheng Yan, "Network In Network," arXiv preprint arXiv:1312.4400v1, 2013.
  15. K. Simonyan, A. Zisserman, "Very Deep Convolutional Networks For Large-Scale Image Recognition," In International Conference on Machine Learning, pp. 1-14, 2014.
  16. Sergey Ioffe, Christian Szegedy, "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shif,t" arXiv preprint arXiv:1502.03167v3, 2015.
  17. Vinod Nair, Geoffrey E. Hinton, "Rectified Linear Units Improve Restricted Boltzmann Machines," In International Conference on Machine Learning, pp. 807-814, 2010.