A Deep Learning-based Hand Gesture Recognition Robust to External Environments

외부 환경에 강인한 딥러닝 기반 손 제스처 인식

  • 오동한 (서경대학교 컴퓨터공학과) ;
  • 이병희 (서경대학교 컴퓨터공학과) ;
  • 김태영 (서경대학교 컴퓨터공학과)
  • Received : 2018.08.21
  • Accepted : 2018.10.08
  • Published : 2018.10.31

Abstract

Recently, there has been active studies to provide a user-friendly interface in a virtual reality environment by recognizing user hand gestures based on deep learning. However, most studies use separate sensors to obtain hand information or go through pre-process for efficient learning. It also fails to take into account changes in the external environment, such as changes in lighting or some of its hands being obscured. This paper proposes a hand gesture recognition method based on deep learning that is strong in external environments without the need for pre-process of RGB images obtained from general webcam. In this paper we improve the VGGNet and the GoogLeNet structures and compared the performance of each structure. The VGGNet and the GoogLeNet structures presented in this paper showed a recognition rate of 93.88% and 93.75%, respectively, based on data containing dim, partially obscured, or partially out-of-sight hand images. In terms of memory and speed, the GoogLeNet used about 3 times less memory than the VGGNet, and its processing speed was 10 times better. The results of this paper can be processed in real-time and used as a hand gesture interface in various areas such as games, education, and medical services in a virtual reality environment.

최근 딥러닝을 기반으로 사용자의 손 제스처를 인식하여 가상현실 환경에서 사용자 친화적 인터페이스를 제공하기 위한 연구가 활발히 진행되고 있다. 그러나 대부분 연구들은 손 정보를 얻기 위하여 별도 센서를 사용하거나 효율적인 학습을 위하여 전처리 과정을 거친다. 또한 조명의 변화나 손 일부가 가려지는 등과 같은 외부환경의 변화를 고려하지 못하고 있다. 본 논문은 일반 웹캠에서 얻어진 RGB 영상에서 별도의 전처리 과정없이 외부 환경에 강인한 딥러닝 기반 손 제스처 인식 방법을 제안한다. 딥러닝 모델로 VGGNet과 GoogLeNet 구조를 개선하고, 각 구조의 성능을 비교한다. 조명이 어둡거나 손 일부가 가려지거나 시야에서 일부 벗어난 손 영상들이 포함된 데이터로 실험한 결과 본 연구에서 제시한 VGGNet과 GoogLeNet 구조는 각각 93.88%와 93.75%의 인식률을 보였고 메모리와 속도 측면에서 GoogLeNet이 VGGNet 보다 메모리를 약 3배 적게 사용하면서 처리속도는 10배 이상 우수함을 알 수 있었다. 본 연구의 결과는 실시간 처리가 가능하여 가상현실 환경에서 게임, 교육, 의료 등 다양한 분야에서 손 제스처 인터페이스로 활용될 수 있다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. 조선영, 변혜란, 이희경, 차지훈, "키넥트 센서 데이터를 이용한 손 제스처 인식," 방송공학회논문지, 17(3), pp. 447-468, 2012.6. https://doi.org/10.5909/JBE.2012.17.3.447
  2. 나민영, 유휘종, 김태영, "스마트 디바이스 제어를 위한 비전 기반 실시간 손 포즈 및 제스처 인식방법," 한국차세대컴퓨팅학회 논문지, 8(4), pp.27-34, 2012.8.
  3. 김민재, 허정만, 김진형, 박소영, 장준호, "직관적인 손동작을 고려한 립모션 기반 게임 인터페이스의 개발 및 평가," 한국컴퓨터게임학회논문지, 27(4), pp.69-75, 2014.12.
  4. 고택균, 윤민호, 김태영, "HMM과 MCSVM 기반 손제스처 인터페이스 연구," 한국차세대컴퓨팅학회 논문지 14(1), pp. 57-64, 2018.2.
  5. 김설호, 김경섭, 김계영, "ToF 깊이영상과 벡터내적을 이용한 손 모양 인식," 한국차세대컴퓨팅학회 논문지 12(4), pp. 89-101, 2016.8.
  6. 문현철, 양안나, 김재곤, "웨어러블 응용을 위한 CNN 기반 손 제스처 인식," 방송공학회논문지, 23(2), pp. 246-252, 2018.3. https://doi.org/10.5909/JBE.2018.23.2.246
  7. Q. De Smedt1, H. Wannous2, J.-P. Vande borre1, J. Guerry3, B. Le Saux3, D. Filliat, "3D Hand Gesture Recognition Using a Depth and Skeletal Dataset," Eurographics Workshop on 3D Object Retrieval, 2017.
  8. 이진원, "3D-CNN을 이용한 효율적인 손 제스처 인식 방법에 관한 연구", 석사학위 논문, 서울대학교 대학원, 2017.2.
  9. Karen Simonyan ,Andrew Zisserman, "Very Deep Convolutional Networks For Large-Scale Image Recognition," In ICLR, pp. 1-14, 2014.
  10. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D.Erhan, V. Vanhoucke, A. Rabinovich, "Going Deeper with Convolutions," The IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9, 2015.
  11. Sergey Ioffe, Christian Szegedy, "Batch Nor malization: Accelerating Deep Network Training by Reducing Internal Covariate Shift", arXiv preprint arXiv:1502.03167v3, 2015.
  12. Diederik P. Kingma, Jimmy Lei Ba, "ADAM: A METHOD FOR STOCHASTIC OPTIMIZA TION," In ICLR, pp. 1-15, 2015.
  13. C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, Z. Wojna, "Rethinking the inception archite cture for computer vision", arXiv preprint arXiv:1512.00567, 2015.
  14. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, "Deep Residual Learning for Image Recognition," In CVPR, pp. 660-778, 2016.10.
  15. Vinod Nair, Geoffrey E. Hinton, "Rectified Linear Units Improve Restricted Boltzmann Machines," In International Conference on Machine Learning, pp. 807-814, 2010.
  16. Min Lin, Qiang Chen, Shuicheng Yan, "Net work In Network," arXiv preprint arXiv: 1312.4400v1, 2013.