모바일 GPU 기반의 고속 3차원 공간 정보 취득 기술

  • 발행 : 2021.10.30


복잡한 알고리즘을 요구하는 3차원 공간 정보 취득 기술은 대부분 고성능의 하드웨어를 필요로 한다. 그러나 최근 스마트폰과 같은 모바일 플랫폼의 성능이 급격히 발전하면서 기존 알고리즘을 가속화해 온 디바이스로 이식하는 연구가 증가하고 있다. 이러한 추세에 따라 본 기고문은 플랫폼 제한 없는 GPU 병렬처리 프레임워크 OpenCL을 활용한 3차원 공간 정보 취득 기술의 가속화 방법을 소개하고자 한다. 본 고의 구성은 다음과 같다. 먼저 모바일 GPU 환경에서의 OpenCL 최적화 방법을 살펴본다. 이후 고전적인 기하학 기반의 스테레오 정합 알고리즘을 가속화한 방법을 소개한다. 마지막으로는 심층 신경망 네트워크와 가속화된 고전적 스테레오 알고리즘을 결합한 온 디바이스 친화적인 융합 알고리즘을 소개한다.



이 기고문은 2021년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(2017-0-00142, 스마트기기를 위한 온 디바이스 지능형 정보처리 가속화 SW플랫폼 기술 개발, 2020-0-01389, 인공지능융합연구센터지원(인하대학교))


  1. Caffe-HRT, https://github.com/OAID/Caffe-HRT
  2. ARM Compute Library, https://developer.arm.com/
  3. PyTorch Mobile, https://pytorch.org/mobile/home/
  4. PyOpenCL, https://pypi.org/project/pyopencl/
  5. The Middlebury Computer Vision Pages, http://vision.middlebury.edu/mview/
  6. J. Y. Chang, H. S. Park, I. K. Park, K. M. Lee, and S. U. Lee, "GPU-Friendly Multi-View Stereo Reconstruction Using Surfel Representation and Graph Cuts," Computer Vision and Image Understanding, vol. 115, no. 5, pp. 620-34, 2011. https://doi.org/10.1016/j.cviu.2010.11.017
  7. D. Gallup, J. M. Frahm, P. Mordohai, Q. Yang, and M. Pollefeys, "Real-Time Plane-Sweeping Stereo with Multiple Sweeping Directions," Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-8, 2007.
  8. H. Hirschmuller, "Stereo Processing by Semiglobal Matching and Mutual Information," IEEE Trans. on Pattern Analysis and Machine Intelligence 30, no. 2, pp. 328-341, 2007. https://doi.org/10.1109/TPAMI.2007.1166
  9. S. H. Im, H. G. Jeon, S. Lin, and I. S. Kweon, "DPSNet: End-to-End Deep Plane Sweep Stereo," Proc. International Conference on Learning Representations, 2019.
  10. A. Ivan, and I. K Park, "A Flexible and Configurable GPGPU Stereo Matching Framework," Multimedia Tools and Applications, vol. 79, no. 25, pp. 18367-86, 2020. https://doi.org/10.1007/s11042-020-08756-2
  11. M. Jaderberg, K. Simonyan, and A. Zisserman, "Spatial Transformer Networks," Proc. Advances in Neural Information Processing Systems, vol. 28, pp. 2017-25, 2015.
  12. Y. B. Jeon, and I. K. Park, "Deep Neural Network for Handcrafted Cost-Based Multi-View Stereo," Proc. International Workshop on Advanced Imaging Technology, 2021.
  13. Z. Ma, K. He, Y. Wei, J. Sun, and E. Wu, "Constant Time Weighted Median Filtering for Stereo Matching and Beyond," Proc. IEEE International Conference on Computer Vision, 2013.
  14. A. Munshi, B. Gaster, T. G. Mattson, and D. Ginsburg, OpenCL Programming Guide. Pearson Education, 2011.
  15. I. K. Park, Nitin Singhal, M. H. Lee, S. D. Cho, and Chris Kim, "Design and Performance Evaluation of Image Processing Algorithms on GPUs," IEEE Trans. on Parallel and Distributed Systems, vol. 22, no. 1, pp. 91-104, 2010. https://doi.org/10.1109/TPDS.2010.115
  16. D. Scharstein, H. Hirschmuller, Y. Kitajima, G. Krathwohl, N. Nesic, X. Wang, and P. Westling, "High-Resolution Stereo Datasets with Subpixel-Accurate Ground Truth," Proc. German Conference on Pattern Recognition, 2014.
  17. D. Scharstein, and R. Szeliski, "High-Accuracy Stereo Depth Maps Using Structured Light," Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2003.
  18. D. Scharstein, and R. Szeliski, "A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms," International journal of computer vision, vol. 47, no. 1, pp. 7-42, 2002. https://doi.org/10.1023/A:1014573219977
  19. S. M. Seitz, B. Curless, J. Diebel, D. Scharstein, and R. Szeliski, "A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms," Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2006.
  20. J. E. Stone, D. Gohara, and G. Shi, "OpenCL: A Parallel Programming Standard for Heterogeneous Computing Systems," Computing in Science & Engineering, vol. 12, no. 3, pp. 66, 2020.
  21. B. Ummenhofer, H. Zhou, J. Uhrig, N. Mayer, E. Ilg, A. Dosovitskiy, and T. Brox, "DeMoN: Depth and Motion Network for Learning Monocular Stereo," Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2017.
  22. Q. Yang, L. Wang, R. Yang, S. Wang, M. Liao, and D. Nister, "Real-Time Global Stereo Matching Using Hierarchical Belief Propagation," Proc. British Machine Vision Conference, 2006.
  23. Y. Yao, Z. Luo, S. Li, T. Fang, and L. Quan, "MVSNet: Depth Inference for Unstructured Multi-View Stereo," Proc. European Conference on Computer Vision, 2018.
  24. K. J. Yoon and I. S. Kweon, "Adaptive Support-Weight Approach for Correspondence Search," IEEE Trans. on pattern analysis and machine intelligence, vol. 28, no. 4, pp. 650-56, 2006. https://doi.org/10.1109/TPAMI.2006.70
  25. R. Zabih and J. Woodfill, "Non-Parametric Local Transforms for Computing Visual Correspondence," Proc. European Conference on Computer Vision, 1994.
  26. 박준형, 박인규, "온 디바이스 얼굴 라이트필드 합성 시스템," 전자공학회 논문지, vol. 58, no. 5, pp. 68-75, 2021년 5월.
  27. 전윤배, 박인규, "임베디드 GPU 에서의 병렬처리를 이용한 모바일 기기에서의 다중뷰 스테레오 정합," 방송공학회논문지, vol. 24, no. 6, pp. 1064-71, 2019년 11월. https://doi.org/10.5909/JBE.2019.24.6.1064