Deep learning-based Multi-view Depth Estimation Methodology of Contents' Characteristics

다 시점 영상 콘텐츠 특성에 따른 딥러닝 기반 깊이 추정 방법론

  • Son, Hosung (Department of Electronic Engineering, Sogang University) ;
  • Shin, Minjung (Department of Electronic Engineering, Sogang University) ;
  • Kim, Joonsoo (Electronics and Telecommunications Research Institute) ;
  • Yun, Kug-jin (Electronics and Telecommunications Research Institute) ;
  • Cheong, Won-sik (Electronics and Telecommunications Research Institute) ;
  • Lee, Hyun-woo (Electronics and Telecommunications Research Institute) ;
  • Kang, Suk-ju (Department of Electronic Engineering, Sogang University)
  • Published : 2022.06.20

Abstract

Recently, multi-view depth estimation methods using deep learning network for the 3D scene reconstruction have gained lots of attention. Multi-view video contents have various characteristics according to their camera composition, environment, and setting. It is important to understand these characteristics and apply the proper depth estimation methods for high-quality 3D reconstruction tasks. The camera setting represents the physical distance which is called baseline, between each camera viewpoint. Our proposed methods focus on deciding the appropriate depth estimation methodologies according to the characteristics of multi-view video contents. Some limitations were found from the empirical results when the existing multi-view depth estimation methods were applied to a divergent or large baseline dataset. Therefore, we verified the necessity of obtaining the proper number of source views and the application of the source view selection algorithm suitable for each dataset's capturing environment. In conclusion, when implementing a deep learning-based depth estimation network for 3D scene reconstruction, the results of this study can be used as a guideline for finding adaptive depth estimation methods.

최근 다 시점 영상 콘텐츠 기반 3차원 공간(장면) 복원을 위한 다 시점 깊이 추정 딥러닝 네트워크 방법론이 널리 연구되고 있다. 다 시점 영상 콘텐츠는 촬영 구도, 촬영 환경 및 세팅에 따라 다양한 특성을 가지며, 고품질의 3차원 복원을 위해서는 이러한 특성을 이해하고, 적절한 깊이 추정 네트워크 기법들을 적용하는 것이 중요하다. 다 시점 영상 촬영 구도로는 수렴형, 발산형이 존재하며, 촬영 세팅에는 카메라 시점 간 물리적 거리인 baseline이 있다. 본 연구는 이와 같은 다 시점 영상 콘텐츠의 종류와 각 특징에 기반하여 콘텐츠(데이터 셋)의 특성에 따른 적절한 깊이 추정 네트워크 방법론을 다룬다. 실험 결과로부터, 기존의 다 시점 깊이 추정 네트워크를 발산형 또는 large baseline 특성을 가지는 데이터 셋에 곧바로 적용하는데 한계점이 존재함을 확인하였다. 따라서, 각 영상 환경에 적합한 '참조 시점 개수' 및 적절한 '참조 시점 선택 알고리즘'의 필요성을 검증하였다. 결론적으로, 3차원 공간(장면) 복원을 위한 딥러닝 기반 깊이 추정 네트워크 구현 시, 본 연구 결과가 다 시점 영상 콘텐츠 기반 깊이 추정 기법 선택에 있어 가이드라인으로 활용될 수 있음을 확인하였다.

Keywords

Acknowledgement

This work was supported by Institute of Information & communications Technology Planning & Evaluation (IITP) grant funded by the Korea government(MSIT) (2022-0-00022), Development of immersive video spatial computing technology for ultra-realistic metaverse services), the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (No. 2021R1A2C1004208).