• 제목/요약/키워드: Monocular depth estimation

검색결과 23건 처리시간 0.036초

단안영상에서 움직임 벡터를 이용한 영역의 깊이추정 (A Region Depth Estimation Algorithm using Motion Vector from Monocular Video Sequence)

  • 손정만;박영민;윤영우
    • 융합신호처리학회논문지
    • /
    • 제5권2호
    • /
    • pp.96-105
    • /
    • 2004
  • 2차원 이미지로부터 3차원 이미지 복원은 각 픽셀까지의 깊이 정보가 필요하고, 3차원 모델의 복원에 관한 일반적인 수작업은 많은 시간과 비용이 소모된다. 본 논문의 목표는 카메라가 이동하는 중에, 획득된 단안 영상에서 영역의 상대적인 깊이 정보를 추출하는 것이다. 카메라 이동에 의한 영상의 모든 점들의 움직임은 깊이 정보에 종속적이라는 사실에 기반을 두고 있다. 전역 탐색 기법을 사용하여 획득한 움직임 벡터에서 카메라 회전과 배율에 관해서 보상을 한다. 움직임 벡터를 분석하여 평균 깊이를 측정하고, 평균 깊이에 대한 각 영역의 상대적 깊이를 구하였다. 실험결과 영역의 상대적인 깊이는 인간이 인식하는 상대적인 깊이와 일치한다는 것을 보였다.

  • PDF

불균일 안개 영상 합성을 이용한 딥러닝 기반 안개 영상 깊이 추정 (Non-Homogeneous Haze Synthesis for Hazy Image Depth Estimation Using Deep Learning)

  • 최영철;백지현;주광진;이동건;황경하;이승용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권3호
    • /
    • pp.45-54
    • /
    • 2022
  • 영상의 깊이 추정은 다양한 영상 분석의 기반이 되는 기술이다. 딥러닝 모델을 활용한 분석 방법이 대두되면서, 영상의 깊이 추정 분야 또한 딥러닝을 활용하는 연구가 활발하게 이루어지고 있다. 현재 대부분의 딥러닝 영상 깊이 추정 모델들은 깨끗하고 이상적인 환경에서 학습되고 있다. 하지만 연무, 안개가 낀 열악한 환경에서도 깊이 추정 기술이 잘 동작할 수 있으려면 이러한 환경의 데이터를 포함하여야 한다. 하지만 열악한 환경의 영상을 충분히 확보하는 것이 어려운 실정이며, 불균일한 안개 데이터를 얻는 것은 특히 어려운 문제이다. 이를 해결하기 위해, 본 연구에서는 불균일 안개 영상 합성 방법과 이를 활용한 단안 기반의 깊이 추정 딥러닝 모델의 학습을 제안한다. 안개가 주로 실외에서 발생하는 것을 고려하여, 실외 위주의 데이터 세트를 구축한다. 그리고 실험을 통해 제안된 방법으로 학습된 모델이 합성 데이터와 실제 데이터에서 깊이를 잘 추정하는 것을 보인다.

Deep Learning-based Depth Map Estimation: A Review

  • Abdullah, Jan;Safran, Khan;Suyoung, Seo
    • 대한원격탐사학회지
    • /
    • 제39권1호
    • /
    • pp.1-21
    • /
    • 2023
  • In this technically advanced era, we are surrounded by smartphones, computers, and cameras, which help us to store visual information in 2D image planes. However, such images lack 3D spatial information about the scene, which is very useful for scientists, surveyors, engineers, and even robots. To tackle such problems, depth maps are generated for respective image planes. Depth maps or depth images are single image metric which carries the information in three-dimensional axes, i.e., xyz coordinates, where z is the object's distance from camera axes. For many applications, including augmented reality, object tracking, segmentation, scene reconstruction, distance measurement, autonomous navigation, and autonomous driving, depth estimation is a fundamental task. Much of the work has been done to calculate depth maps. We reviewed the status of depth map estimation using different techniques from several papers, study areas, and models applied over the last 20 years. We surveyed different depth-mapping techniques based on traditional ways and newly developed deep-learning methods. The primary purpose of this study is to present a detailed review of the state-of-the-art traditional depth mapping techniques and recent deep learning methodologies. This study encompasses the critical points of each method from different perspectives, like datasets, procedures performed, types of algorithms, loss functions, and well-known evaluation metrics. Similarly, this paper also discusses the subdomains in each method, like supervised, unsupervised, and semi-supervised methods. We also elaborate on the challenges of different methods. At the conclusion of this study, we discussed new ideas for future research and studies in depth map research.

Visual Object Tracking Fusing CNN and Color Histogram based Tracker and Depth Estimation for Automatic Immersive Audio Mixing

  • Park, Sung-Jun;Islam, Md. Mahbubul;Baek, Joong-Hwan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권3호
    • /
    • pp.1121-1141
    • /
    • 2020
  • We propose a robust visual object tracking algorithm fusing a convolutional neural network tracker trained offline from a large number of video repositories and a color histogram based tracker to track objects for mixing immersive audio. Our algorithm addresses the problem of occlusion and large movements of the CNN based GOTURN generic object tracker. The key idea is the offline training of a binary classifier with the color histogram similarity values estimated via both trackers used in this method to opt appropriate tracker for target tracking and update both trackers with the predicted bounding box position of the target to continue tracking. Furthermore, a histogram similarity constraint is applied before updating the trackers to maximize the tracking accuracy. Finally, we compute the depth(z) of the target object by one of the prominent unsupervised monocular depth estimation algorithms to ensure the necessary 3D position of the tracked object to mix the immersive audio into that object. Our proposed algorithm demonstrates about 2% improved accuracy over the outperforming GOTURN algorithm in the existing VOT2014 tracking benchmark. Additionally, our tracker also works well to track multiple objects utilizing the concept of single object tracker but no demonstrations on any MOT benchmark.

실안개를 이용한 단일 영상으로부터의 깊이정보 획득 및 뷰 생성 알고리듬 (Depth estimation and View Synthesis using Haze Information)

  • 소용석;현대영;이상욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.241-243
    • /
    • 2010
  • Previous approaches to the 2D to 3D conversion problem require heavy computation or considerable amount of user input. In this paper, we propose a rather simple method in estimating the depth map from a single image using a monocular depth cue: haze. Using the haze imaging model, we obtain the distance information and estimate a reliable depth map from a single scenery image. Using the depth map, we also suggest an algorithm that converts the single image to 3D stereoscopic images. We determine a disparity value for each pixel from the original 'left' image and generate a corresponding 'right' image. Results show that the algorithm gives well refined depth maps despite the simplicity of the approach.

  • PDF

무인 항공기의 영상기반 목표물 추적과 광류를 이용한 상대깊이 추정 (Vision-based Target Tracking for UAV and Relative Depth Estimation using Optical Flow)

  • 조선영;김종훈;김정호;이대우;조겸래
    • 한국항공우주학회지
    • /
    • 제37권3호
    • /
    • pp.267-274
    • /
    • 2009
  • 최근 무인 항공기(Unmanned Aerial Vehicle, UAV)는 다양한 임무수행이 가능한 무인 시스템이라는 점에서 크게 주목받고 있다. 특히 정찰, 추적 등의 임무는 영상을 이용하여 임무 수행이 이루어진다. 소형 무인 항공기의 경우 중량과 비용을 고려하여 단안 영상을 이용하는 임무 수행 연구가 활발하게 이루어지고 있다. 그러나 실제 지표면과 목표물이 고도 차이를 가지고 있어, 영상의 상대깊이를 고려하지 않은 3차원 거리는 임무 수행 시 오차 요인으로 작용 할 수 있다. 본 연구에서는 상대 깊이 추정을 위한 평균이동 알고리즘, 광류, 부분 공간법에 관하여 차례로 제시한다. 평균이동 알고리즘은 영상 내 목표물 추적과 관심영역을 결정하며 광류는 영상의 자기를 이용한 영상 이동 정보를 포함한다. 마지막으로 부분 공간법은 영상안의 움직임을 추정하며 각 영역의 상대깊이를 결정한다.

다중영상을 이용한 딥러닝 기반 온디바이스 증강현실 시스템 (Deep Learning Based On-Device Augmented Reality System using Multiple Images)

  • 정태현;박인규
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.341-350
    • /
    • 2022
  • 본 논문은 온디바이스 환경에서 다중 시점 영상을 입력 받아 객체를 증강하고, 현실 공간에 의한 가려짐을 구현하는 딥러닝 기반의 증강현실 시스템을 제안한다. 이는 세부적으로 카메라 자세 추정, 깊이 추정, 객체 증강 구현의 세 기술적 단계로 나눠지며 각 기법은 온디바이스 환경에서의 최적화를 위해 다양한 모바일 프레임워크를 사용한다. 카메라 자세 추정 단계에서는 많은 계산량을 필요로 하는 특징 추출 알고리즘을 GPU 병렬처리 프레임워크인 OpenCL을 통해 가속하여 사용하며, 깊이 영상 추론 단계에서는 모바일 심층신경망 프레임워크 TensorFlow Lite를 사용하여 가속화된 단안, 다중 영상 기반의 깊이 영상 추론을 수행한다. 마지막으로 모바일 그래픽스 프레임워크 OpenGL ES를 활용해 객체 증강 및 가려짐을 구현한다. 제시하는 증강현실 시스템은 안드로이드 환경에서 GUI를 갖춘 애플리케이션으로 구현되며 모바일과 PC 환경에서의 동작 정확도 및 처리 시간을 평가한다.

동영상에서 물체의 추출과 배경영역의 상대적인 깊이 추정 (Moving Object Extraction and Relative Depth Estimation of Backgrould regions in Video Sequences)

  • 박영민;장주석
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.247-256
    • /
    • 2005
  • 컴퓨터 비젼에 관한 고전적인 연구 주제들 중의 하나는 두 개 이상의 이미지로부터 3차원 형상을 재구성하는 3차원 변환에 관한 것이다. 본 논문은 단안 카메라로 촬영한 일반적인 2차원 영상물에서 능동적으로 움직이는 3차원 영상의 깊이 정보를 추출하는 문제를 다룬다. 연속하는 프레임들간의 영상 블록의 움직임을 평가하여 카메라의 회전과 배율효과를 보상하고 다음과 같은 두 개의 단계에 걸쳐 블록의 움직임을 추출한다. (i) 블록의 위치와 움직임을 이용하여 카메라의 이동과 초점거리에 대한 전역 파라메타를 계산한다. (ii) 전역 파라메타, 블록의 위치와 움직임을 이용하여 평균 영상 깊이에 대한 상대적인 블록의 깊이를 계산한다. 다양한 동영상을 대상으로 특이점인 경우와 그렇지 않은 경우를 실험하였다. 결과로 얻어지는 상대적인 깊이 정보와 객체는 인간이 판단하는 경우와 동일함을 보였다.

동적 환경에서 강인한 영상특징을 이용한 스테레오 비전 기반의 비주얼 오도메트리 (Stereo Vision-based Visual Odometry Using Robust Visual Feature in Dynamic Environment)

  • 정상준;송재복;강신천
    • 로봇학회논문지
    • /
    • 제3권4호
    • /
    • pp.263-269
    • /
    • 2008
  • Visual odometry is a popular approach to estimating robot motion using a monocular or stereo camera. This paper proposes a novel visual odometry scheme using a stereo camera for robust estimation of a 6 DOF motion in the dynamic environment. The false results of feature matching and the uncertainty of depth information provided by the camera can generate the outliers which deteriorate the estimation. The outliers are removed by analyzing the magnitude histogram of the motion vector of the corresponding features and the RANSAC algorithm. The features extracted from a dynamic object such as a human also makes the motion estimation inaccurate. To eliminate the effect of a dynamic object, several candidates of dynamic objects are generated by clustering the 3D position of features and each candidate is checked based on the standard deviation of features on whether it is a real dynamic object or not. The accuracy and practicality of the proposed scheme are verified by several experiments and comparisons with both IMU and wheel-based odometry. It is shown that the proposed scheme works well when wheel slip occurs or dynamic objects exist.

  • PDF

스테레오 적외선 조명 및 단일카메라를 이용한 3차원 환경인지 (3D Environment Perception using Stereo Infrared Light Sources and a Camera)

  • 이수용;송재복
    • 제어로봇시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.519-524
    • /
    • 2009
  • This paper describes a new sensor system for 3D environment perception using stereo structured infrared light sources and a camera. Environment and obstacle sensing is the key issue for mobile robot localization and navigation. Laser scanners and infrared scanners cover $180^{\circ}$ and are accurate but too expensive. Those sensors use rotating light beams so that the range measurements are constrained on a plane. 3D measurements are much more useful in many ways for obstacle detection, map building and localization. Stereo vision is very common way of getting the depth information of 3D environment. However, it requires that the correspondence should be clearly identified and it also heavily depends on the light condition of the environment. Instead of using stereo camera, monocular camera and two projected infrared light sources are used in order to reduce the effects of the ambient light while getting 3D depth map. Modeling of the projected light pattern enabled precise estimation of the range. Two successive captures of the image with left and right infrared light projection provide several benefits, which include wider area of depth measurement, higher spatial resolution and the visibility perception.