1. 서 론
주어진 장면에서 3-D 깊이 정보를 추정하는 것은 컴퓨터비전 분야의 중요한 연구주제로써, 물체 인식, 객체 추적, 로봇 비전, 3-D 모델링 등의 많은 응용분야에 널리 사용되고 있다. 지난 수십 년 동안 많은 깊이 추정 방식들이 제안되어 왔으며, 일반적으로 레이저 기반 거리 측정 [3], 스테레오 정합 [4,5,6], Time-of-Flight 방식 [7], 구조 광 [8] 방식으로 분류할 수 있다.
레이저 기반 거리 측정 방식들 [4,5,6]은 정밀한 3-D 거리정보를 제공하지만, LIDAR와 같은 매우 고가의 장비가 요구된다. 반면, 스테레오 정합 기반방식들은 두 대 이상의 카메라에서 획득된 영상들에서 대응점을 추정함으로서 3-D 거리정보를 복원한다. 비용 집합 방식 [9]과 전역 최적화 방식 [10]을 사용하여 수많은 스테레오 정합 방식들이 제안되어 왔지만, 높은 계산량과 추정 오차로 인해 여전히 실제 사용에 제약이 있다.
최근에는 이러한 기존 방식들의 문제점을 해결하기 위해 새로운 깊이 추정 기술들이 제안되고 있다. 대표적인 예로는 구조 광을 이용한 능동형 조명과 컬러 카메라를 동시에 사용하는 Kinect v1 [1], Time-of-Flight 원리를 사용하여 물체에서 반사된 적외선 영상의 위상차를 검출하는 Kinect v2 [2] 등이 있다. 이러한 방식들은 레이저 기반 측정 방식들보다 훨씬 저렴하며, 실시간으로 2-D 깊이 영상을 제공하기에 카메라나 물체가 움직이는 동적 환경에서도 사용이 가능하다. 이와 같이 상용화된 깊이 카메라의 출현은 컴퓨터 비전의 많은 분야 [11,12,32]에서 획기적인 발전을 가능하도록 하였다.
더 나아가, 이러한 범용 깊이카메라의 보급은 대규모 RGB+D 데이터베이스의 구축을 가능하게 하였다. RGB+D 영상은 동일한 장면에 대해 획득된 컬러 영상과 깊이 영상을 의미하는데, 대표적인 예로는 NYU에서 제공하는 Kinect 기반 RGB+D 데이터베이스가 있다 [18]. Kinect 카메라를 이용하여 컬러영상과 깊이 영상을 동시에 획득한 후, 두 영상 간의 캘리브레이션 파라미터를 추정하여 정합함으로써 동일한 위치에서 획득된 컬러 영상과 깊이 영상이 제공된다. NYU에서 제공하는 RGB+D 데이터베이스는 범용 깊이카메라인 Kinect를 사용함으로써 다양한 환경에서 대규모의 RGB+D 영상들을 제공하고 있으며, 이는 많은 컴퓨터비전 분야에 널리 활용되고 있다. 그러나, 구조 광을 사용하는 Kinect 카메라의 태생적인 한계와 최대 측정 범위가 7m정도로 제한되는 문제로 인하여 NYU에서 제공하는 RGB+D 데이터베이스는 실내 환경에 국한되어 있다.
최근 KITTI 벤치마크에서는 LIDAR 기반 실외 RGB+D 영상들을 획득하여 제공하고 있다 [15]. 그러나, 제공되는 영상들의 수가 매우 적으며, 깊이 영상의 품질이 여전히 조악한 편이다. LIDAR를 이용한 실외 깊이 영상 획득은 매우 고가의 장비를 요구하기에 대규모 RGB+D 데이터베이스를 구축하기가 어려우며, 부가적으로 획득되는 컬러 영상과의 정밀한 정합을 통해 동일한 위치로 정렬하는 것 역시 매우 어려운 주제이다.
이러한 문제점을 고려하여 본 논문에서는 스테레오 정합을 이용하여 대규모 실외 RGB+D 데이터베이스를 구축하는 새로운 시스템을 제안한다. 두 대의 컬러 카메라만을 사용하기 때문에 저비용의 획득시스템을 구축할 수 있으며, 기존의 깊이추정 장비인 Kinect v2나 LIDAR에 비해 높은 해상도의 깊이 영상을 획득하는 것이 가능하다. 본 연구에서는 Stereolabs사 [16]에서 개발한 고해상도 스테레오 카메라를 이용하여 획득된 두 장의 영상에서 스테레오 정합을 통해 깊이 영상을 추정한다. 그러나, 스테레오 정합은 가려진 영역, 반복 패턴, 또는 텍스처 부재 영역에서 발생하는 대응점 추정 오차로 인해, 깊이 영상의 정확도가 저하되는 문제가 종종 발생한다. 이를 해결하기 위해 많은 스테레오 정합 방식들이 제안되어 왔지만, 실제 사용 환경에서는 여전히 많은 문제점이 존재한다. 이러한 문제를 해결하기 위해 대부분의 스테레오 정합 방식은 좌우 깊이 영상 일관성, 비용함수의 극점 비율 등을 이용하여 추정 에러가 존재하는 픽셀들을 분류한 후, 후처리과정에서 신뢰도가 높은 주변의 깊이 정보를 이용하여 에러 픽셀들의 깊이 정보를 보간한다.
최근에는 각 픽셀에 대한 분류기를 다양한 신뢰도 특징벡터를 이용하여 학습하는 방식들이 제안되고 있으며, 위에서 언급된 간단한 신뢰도 추정 방식들에 비해 좋은 성능을 보여주고 있다 [22]. 이러한 학습 기반 신뢰도 측정방식들에서는 유익한 신뢰도 벡터들을 어떻게 조합하느냐가 매우 중요하다. 예를들어, [22]의 방식은 치환 중요도 척도를 학습함으로써 가장 중요한 신뢰도 특징벡터를 추출하고, 임의회귀 포레스트 [28]를 이용하여 신뢰도 분류기를 학습한다. 그러나 이러한 방식은 각 픽셀에 대해 독립적으로 신뢰도를 측정하기 때문에 신뢰도 영상에 존재하는 공간적 상관성을 전혀 고려하지 않는다. 즉, 각 픽셀에 대해 독립적으로 정의된 신뢰도 벡터에서는 깊이추정 오류를 강인하게 검출하는데 한계가 있다.
본 논문에서는 스테레오 정합을 통해 추정된 깊이 영상의 신뢰도를 보다 정확하게 추정할 수 있는 새로운 방식을 소개하고, 이를 대규모 실외 RGB+D 데이터베이스 구축에 적용한 결과를 소개한다. 추정된 깊이 영상은 공간상 평활하며 깊이 영상으로부터 계산된 신뢰도 영상 역시 공간적으로 평활하다는 가정 하에, 수퍼픽셀 내에서 신뢰도 벡터에 필터링의 원리를 적용한다.
Fig. 1은 추정된 신뢰도 영상의 예를 보여준다. 본 논문에서 정의하는 신뢰도 영상은 스테레오 정합을 통해 추정된 깊이 영상이 올바른 값인지 여부를 나타낸다. Fig. 1(b)의 위쪽영상은 초기 깊이 영상을 이용하여 계산된 실측 신뢰도 영상이고, 아래쪽 영상은 실측 깊이 영상이다. 실측 신뢰도 영상은 0과 1의 값으로 표시되어 있으며 검정색 부분은 실측 깊이 영상과 추정 깊이 영상 간이 서로 다른 값을 가지는 것을 의미한다. Fig. 1(c)와 (d)는 기존 방식 [22]과 제안 방식을 비교한 것으로써 위쪽 영상은 신뢰도 영상이고, 아래쪽 영상은 신뢰도 영상을 기반으로 Fig. 1(a)의 초기 깊이 영상에 후처리한 결과를 나타낸다. [22]의 방법과 제안하는 방법으로 얻어진 신뢰도 영상은 0과 1사이의 값으로 정규화 되어있다. 즉, 신뢰도 영상 내에서 색이 어두울수록 신뢰도가 낮은 깊이 정보라는 것을 의미한다. Fig. 1(c)와 (d)의 아래쪽 영상을 비교해보면 기존의 신뢰도 측정 방식 [22]에 비해 제안 방식으로 추정된 신뢰도 영상으로 후처리된 깊이 영상이 높은 성능을 얻는을 확인할 수 있다.
Fig. 1.Confidence image considering spatial coherency. (a) Left original image and depth image using census-based SGM [29], (b) Ground truth confidence map and depth map, (c) Confidence map estimated using a per-pixel classifier [22] and refined depth map using the confidence map, (d) Confidence map estimated using our method and refined depth map using the confidence map. Red arrows point suppressed errors.
논문의 구성은 다음과 같다. 2장에서는 야외 환경에서 스테레오 영상들을 획득하기 위해 사용된 고해상도 스테레오 카메라와 촬영 방식에 대해 소개한다. 3장에서는 제안하는 신뢰도 추정 알고리즘을 설명한다. 4장은 제안된 신뢰도 측정법의 결과로 나온 신뢰도 영상을 이용하여 깊이 영상을 후처리하는 알고리즘을 소개하고 5장은 실험결과를 보여준다.
2. RGB+D 획득 시스템
실외 환경에서 고해상도의 스테레오 영상들을 획득하기 위해 Stereolabs사에서 제공되는 Zed카메라를 사용한다 [16] (Fig. 2). Zed 카메라는 1920×1080 크기의 고해상도 스테레오 영상을 제공하며, 카메라 베이스라인은 120mm이고, 스테레오 정합을 통해 제공되는 깊이 영상을 통해 최대 15m까지 측정이 가능하다. 카메라의 자세한 스펙은 [16]에서 참조할 수 있다.
Fig. 2Zed stereo camera.
Stereolabs사에서는 Zed 카메라의 제어를 위한 SDK [17]를 제공하고 있고 있는데, 이를 이용하기 위해서는 2.3GHz 듀얼코어 이상의 CPU가 요구된다. 또한, Full HD급의 영상을 촬영하기 위해서는 4GB 이상의 RAM이 탑재되어 있어야 한다. Zed SDK는 매우 간단한 스테레오 정합 방식을 사용하여 실시간으로 깊이 영상을 제공하는데, 실시간 깊이 영상의 출력을 위해서는 Nvidia GPU with Compute Capability 2.0 버전 이상이 요구된다.
Zed SDK는 획득되는 영상을 동영상의 경우 svo라는 확장자를 가진 raw 파일로 저장하며, 스틸 영상은 무손실 압축 포맷인 png파일로 저장한다. 그러나, 야외 환경에서 영상을 촬영할 때, 스틸 영상은 저장 이름을 매 프레임마다 일일이 입력해야하기에 획득에 매우 많은 시간이 소요되며, svo 동영상 파일은 무압축 데이터이기에 적은 시간에도 매우 커다란 용량을 차지한다 (약 150Mb/초). 더욱이, 본 연구를 통해 구축하려는 야외 데이터베이스는 다양한 배경, 구도, 조명 등에서 획득되어야 하기에, 동영상으로 저장된 연속된 사진들이 필요하지 않다.
이에 본 연구에서는 OpenCV를 사용하여 Zed 카메라를 제어하는 SW를 개발하여 영상 획득에 사용하였다. 또한, Zed SDK에서 제공되는 스테레오 영상 교정 함수가 매우 낮은 품질의 교정된 스테레오 영상들을 제공하기에, 자체적으로 스테레오 카메라 교정 [13,14]을 통해 획득된 카메라 파라미터들을 이용하여 영상을 교정하였다. Fig. 3은 교정된 스테레오 영상과 추정된 깊이 영상을 보여준다. 스테레오 정합을 수행하기 위해 Semi-Global Matching (SGM) [29]알고리즘을 사용하였다. 데이터셋 구축을 위해 저장되는 파일 이름의 형식은 다음과 같다.
Fig. 3Example of our dataset using Zed stereo camera. (a),(b) Rectified left and right images, (c) Depth image provided by Zed stereo matching tool [16]. The quality of the depth image is relatively low as the tool focuses on a real-time computation.
장소(in out)_카메라 고유ID_날짜(연도 월 일)_촬영시간(시간 분 초)_좌 우 깊이(l r d) 촬영된 영상은 데이터베이스에 총 5장으로 원본 좌우영상, 교정된 좌우영상 그리고 깊이 영상이 저장된다. 스테레오 정합에 적합한 영상을 얻기 위해 촬영 외부환경도 고려해야 한다. 촬영 영상 내의 깊이 분포를 고려하여 15m 미만에 대부분의 물체가 들어오도록 구도를 설정하고, 장소의 다양함을 고려하여 촬영하였다. 또한, 하늘이나 거울과 같이 반투명한 물체의 영역이 최소화 되도록 구도를 잡았으며, 움직임에 의한 플레어 현상, 태양반사광이 찍힌 영상을 걸러내 데이터베이스를 구축하였다. 지금까지 15만장의 데이터베이스를 구축하였으며, 그 중 일부를 웹사이트에 공개하였다 [29].
3. 제안된 신뢰도 측정 방식
3.1 개관
스테레오 정합을 통해 획득된 깊이 영상에는 많은 추정오차가 존재한다. 본 장에서는 깊이 영상의 신뢰도를 측정하는 새로운 방식을 소개한다. 전반적인 알고리즘의 흐름은 Fig. 4에 설명되어 있다.
Fig. 4Overview of the proposed method.
스테레오 영상의 쌍을 IL,IR이라 하고, 영상 내에 있는 픽셀을 p라고 하면, IL(p),IR(p): Ω→R3, Ω⊂N2 라고 할 수 있다. 스테레오 정합을 이용하여 얻어질 수 있는 변이를 d∈D={1,...,dmax}라 하고, 변이에 대한 비용 함수를 C(p,d)라고 정의한다. 제안 방식의 목표는 정확한 신뢰도 값 T(p) ⊂ [0,1]을 추정 하는 것이다.
기존 방식 [30,20,22]에서는 공간적인 관계를 배제한 채로 신뢰도 특징 벡터를 픽셀단위로 정의하는 반면 제안하는 방식은 구조화된 학습 방식 [23,31]으로 학습된 데이터를 기반으로 정의되는 구조화 분류기를 제안한다. 공간적으로 평활하고 구조적인 관계를 포함한 신뢰도 획득 방식은 Fig. 1에서 보는 바와 같이 공간적인 상관관계를 배제한 기존 것과 비교하여 더 나은 성능을 보여준다.
학습 단계에서 신뢰도 특징 벡터를 정의할 때, 픽셀 수준과 수퍼픽셀 수준으로 두 가지 벡터를 생성한 뒤 두 신뢰도 특징 벡터를 집성한다. 특징벡터를 집성할 때, 영상 평활화를 위해 사용되는 경계 보존 필터링 방식을 사용한다. 이렇게 집성된 신뢰도 특징 벡터는 임의 회귀 포레스트 [28] 학습에 사용한다. 테스트 단계에서는 학습된 임의 회귀 포레스트 모델과 집성된 신뢰도 특징 벡터를 이용하여 깊이 영상의 신뢰도를 추정한 후, 깊이 영상 정제과정에 적용한다.
3.2 신뢰도 특징 벡터
우선 학습단계에서 우리는 기존의 신뢰도 특징 벡터 [22] 보다 뛰어난 성능을 지니는 신뢰도 특징 벡터를 제안하고 이를 임의 회귀 포레스트 [28]를 학습하는데 사용한다. 본 논문에서 제안하는 신뢰도 특징 벡터는 공간적으로 평활화되도록 집성하여 신뢰도가 낮은 부분 즉, 깊이 영상에서 좌우 영상간 매칭이 잘 되지 않은 부분에서 신뢰도 추정의 성능을 높인다. 다시 말해서 [22]에서 사용된 신뢰도 특징 벡터를 각 픽셀마다 계산한 후, 이를 공간 및 특징도 메인에서 집성하여 개선된 신뢰도 특징 벡터를 생성한다.
3.2.1 초기 신뢰도 특징 벡터
변이를 계산하기 위한 비용함수 C(p,d)를 구하기 위하여 census 함수 [21]를 사용한다. 비용함수 C(p,d)에서 초기 깊이 영상 D(p) = argmindC(p,d)를 구하고, [22]에서 차용한 신뢰도 특징 벡터 v(p) = [v1(p),v1(p),...,vLf(p)]를 계산한다. Lf는 신뢰도 벡터의 차원을 의미하며, 본 논문에서는 Lf = 8로 정의되었다. 특징 벡터를 구성하는 각 특징은 좌우 영상 거리, 좌우 영상 일관성, 중간 변이의 편차, 최대 유사치, 고유 최고조 비율 등으로 구성된다.
3.2.2 공간 도메인에서 신뢰도 특징 벡터의 집성
3.2.1절에서 계산된 8×1 크기의 신뢰도 특징 벡터를 좀 더 강인하게 만들기 위해 우선 수퍼픽셀 단위로 특징 벡터 를 정의한다. 수퍼픽셀 레벨에서 보았을 때, 같은 수퍼픽셀 내에 존재하는 픽셀들은 비슷한 깊이 정보를 가질 확률이 매우 높으며, 이는 비슷한 신뢰도를 가질 수 있는 가능성이 높아진다는 것을 의미한다. 이러한 가정을 이용하여 수퍼픽셀내에서 정의되는 신뢰도 특징 벡터 가 계산된다. 수퍼픽셀은 SLIC [24]을 이용하여 계산되며, 좌측영상 IL의 수퍼픽셀을
라고 정의한다. Ns는 수퍼픽셀의 개수이며, 수퍼픽셀 Sm에 대한 신뢰도 특징 벡터 은 다음과 같이 정의된다.
|Sm|는 수퍼픽셀 Sm에 포함되는 픽셀들의 개수이다. 픽셀 p∈Sm에 대해서 픽셀 단위의 신뢰도 특징 벡터와 수퍼픽셀 단위의 신뢰도 특징 벡터를 동시에 사용하는 a(p)를 다음과 같이 정의한다.
3.2.3 특징 도메인에서의 신뢰도 특징 벡터 집성
합쳐진 신뢰도 벡터 a(p)에 존재하는 변동을 줄이기 위해 추가적으로 필터링을 적용한다. 이때, 두 픽셀의 신뢰도 벡터가 비슷하다면 신뢰도 값이 유사하다는 가정 하에, 신뢰도 특징 벡터와 신뢰도 값 사이에 상관성을 이용한다. 신뢰도 벡터를 안내 영상으로 설정하고, Adaptive manifold 필터 [25]를 이용한 적응적 필터링 기법을 신뢰도 영상과 신뢰도 값에 아래와 같이 적용한다.
K(p,q)는 신뢰도 특징 벡터 간의 유사도로 다음과 같이 정의된다.
W(p)는 w×w 필터의 윈도우 크기이고, σh는 가우시안 함수의 표준 편차이다. 여기서 필터의 가중치 K(p,q)를 정의할 때, 공간적인 거리를 고려하지 않고 신뢰 특징 a(p)만을 사용한다. 이는 이전 단계에서 신뢰 특징을 공간적으로 집성했기 때문이다.
마지막 단계로 필터링된 신뢰도 특징 벡터 a*(p)와 신뢰도 영상 T*(q)을 이용하여 G을 만족하는 임의 회귀 포레스트 [28]를 학습한다.
Fig. 5는 기존 방식과 제안 방식의 차이를 보여주기 위한 것으로 이들 방법으로 얻어진 신뢰도 영상을 이용하여 깊이영상 후처리 작업에 적용한 결과를 보여준다. Fig. 5(a)는 초기 깊이 영상이고, Fig. 5(b)는 기존 [22]의 방법으로 구한 신뢰도 영상을 깊이 영상 후처리 작업에 적용하여 정제한 깊이 영상이고, Fig. 5(c)는 제안한 방식으로 얻어진 신뢰도 영상을 이용하여 깊이영상 후처리 작업에 적용한 결과이다. 기존의 v(p)와 T(p)를 이용하여 임의 회귀 포레스트를 학습하는 것 [22]보다 제안한 a*(p)와 T*(q)을 이용하여 임의 회귀 포레스트를 학습하는 것이 더욱 뛰어난 신뢰도 영상을 제공하는 것을 확인할 수 있다. 특히, 제안한 방식으로 후처리 작업을 한 깊이 영상에서 깊이 데이터가 결여된 부분이 더 잘 보간된 것을 볼 수 있다.
Fig. 5.Visual comparison in Middlebury dataset [19]. (a) initial depth image using census-based SGM [29], (b) refined depth image using confidence measured by [22], (c) refined depth image using confidence measured by the proposed method, (d) ground truth depth image.
4. 신뢰도 영상 기반 깊이영상 후처리
지금까지 우리는 초기 깊이 영상으로부터 신뢰도 특징 벡터를 구하는 방법에 대해 설명했다. 이제 제안된 신뢰도 측정방식에 대한 타당성을 검증하기 위해 깊이 영상 후처리에 적용한다. 본 논문에서는 [20]에서 사용된 방식과 유사하게 깊이 영상의 후처리를 진행한다.
Ground Control Point(GCP)는 깊이 영상을 보간할 때 기준이 되는 점들로써, 깊이 영상에서 신뢰도가 높은 점들로 구성된다. 보간할 때에 깊이 영상의 신뢰도 영상이 정확할수록, 후처리된 깊이 영상은 더 좋은 성능을 가지게 될 것이다. 초기 GCP를 설정해 줄 때, 문턱치 δ를 사용자가 정해주어 δ보다 높은 신뢰도를 가지는 점들을 GCP라고 설정해 준다. [13]에서 언급된 것처럼 GCP의 밀도와 정확도 사이엔 트레이드오프가 있다. 즉, 문턱치 δ의 값이 너무 낮으면 GCP의 밀도는 높아지지만 True Negative (TN) 정확도는 떨어지게 될 것이다. 우리는 최적화 과정에서 GCP 에러에 의한 전파 오류를 방지하기 위해, 비록 True Positive (TP)가 떨어지더라도 TN을 증가시키는 것에 초점을 맞추었다. Fig. 6은 기존의 방법 [22]과 제안한 방법을 비교하기 위해 Middlebury 데이터셋을 이용하여 True negative rate (TNR)를 구한 그래프이다. TNR은 TN/(TN+FP)으로 구할 수 있다. 여기서 FP는 False positive를 뜻한다. 기존 방식의 TNR 평균은 0.949376이고, 제안 방식의 TNR 평균은 0.977191로 제안 방식의 정확도가 더 높은 것을 알 수 있다.
Fig. 6The true negative (TN) rate in Middlebury dataset [19]. The TN rate is measured on the Middlebury 2006 dataset that contains 21 stereo image pairs and corresponding ground truth depth map. We can find that our method shows a higher TN rate than existing method.
GCP를 이용하여 최종 깊이 영상 을 구하기 위해 아래와 같은 에너지함수를 사용한다 [20].
D는 MRF 전파 알고리즘의 입력 깊이 영상이고 는 결과 깊이 영상이다. 픽셀 p와 q에 대한 가중치 행렬 M(p,q)는 다음과 같이 정의한다.
m은 GCP 픽셀이면 1을 아니면 0의 값을 갖는 이진 영상이고, σ는 사용자의 입력으로 정의되는 편차이다. 가중치 함수 k(p,q)=e-VsVd(p,q)는 사용자 입력상수 Vs와 두 픽셀 p와 q간의 화소값 거리 를 이용하여 정의된다. 여기서 norm()은 0과 1사이로 정규화하는 함수이다. 라플라시안 행렬 L은 k를 통해 얻을 수 있다. 픽셀 p≠q에 대해서 Lpq = -k(p,q)와 Lpp = ∑q∈W4(p)k(p,q)로 정의할 수 있다. 식 (6)은 이차 함수로서, 이를 최소화하 는 해인 은 선형 시스템 에서 쉽게 구해진다. 신뢰도 높은 깊이 값들과 입력 영상의 공간적 상관관계를 이용하는 최적화 방식을 통해 깊이 영상의 성능을 개선할 수 있다
5. 실험결과
이 장에서는 실험을 통해 기존의 신뢰도 측정방식 [22]과 제안방식의 결과를 비교하여 보여준다. 트레이닝 단계에서는 KITTI 데이터셋 [15]을 사용했고, 테스트 단계에서는 Middlebury 데이터셋[19], KITTI 데이터셋 [15]과 직접 촬영한 영상을 사용하였다. 임의 회귀 포레스트 [28]의 학습에 사용한 영상은 50장이다. 임의 회귀 포레스트 [28]의 학습 단위는 영상단위가 아니라 영상내에 있는 픽셀단위이다. 즉, 영상 50장으로 학습하는 것은 결코 적은 학습량이 아니다. 학습 결정 트리를 구성하기 위해 매트랩에서 지원하는 TreeBagger package [27]를 사용했다. 특징벡터를 집성할 때 사용되는 Adaptive manifold 필터 [25]의 파라미터인 W(p)는 전역 최적화를 고려해야 하기 때문에 비교적 큰 크기의 윈도우가 필요하다 간주되어 본 실험에서는 51x51 윈도우를 사용했으며, σh는 a(p)값을 고려해 실험적으로 구한 0.5로 설정했다. GCP 설정단계에서 δ를 0.7로 설정 해주었는데 이는 전역적으로 최적화된 깊이 영상으로부터 교차 타당성을 이용하여 문턱치 값을 정해주었다 [20]. GCP 기반 최적화 과정에서 σ는 깊이 영상 D값을 고려해 10으로 설정했다. 또한 Vs를 10으로 설정해주었다.
5.1 신뢰도 기반 스테레오 정합 후처리
초기의 깊이 영상은 census기반 SGM [29]을 사용하여 추출해 냈고, GCP기반 최적화를 통하여 깊이 영상을 정제하였다. 객관적 평가를 위해서 제안 방식과 기존 방식 [22]의 정확도를 평균제곱오차(MSE)로 나타내어 비교하였다. Fig. 7은 Middlebury 데이터셋 [13]에서 제공되는 21장의 영상을 사용하여 제안 방식과 기존 방식 [22]을 통해 얻은 깊이 영상에 대한 평균제곱오차(MSE)를 보여준다. 평균제곱오차 방식은 깊이 영상과 실측 영상을 픽셀당 오차의 제곱의 합으로 나타낸 것이다. 실험 결과를 보면 제안 방식을 적용한 것이 기존 방식 [22]보다 낮은 오차를 가지는 것을 볼 수 있다.
Fig. 7The MSE of the resultant depth map for Middlebury data [13]. The MSE is measured on the Middlebury 2006 dataset that contains 21 stereo image pairs and corresponding ground truth depth map. It is shown that the depth map of our method has a lower MSE value than existing method.
Fig. 8과 Fig. 9는 각각 KITTI [15] 데이터셋과 우리가 구축한 데이터셋에서 깊이 영상 후처리 작업을 적용한 결과이다. 기존 신뢰도 측정방식 [22]과 제안한 방식을 이용하여 획득된 신뢰도 영상을 이용하여 깊이 영상이 정제되었다. 후처리된 깊이 영상을 비교하면, 제안 방식이 월등하게 좋은 깊이 영상을 제공하는 것을 확인할 수 있다. 실측 영상이 존재하지 않는 실외영상에 대해서는 주관적인 평가만 수행할 수 있는데, Fig. 8(c), 9(c)에 존재하는 얼룩(정합이 되지 않은 부분)이 Fig. 8(d), 9(d)에서 제거된 것을 확인할 수 있다. 보통 텍스처의 부재로 하늘이나 지면 부분에서 이런 얼룩들이 관찰되는데, [22]의 방식으로는 얼룩들을 처리할 수 없다. 하지만 공간적 관계를 고려한 제안 방식을 이용하여 신뢰도를 추정함으로써 깊이 추정 에러 때문에 발생한 이러한 얼룩들을 후처리를 통해 보정할 수 있다.
Fig. 8Visual comparison in KITTI dataset [18]. (a) left input images, (b) initial depth images using census-based SGM [29], (c) refined depth image using confidence measured by [22], (d) refined depth images using confidence measured by the proposed measure.
Fig. 9Visual comparison in our dataset. (a) left input images, (b) initial depth images using census-based SGM [29], (c) refined depth images using confidence measured by [22], (d) refined depth images using confidence measured by the proposed measure.
5.2 RGB+D 데이터셋 사이트
스테레오 카메라를 이용한 실외 RGB+D 데이터셋을 구축하기 위하여 스테레오 영상 500장을 샘플로 [26]에 공개하였다. [26]에 업로드된 데이터셋은 Zed 스테레오 카메라로 촬영한 좌, 우 영상과 census 기반 SGM [29]로 추출해낸 깊이 영상을 정제한 영상, 그리고 학습을 통해 얻어진 신뢰도 영상 500쌍이다.
6. 결 론
지금까지 학습을 통한 신뢰도 측정방식을 소개했다. 신뢰도 특징 벡터를 공간적 상관관계를 고려하여 집성시키고, 임의 회귀 포레스트 [28]를 통해 학습시켰다. 추정된 신뢰도 영상을 이용하여 깊이 영상의 정제과정을 수행하였을 때, 깊이 영상의 성능이 개선되는 것을 확인하였다. 거리 측정 장비의 한계로 인해 실외 RGB+D 데이터셋의 구축이 어려운시점에서 고성능 스테레오 카메라를 이용하여 기존에 없던 방대한 양의 고성능 RGB+D 데이터셋을 구축할 수 있게 되었다. 이렇게 구축한 데이터셋은 앞으로 많은 컴퓨터비전 응용 분야에서 사용될 것으로 예상된다.
References
- Kinect v1, http://www.xbox.com/en-US/xbox-360/accessories/kinect (accessed Sep., 30, 2016)
- Kinect v2, http://www.xbox.com/en-US/xboxone/accessories/kinect. (accessed Sep., 30, 2016).
-
J.S. Massa, A.M. Wallace, G.S. Buller, S.J. Fancey, and A.C. Walker, “Laser Depth Measurement Based on Time-correlated Single-photon Counting,”
Optics Letters , Vol. 22, No. 8, pp. 543-545, 1997. https://doi.org/10.1364/OL.22.000543 -
A. Klaus, M. Sormann, and K. Karner. “Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure,”
Proceeding of International Conference on Pattern Recognition , Vol. 3, pp. 15-18, 2006. -
T. Kanade and M. Okutomi. “A Stereo Matching Algorithm with an Adaptive Window: Theory and Experiment,”
IEEE Transactions on Pattern Analysis and Machine Intelligence , Vol. 16, No. 9, pp. 920-932, 1994. https://doi.org/10.1109/34.310690 -
J. Sun, N.N. Zheng, and H.Y. Shum. “Stereo Matching Using Belief Propagation,”
IEEE Transactions on Pattern Analysis and Machine Intelligence , Vol. 25, Issue 7, pp. 787-800, 2003. https://doi.org/10.1109/TPAMI.2003.1206509 -
S.B. Gokturk, H. Yalcin, and C. Bamji. “A Time-Of-Flight Depth Sensor-System Description, Issues and Solutions,”
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 35-35, 2004. -
D. Scharstein and R. Szeliski, “High-accuracy Stereo Depth Maps Using Structured Light,”
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 195-202, 2003. -
M. Gong, R. Yang, and L. Wang, “A Performance Study on Different Cost Aggregation Approaches Used in Real-time Stereo Matching,”
International J ournal of Computer Vision , Vol. 75, No. 2, pp. 283-296, 2007. https://doi.org/10.1007/s11263-006-0032-x -
Z.F. Wang and Z.G. Zheng. “A Region Based Stereo Matching Algorithm Using Cooperative Optimization,”
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 1-8, 2008. -
R.A. Newcombe, S. Izadi, O. Hilliges, D. Molyneaux, D. Kim, A.J. Davison, et al. “KinectFusion: Real-time Dense Surface Mapping and Tracking,”
Proceeding of IEEE International Symposium on Mixed and Augmented Reality , pp. 127-136, 2011. - W. Thomas, K. Michael, F. Maurice, J. Hordur, L. John, and M. John, Kintinuous: Spatially Extended Kinectfusion, MIT-CSAIL-TR-2012-020, 2012.
- Detect Checker Board Points, http://kr.mathworks.com/help/vision/ref/detectcheckerboardpoints.html (accessed Sep., 30, 2016)
- Rectify Stereo Images, http://kr.mathworks.com/help/vision/ref/rectifystereoimages.html (accessed Sep., 30, 2016)
- KITTI Dataset, http://www.cvlibs.net/data-sets/kitti/ (accessed Sep., 30, 2016)
- Zed Stereo Labs, https://www.stereolabs.com/(accessed Sep., 30, 2016)
- Zed SDK, https://www.stereolabs.com/developers/(accessed Sep., 30, 2016)
- NYU Depth Dataset V2, http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html (accessed Sep., 30, 2016)
- Middlebury Stereo Dataset, http://vision.middlebury.edu/stereo/data/ (accessed Sep., 30, 2016)
-
A. Spyropoulos, N. Komodakis, and P. Mordohai. “Learning to Detect Ground Control Points for Improving the Accuracy of Stereo Matching,"
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 1621-1628, 2014. -
D. Scharstein and R. Szeliski,“A Taxonomy and Evaluation of Dense Two-frame Stereo Correspondence Algorithms,”
IEEE Workshop on Stereo and Multi-Baseline Vision , pp. 131-14, 2001. -
M. Park and K. Yoon,“Leveraging Stereo Matching with Learning-based Confidence Measures,"
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 101-109, 2015. -
P. Dollar and C.L. Zitnick, “Structured Forests for Fast Edge Detection,”
Proceeding of International Conference on Computer Vision , pp. 1841-1848, 2013. -
R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. Susstrunk, “Slic Superpixels Compared to State-of-the-art Superpixel Methods,"
Pacific Asian Management Institute , Vol. 34 No. 11 pp. 2274-2282, 2012. -
E.S. Gastal and M.M. Oliveira, “Adaptive Manifolds for Real-time High-dimensional Filtering,"
Proceeding of Special Interest Group on Graphics and Interactive Techniques , Vol. 31, No. 4, 2012. - Our RGB+D Dataset, https://sites.google.com/site/rgbddataset/ (accessed Sep., 30, 2016).
- Tree Gabber Class, http://kr.mathworks.com/help/stats/treebagger-class.html (accessed Sep., 30, 2016) .
-
A. Liaw and M. Wiener, “Classification and Regression by Random Forest,”
R News , Vol. 2 No. 3, pp. 18-22, 2002. -
R. Hirschmuller, “Stereo Processing by Semiglobal Matching and Mutual information,”
Pacific Asian Management Institute , Vol. 30, No. 2, pp. 328-341, 2008. -
R. Haeusler, R. Nair, and D. Kondermann, “Ensemble Learning for Confidence Measrues in Stereo Vision,”
Proceeding of IEEE Conference on Computer Vision and Pattern Recognition , pp. 305-312, 2013. -
P. Kontschieder, S.R. Bulo, H. Bischof, and M. Pelillo, “Structured Class-labels in Random Forests for Semantic Image Labelling,”
Proceeding of International Conference on Computer Vision , pp. 2190-2197, 2011. -
S.K Kwon and “Tracking Method for Moving Object Using Depth Pictur,”
Journal of Korea Multimedia Society , Vol. 19, Issue 4, pp. 774-779, 2016. https://doi.org/10.9717/kmms.2016.19.4.774