DOI QR코드

DOI QR Code

Dictionary Learning based Superresolution on 4D Light Field Images

4차원 Light Field 영상에서 Dictionary Learning 기반 초해상도 알고리즘

  • Lee, Seung-Jae (Department of Information and Communication Engineering, Inha University) ;
  • Park, In Kyu (Department of Information and Communication Engineering, Inha University)
  • 이승재 (인하대학교 정보통신공학과) ;
  • 박인규 (인하대학교 정보통신공학과)
  • Received : 2015.07.10
  • Accepted : 2015.09.22
  • Published : 2015.09.30

Abstract

A 4D light field image is represented in traditional 2D spatial domain and additional 2D angular domain. The 4D light field has a resolution limitation both in spatial and angular domains since 4D signals are captured by 2D CMOS sensor with limited resolution. In this paper, we propose a dictionary learning-based superresolution algorithm in 4D light field domain to overcome the resolution limitation. The proposed algorithm performs dictionary learning using a large number of extracted 4D light field patches. Then, a high resolution light field image is reconstructed from a low resolution input using the learned dictionary. In this paper, we reconstruct a 4D light field image to have double resolution both in spatial and angular domains. Experimental result shows that the proposed method outperforms the traditional method for the test images captured by a commercial light field camera, i.e. Lytro.

Light field 카메라를 이용하여 영상을 취득한 후 다양한 응용 프로그램으로 확장이 가능한 4차원 light field 영상은 일반적인 2차원 공간영역(spatial domain)과 추가적인 2차원 각영역(angular domain)으로 구성된다. 그러나 이러한 4차원 light field 영상을 유한한 해상도를 가진 2차원 CMOS 센서로 취득하므로 저해상도의 제약이 존재한다. 본 논문에서는 이러한 4차원 light field 영상이 가지는 해상도 제약 조건을 해결하기 위하여, 4차원 light field 영상에 적합한 딕셔너리 학습 기반(dictionary learning-based) 초해상도(superresolution) 알고리즘을 제안한다. 제안하는 알고리즘은 4차원 light field 영상으로부터 추출한 많은 수의 4차원 패치(patch)들을 바탕으로 딕셔너리를 구성 및 훈련하며, 학습된 딕셔너리를 바탕으로 저해상도 입력 영상의 해상도를 향상시키는 과정을 수행한다. 제안하는 알고리즘은 공간영역과 각영역의 해상도를 동시에 각각 2배 향상시킨다. 실험에 사용된 영상은 상용 light field 카메라인 Lytro에서 취득하였고 기존의 알고리즘과의 비교를 통해 제안하는 알고리즘의 우수성을 검증한다.

Keywords

Ⅰ. 서 론

공간상에서 여러 방향으로 진행하는 빛의 양을 취득하여 생성한 4차원 light field 영상은 기존의 2차원 영상에 비해 광선의 방향 정보를 추가로 포함하고 있고, 이러한 정보들을 활용하여 재초점 영상, 3차원 깊이 정보 추정 등 다양한 영상처리를 수행할 수 있다. Light field 영상의 정보는 기존 2차원 영상이 가지는 공간영역 해상도를 가지는 동시에 방향의 정보를 가지는 각영역 해상도를 가진다. 그러나 이러한 특성 때문에 light field 영상의 가장 큰 단점이 발생한다. 즉, 영상 취득 단계에서 4차원의 정보를 2차원의 센서로 취득하므로 공간영역과 각영역 해상도 사이에 상호 관계(trade-off)로 인한 해상도의 제약이 존재한다는 점이다. 이러한 상호 관계는 렌즈 개수 및 렌즈 크기가 제한적인 상용 light field 취득 장비[1][2]에서 해상도의 감소를 유발하게 된다. 즉, 제한된 정보량에서 각영역 해상도가 증가하면 필연적으로 공간영역 해상도가 감소하게 되는 것이다. 이는 재초점 영상, 3차원 깊이 정보 추정 등 다양한 응용 프로그램에서의 사용자 만족도를 낮추는 원인이 된다.

이러한 문제를 해결하기 위한 해상도 향상 알고리즘 중 초해상도 알고리즘은 일반적인 선형 보간 기법에 비해 수행 시간은 좀 더 오래 소요되지만 정확도 및 정밀도가 높다는 장점을 가진다. 이러한 2차원 영상에서의 초해상도 알고리즘은 크게 두 가지 형태로 나뉜다. 첫 번째는 Farsiu 등의 연구[3]로 대표되는 복수의 영상을 이용하여 한 장의 영상에서 해상도를 향상시키는 복수 영상 기반 초해상도 알고리즘이고, 두 번째는 Freeman 등의 연구[4], Yang과 Yang의 연구[5]로 대표되는 단일 입력 영상과 딕셔너리에 학습을 통해 저장되어 있는 정보를 이용하여 입력 영상의 해상도를 향상 시키는 단일 영상 기반 초해상도 알고리즘이다. 본 논문에서는 다수의 영상을 이용하여 한 장의 해상도 향상을 수행하지 않고, light field 영상의 각 보조 영상들 각각의 해상도를 향상 시켜 향후 다양한 분야에 응용하기 위해 단일영상 기반 초해상도 알고리즘을 제안하고자 한다. 이를 위하여 본 논문에서는 최근 발표된 단일 영상 기반 초해상도 알고리즘의 다양한 방법 중 하나인 Yang과 Yang의 연구[5]로 대표되는 회귀 기반 알고리즘을 기반으로 연구를 진행한다. 그 이유는 기존 2차원 영상에 비해 light field 영상은 보다 방대한 양의 데이터를 처리해야 하기 때문에 수행속도가 빠른 초해상도 알고리즘이 필요하기 때문이다.

본 논문의 목표는 상용 light field 카메라의 단점인 저해상도 영상 취득을 소프트웨어적 처리로 보완하여 공간영역 해상도 및 각영역 해상도를 향상시킨다. 또한 공간영역과 각영역에 공통인 딕셔너리를 사용하여 4차원으로 구성된 두 영역의 해상도 향상을 목표로 하며, 대량의 정보처리에 적합하도록 효율적인 수식을 이용하여 문제를 해결하고자 한다. 그리고 기존의 해상도 향상 알고리즘과 정량적, 정성적 비교 과정을 통해 제안하는 알고리즘의 우수성을 평가한다.

본 논문의 구성은 다음과 같다. 제2장에서는 제안하는 알고리즘을 4차원 light field 영상 정보를 재구성하여 패치를 추출하는 과정, 딕셔너리 구성 및 훈련과정, 그리고 복원과정으로 구분하여 순서대로 기술한다. 제3장에서는 제안하는 알고리즘을 이용하여 생성한 실험 결과를 정성적으로 검증하고, 기존의 알고리즘의 결과와의 비교를 수행한다. 마지막으로 제 4장에서는 본 논문의 결론을 맺는다.

 

Ⅱ. Light field 영상에서의 초해상도 알고리즘

본 장에서는 4차원 light field 영상에서 한 종류의 딕셔너리를 사용하여 한 번에 공간영역, 각영역으로 해상도를 향상시킨다는 연구 목적에 부합하도록 4차원으로 정보처리의 차원을 확장시킨 초해상도 알고리즘을 제안한다. 초해상도 알고리즘을 4차원 light field 영상에 대해 고안하기 위하여 본 논문에서는 세 가지 단계를 가지는 알고리즘을 제안한다. 즉, 제안하는 알고리즘은 light field 영상의 특성에 적합한 4차원 패치의 생성 단계, 취득한 실세계의 light field 영상을 저장하고 생성된 패치를 바탕으로 훈련하는 딕셔너리의 훈련 단계, 그리고 입력 영상을 바탕으로 향상된 해상도를 가진 결과 영상으로 복원해 내는 복원 단계로 구성되어 있으며 본 장에서는 각 단계에 대한 세부적인 내용을 서술한다.

본 논문에 사용하는 모든 4차원 light field 영상은 마이크로 렌즈 배열 방식의 상용 light field 카메라를 사용하여 취득한다. 또한 사람이 인지하는 해상도는 밝기 영역에서 가장 민감하므로 컬러 영상을 밝기 영상으로 변환하여 제안하는 초해상도 알고리즘을 적용한다.

제안하는 알고리즘은 기존 2차원 영상에서 해상도 향상에 사용하는 딕셔너리의 훈련기법을 기본 바탕으로 구성된다. 휴대성 및 사용자 편의성을 위한 상용 light field 카메라는 장비 크기의 제한으로 인해 밀집한 렌즈들의 배열로 이루어진다. 그로인해 영상을 취득하는 환경이 제한적이라는 특성을 가지게 되는데, 이러한 특성을 고려하여 해상도를 향상하는 과정에 있어 확률이나 수식적인 접근 보다는 비슷한 환경에서 취득된 데이터로부터 훈련된 정보들을 바탕으로 이를 복원하는 딕셔너리 훈련기법이 본 논문이 제안하는 실험환경과 목적에 가장 적합한 기법이라 판단된다.

1. Light Field 영상의 변환

마이크로 렌즈 배열 방식의 상용 light field 카메라에서는 메인 렌즈를 통해 들어오는 광선들을 소형 렌즈 배열에 통과시켜 방향 별로 센서의 서로 다른 위치에 기록하므로 그림 1(a)와 같이 직접 사용할 수 없는 초기 데이터 형태로 영상이 저장된다. 그림 1(a)를 확대하여 보면 작은 마이크로 영상의 집합으로 구성된 것을 확인할 수 있다. 따라서 원 데이터를 실험에 적합하도록 좌표계를 변환해주는 과정이 필요하다. 본 논문에서는 Dansereau 등의 연구[6]를 이용하여 원 데이터를 색정보 보정 단계 및 영상에서 빛의 방향별 분류 단계를 거쳐 직접적으로 사용이 가능하도록 부조리개 영상(sub-aperture image)들을 생성한다. 이후 4차원 영상의 표현을 위하여 그림 1(b)와 같이 각 부조리개 영상들을 각영역 별로 정리된 한 영상으로 합쳐 4차원의 light field 영상을 만들고 이를 이용하여 초해상도 알고리즘을 개발한다. 본 논문에서 각영역의 좌표계는 u, v로, 공간영역의 좌표계는 x, y로 표기하기로 한다.

그림 1.상용 light field 카메라(Lytro)에서 취득한 원 데이터 및 부조리개 영상으로의 변환 결과 Fig 1. Light field sub-aperture images generated from the raw data captured by commercial light field camera (Lytro)

2. 4차원 학습 패치 생성 단계

Light field 영상의 해상도 향상을 위해 딕셔너리 훈련과 복원을 위한 학습 패치의 집합을 생성해야 한다. 각각의 학습 패치는 훈련 단계 및 복원 단계에 사용될 고해상도 패치와 저해상도 패치의 쌍으로 구성된다. 학습 패치 생성단계에서는 우선 그림 2와 같이 실세계의 다양한 장면을 취득한 입력영상을 고해상도 light field 영상이라 정의하고 해당 입력영상을 바탕으로 공간영역과 각영역으로 모두 절반씩 해상도를 낮춘 저해상도 light field 영상을 생성한다. 본 논문의 목표는 4차원의 light field 영상의 공간 영역과 각영역 해상도를 모두 향상시키는 것이므로 패치는 공간영역의 정보와 각영역의 정보가 모두 포함된 4차원 구조로 생성한다. 그림 2에 도시한 바와 같이 4차원 패치는 고해상도 영상과 저해상도 영상에서 4차원의 고해상도 패치, 저해상도 패치의 쌍으로 생성하게 된다. 이 때 각각의 부조리개 영상에 대해 공간영역에서 동일한 위치에 존재하는 2차원 패치들 의 집합을 생성한다. 또한 향후 복원단계에서 수학적인 연산이 용이하도록 생성된 패치들은 열벡터 형태로 저장한다.

그림 2.4차원 학습 패치 생성의 흐름도 Fig 2. Overview of 4D training patch reconstruction

3. 딕셔너리 학습 단계

상용 light field 카메라로 취득한 실세계의 다양한 영상을 바탕으로 생성된 4차원 고해상도 패치와 저해상도 패치를 이용하여 두 패치간의 관련성을 정의 하고 이를 초해상도 복원 단계에 적용시키기 위하여 효율적인 딕셔너리의 구성 및 훈련 알고리즘이 필요하다. 이 때 실세계의 다양한 영상들에 대해 다양한 영상 좌표에서 패치를 생성하므로 매우 방대한 양의 패치가 존재하는데 이를 모두 이용하면 반복적인 패치와 의미 없는 패치 등으로 인하여 속도 및 메모리 사용량에 있어서 비효율적이다.

본 논문에서는 이러한 문제를 해결하기 위하여 딕셔너리의 구성 및 훈련 단계에서 K-평균 군집화(K-means clustering) 알고리즘을 이용하여 유사한 패치들을 한 군집으로 묶어 처리하도록 한다. K-평균 군집화 알고리즘은 군집할 데이터의 양이 작거나 데이터의 종류가 한정적이라면 좋은 결과를 기대하기 어려우므로 다양한 환경에서 취득된 다수의 영상으로 딕셔너리 구성 및 훈련을 수행한다.

딕셔너리 훈련 단계는 그림 3과 같이 구성된다. 실제 취득한 4차원 light field 영상(4D light field image)과 취득 영상에서 공간영역, 각영역으로 해상도를 낮춘 저해상도 light field 영상(LR light field image)에서 각각 4차원의 고해상도 패치(HR patch)와 저해상도 패치(LR patch)들을 추출하고 각각 열벡터로 표현한다. 이후 저해상도 패치들을 K-평균 군집화 알고리즘의 입력 벡터로 사용하고 반복적인 군집화 연산을 통하여 K개의 군집과 이에 해당하는 중심 벡터(cluster center)들을 찾는다. 또한 각 군집에 속해있는 li개의 저해상도 패치 벡터들로서 행렬 Li(∈m × li)를 구성하고, 마찬가지로 고해상도 패치 벡터들로서 행렬 Hi (∈n × li)를 구성한다. 여기서 는 군집의 색인을 의미하며 n과 m은 각각 고해상도 패치 벡터와 저해상도 패치 벡터의 차원을 의미한다. 마지막으로 저해상도 패치 행렬과 고해상도 패치 행렬의 선형 근사를 수식 (1)과 같이 최소 자승법으로 수행하여 회귀 계수(regression coefficient) 행렬 C∗i(∈n × m)를 구한다.

그림 3.딕셔너리 훈련 과정 Fig 3. Overview of the dictionary learning procedure

이후 군집의 중심 벡터와 해당 중심 군집 값의 회귀 계수를 함께 저장하여 딕셔너리(dictionary)를 구성한다. 복원 단계에서 중심 군집 벡터를 이용하여 저해상도 입력 패치와의 비교를 수행하며, 회귀 계수는 비교 후 고해상도 패치의 합성을 위해 이용된다.

4. 입력 Light Field 영상의 해상도 향상 단계

딕셔너리를 구성할 때 상용 light field 카메라로 취득한 입력영상에서 공간영역, 각영역으로 해상도를 절반씩 감소시키고 저해상도 패치를 생성하였다. 그러나 본 논문에서는 상용 light field 카메라로 취득한 영상의 해상도 향상을 목표로 하므로, 학습 단계에서 사용된 해상도와 복원 단계에서 사용하는 해상도가 상이한 문제가 발생한다. 본 논문에서는 Freedman과 Fattal의 연구[7] 및 Glasner 등의 연구[8] 등에서 가정하는 바와 같이, 한 영상에는 같은 특징이라도 다양한 스케일의 특징이 존재하고 특정 스케일에 대해 저해상도와 고해상도 패치를 학습하더라도 다른 스케일에 대해 이 학습이 여전히 유효한 경우가 많다는 추론에 근거하여 알고리즘을 설계하였다. Freedman과 Fattal의 연구[7], Glasner 등의 연구[8]에서는 입력영상에서 고해상도 패치를 설정하고 해상도를 축소시킨 저해상도 영상에서 저해상도 패치를 생성한다. 이를 다시 입력영상에 적용하여 각 패치에 대해 저해상도 패치 중 가장 적합한 패치를 찾아내고 이를 바탕으로 고해상도 패치로의 해상도 향상을 유도하는 과정을 반복적으로 적용하여 전체적인 영상의 해상도를 향상시킨다. 이와 같은 성질이 본 논문에서 다루는 문제에도 유사하게 적용할 수 있다. 따라서 비록 학습 단계에서는 복원 단계에서 사용할 영상의 해상도와 다른 해상도에서 학습을 수행하였으나 이를 직접 복원 단계에도 동일하게 사용하도록 하며, 실험결과 여전히 고해상도 영상이 잘 생성됨을 확인할 수 있다.

그림 4.딕셔너리의 해상도와 입력 light field 영상의 해상도 통일을 위한 입력 영상의 영역 분할 Fig 4. Region division of an input light field image to match the image resolution of the dictionary and the input image

4.1 입력 Light Field 영상의 분할

본 논문에서는 딕셔너리의 고해상도-저해상도 설정과 다른 해상도를 가진 저해상도 light field 영상을 입력 영상으로 이용하기 때문에 (즉, 입력 영상의 해상도가 딕셔너리의 고해상도와 같음), 딕셔너리의 학습 결과를 입력 영상의 해상도 향상에 이용하기 위하여 영상 분할을 통해 딕셔너리의 저해상도와 해상도를 통일하도록 한다. Light field 영상에 대해서는 4차원에 적합한 분할 과정이 필요하며 본 논문에서는 그림 4에 도시한 바와 같이 공간영역의 각 부조리개 영상에서 해상도를 각 방향으로 절반씩 분할하고 분할한 부조리개 영상의 조각을 각영역에서도 절반씩 분할하여 딕셔너리의 저해상도 영상의 크기와 일치하는 16개의 저해상도 영상으로 입력 영상을 분할한다. 이를 바탕으로 입력 저해상도 패치를 생성하고 다음 과정을 진행한다.

4.2분할 복원 단계

입력 영상의 분할과정을 통하여 딕셔너리의 저해상도 영상의 크기와 일치하는 저해상도 영상 16장을 만들었으므로 이제 학습된 딕셔너리를 이용하여 복원과정을 수행할 수 있다. 복원 단계에서는 분할된 각각의 입력 저해상도 영상에서 4차원 패치 벡터를 추출하고, 이를 기준으로 딕셔너리에 저장되어 있는 중심 군집 벡터들과의 비교를 통해 최소 거리를 가지는 중심 군집을 찾게 된다. 이때 그 군집의 색인을 j라고 하면, 식 (2)와 같이 중심 군집 벡터와 함께 저장 되어있는 회귀 계수인 C*j와 입력 저해상도 패치 벡터인 l의 곱셈 연산을 통하여 고해상도 패치인 h로 복원을 수행한다.

이를 기반으로 입력 저해상도 영상의 모든 패치들에 반복적으로 식 (2)를 적용하여 전체적인 영상의 해상도를 향상 시킨다.

4.3 분할된 Light Field 영상으로부터의 해상도 향상 결과의 병합

본 논문에서는 16장의 분할 영상을 각각 고해상도 영상으로 복원하고 이를 다시 분할과정의 역순으로 합성하여 최종적으로 공간영역과 각영역 모두에서 향상된 해상도를 가지는 고해상도 light field 영상을 생성한다. 이때, 일정 크기의 패치를 기반으로 하는 초해상도 알고리즘의 특성상 그림 5(a)와 같이 영상의 가장자리 부분에서 화소 값의 부재로 인하여 올바르지 못한 결과가 생성되게 된다. 2차원 영상을 기본으로 하는 초해상도 알고리즘들은 이러한 문제를 선형 보간 기법으로 처리하거나 가장자리 부분을 제거하는데, 본 논문에서는 분할 후 복원 과정을 수행하므로 영상의 가장자리 부분을 제거하는 알고리즘을 적용할 수 없다. 그러므로 4차원 영상에 적합하게 가장자리 부분을 보완하는 새로운 후처리 알고리즘이 필요하다. 단순한 선형 보간 기법은 공간 영역에서는 적용이 가능하지만 각 영역에서는 적용이 불가능하다.

그림 5.영상의 가장자리 부분에서의 해상도 향상 결과. (a) 제안하는 초해상도 알고리즘을 적용한 초기 결과, (b) EPI 영상에서 bicubic 보간 기법을 적용한 결과, (c) 제안하는 기법을 사용한 최종 결과 Fig 5. Results of resolution enhancement at the boundary region. (a) Initial results of the proposed algorithm, (b) Result of bicubic interpolation on EPI, (c) Final result of the proposed method

본 논문에서는 이를 해결하기 위하여 그림 6과 같이 입력 light field 영상을 u - x 면(plane)의 EPI (epipolar plane image)영상으로 변환 후 해당 EPI 영상에서 선형 보간 기법인 bicubic 보간 기법을 적용하여 u - x 면 EPI 영상의 해상도를 향상시킨다. 그 이후 EPI 영상을 다시 일반적인 light field 영상으로 변환한 후 u - x 면 EPI 영상의 해상도를 향상 시키는 동일한 방법으로 u - y 면의 EPI 영상의 해상도를 향상시키고 일반적인 light field 영상으로 복원하여 그림 5(b)와 같이 선형 보간 기법을 4차원 light field 영상에 적합하도록 적용하고 공간영역 및 각영역으로 해상도를 향상시킨다. 본 논문에서는 이렇게 선형 보간 기법을 이용하여 생성한 고해상도 light field 영상을 그림 5(c)와 같이 초해상도 알고리즘을 이용하여 생성한 고해상도 영상의 가장자리 부분을 보완하여 주는 후처리 알고리즘을 사용한다. 그리고 분할 영상들에서 이러한 후처리 알고리즘을 적용 후 분할과정의 역으로 합성하여 완성된 고해상도의 4차원 light field 영상을 얻을 수 있다.

그림 6.영상의 가장자리 처리를 위한 후처리 알고리즘. Light field 영상을 EPI 영상으로 변환 후 bicubic 보간 기법을 적용한다 Fig 6. Postprocessing algorithm to handle the image boundary. Bicubic interploation is applied after converting the light field image to EPI image

 

Ⅲ. 실험 결과

본 논문의 실험은 Intel i7-3770K 3.5GHz CPU와 16G RAM을 장착한 컴퓨터에서 수행하였고, 실험 영상은 마이크로 렌즈배열 기반 상용 light field 카메라인 Lytro에서 취득하였다. 해상도를 향상하기 위한 입력 영상 및 딕셔너리의 고해상도 영상으로 사용하는 4차원 light field 영상의 해상도는 360×360×8×8 이다. 또한 입력 영상의 해상도를 절반으로 줄인 저해상도 영상의 해상도는 180×180×4×4 이다. 이는 딕셔너리의 저해상도 영상 및 입력 영상에서 분할 단계를 거친 후 초해상도 알고리즘을 적용할 때의 영상의 해상도이다.

최종 결과 영상은 입력영상의 공간영역 및 각영역으로 해상도가 두 배씩 향상된 720×720×16×16 이다. 또한 4차원 light field 영상에서 추출하는 고해상도, 저해상도 패치의 크기는 각각 8×8×8×8, 4×4×4×4 이며, 이들은 각각 4096×1, 256×1의 열벡터 형태로 표현된다. 또한 본 논문의 실험에서는 그림 7에 보인 바와 같이 다양한 환경에서 촬영한 40장의 4차원 light field 영상에서 200,000개의 패치를 무작위로 선정하여 딕셔너리 학습을 수행한다. K-평균 군집 알고리즘에 적용하는 K의 값은 결과 영상의 완성도와 수행시간에 영향을 주게 되는데, 본 실험에서는 K의 값을 512로 정한다.

그림 7.Lytro를 사용하여 취득한 학습 영상 Fig 7. Training dataset captured by Lytro camera

이미 기술한 바와 같이, 공간영역에서의 해상도 향상만을 수행하는 일반적인 해상도 향상 알고리즘들과 달리 제안하는 알고리즘은 공간영역의 해상도 향상뿐만 아니라 각영역 해상도의 향상을 수행한다. 각영역 방향으로의 해상도 향상이 없는 기존의 2차원 영상에 대한 해상도 향상 알고리즘들과의 비교는 불가하다. 그리고 본 논문이 제안하는 실험방법을 통하여 각 영역 방향으로 해상도가 향상된 결과를 도출하는 것이 가능하지만 실세계 영상을 바탕으로 처리를 하는 기존 알고리즘들을 EPI 영상에서 실험하는 것에서 역시 문제가 발생한다. 그러므로 기존의 2차원 영상에 대한 해상도 향상 알고리즘들과의 직접적인 비교는 불가능하다. 또한 상용 카메라인 Lytro를 이용하여 입력영상을 취득하므로 정량적인 평가의 기준이 되는 참값이 존재하지 않는다. 따라서 알고리즘의 정량적 평가는 Lytro로 취득한 입력영상(360×360×8×8)을 참값으로 설정하고 공간영역과 각영역 방향으로 해상도를 낮춘 영상(180×180×4×4)을 입력 영상으로 하여 공간영역에서만 기존 해상도 향상 알고리즘과의 비교를 수행한다. 한편, 정성적인 평가는 Lytro로 취득한 영상(360×360×8×8)을 입력영상으로 해상도를 향상시킨 결과 영상(720×720×16×16)을 기존 해상도 향상 알고리즘과 공간영역에서 비교하며 각영역의 해상도에 적절한 값이 생성되어 있는지 검증하는 방식으로 성능 평가를 수행한다. 그림 8에서는 제안하는 기법이 기존의 bicubic 보간 기법에 비해 보다 선명한 고해상도 영상을 생성하고 있음을 확인할 수 있다. 또한 표 1은 그림 8에서 제시한 실험 결과에 대해 PSNR(peak signal to noise ratio)와 SSIM(structural similarity)를 측정한 결과이며, bicubic 보간 기법에 비해 제안하는 알고리즘이 PSNR 기준으로 최대 2dB정도 향상되며 SSIM 기준으로는 최대 0.4 정도 더 향상된 결과를 생성해 내는 것을 확인 할 수 있다.

그림 8.공간영역에서의 상세한 결과 비교 Fig 8. Qualitative comparison in the spatial domain

표 1.공간영역에서의 해상도 향상 결과 Table 1. Quantitative comparison in the spatial domain

제안하는 알고리즘의 정성적인 평가를 위하여, 취득한 light field 영상(360×360×8×8)을 입력 영상으로 하여 기존 해상도 향상 기법 중 선형 보간 기법인 bicubic 보간 기법과 단일 영상 기반 초해상도 알고리즘인 Freeman 등의 연구[4]에서 제안된 기법과 공간영역에서 정성적 비교를 수행한다. 그림 9에서 보인 바와 같이 bicubic 보간 기법과 Freeman 등의 연구[4]에 비해 모서리, 텍스처, 문자 영역 등에서 제안하는 알고리즘이 더 선명한 결과를 생성하는 것을 확인할 수 있다. 기존 해상도 향상 기법에서 수행할 수 없는 각영역 방향으로의 해상도 향상은 그림 10에서 정성적으로 평가하였다. 실제 취득한 영상들에서 제안하는 알고리즘 적용 후 복원된 각영역의 여러 위치((1,2), (3,12), (10,10), (14,6), (16,16))에서 부조리개 영상이 올바르게 생성된 것을 확인 할 수 있다.

그림 10.각영역의 여러 위치에서의 해상도 향상 결과 Fig 10. Results of superresolution at various locations in the angular domain

 

Ⅳ. 결 론

본 논문에서는 상용 4차원 light field 카메라의 제한사항인 낮은 해상도를 보완하기 위하여 4차원 light field 영상에 적합한 초해상도 알고리즘을 제안하였다. 제안하는 알고리즘은 단일 딕셔너리를 사용하여 공간영역, 각영역의 해상도를 동시에 향상시키며, 기존 2차원 영상에 비해 많은 정보를 가지는 4차원 light field 영상의 해상도 향상을 효과적으로 처리하였다. 제안하는 알고리즘의 단계는 4차원 패치 생성 단계, 딕셔너리 훈련 단계, 입력 영상 복원단계로 구성되며, 각 단계를 거쳐 최종적으로 공간영역과 각영역에서 모두 해상도가 향상된 결과를 생성하였다. 또한 향상된 해상도를 가진 4차원 light field 결과 영상을 바탕으로 기존 알고리즘들과 정량적 및 정성적인 비교를 통하여 제안하는 알고리즘의 우수성을 평가 및 검증하였다.

References

  1. Lytro, https://www.lytro.com/
  2. Raytrix, https://www.raytrix.de/
  3. S. Farsiu, M. D. Robinson, M. Elad, and P. Milanfar, "Fast and robust multiframe super resolution," IEEE Trans. on Image Processing, vol. 13, no. 10, pp. 1327-1344, October 2004. https://doi.org/10.1109/TIP.2004.834669
  4. W. T. Freeman, T. R. Jones, and E. C. Pasztor, "Example-based superresolution," IEEE Computer Graphics and Applications, vol. 22, no. 2, pp. 56-65, March 2002. https://doi.org/10.1109/38.988747
  5. C.-Y. Yang and M.-H. Yang, "Fast direct super-resolution by simple functions," Proc. IEEE International Conference on Computer Vision, pp. 561-568, December 2013.
  6. D. G. Dansereau, O. Pizarro, and S. B. Williams, "Decoding, calibration and rectification for lenselet-based plenoptic cameras," Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp. 1027-1034, June 2013.
  7. G. Freedman and R. Fattal, "Image and video upscaling from local self-examples," ACM Trans.on Graphics, vol. 30, no. 12, pp. 1-12, April 2011. https://doi.org/10.1145/1944846.1944852
  8. D. Glasner, S. Bagon, and M. Irani, "Super-resolution from a single image," Proc. IEEE International Conference on Computational Photography, pp. 349-356, September 2009.
  9. T. E. Bishop and P. Favaro, "The light field camera: Extended depth of field, aliasing, and superresolution," IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 34, no. 5, pp. 972-986, May 2012. https://doi.org/10.1109/TPAMI.2011.168
  10. T. E. Bishop, S. Zanetti, and P. Favaro, "Light field superresolution," Proc. IEEE International Conference on Computational Photography, pp.1-9, April 2009.
  11. V. Boominathan, K. Mitra, and A. Veeraraghavan, "Improving resolution and depth-of-field of light field cameras using a hybrid imaging system," Proc. IEEE International Conference on Computational Photography, pp.1-10, May 2014.
  12. D. Cho, M. Lee, S. Kim, and Y.-W. Tai, "Modeling the calibration pipeline of the Lytro camera for high quality light-field image reconstruction," Proc. IEEE International Conference on Computer Vision, pp.3280-3287, December 2013.
  13. W. T. Freeman, E. C. Pasztor, and O. T. Carmichael, "Learning low-level vision," International Journal of Computer Vision, vol. 40, no. 1, pp. 25-47, October 2000. https://doi.org/10.1023/A:1026501619075
  14. S. J. Gortler, R. Grzeszczuk, R. Szeliski, and M. F. Cohen, "The lumigraph," Proc. SIGGRAPH '96, pp. 43-54, August 1996.
  15. X. Huang, O. Cossairt, "Dictionary Learning Based Color Demosaicing for Plenoptic Cameras," Proc. IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 455-460, June 2014.
  16. M. Levoy and P. Hanrahan, "Light field rendering," Proc. SIGGRAPH '96, pp. 31-42, August 1996.
  17. Z. Li, Image patch modeling in a light field, EECS Department, University of California, Berkeley, Doctorate thesis, May 2014.
  18. K. Mitra and A. Veeraraghavan, "Light field denoising, light field superresolution and stereo camera based refocussing using a GMM light field patch prior," Proc. IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp.22-28, June 2012.
  19. S. Wanner and B. Goldluecke, "Spatial and angular variational superresolution of 4d light fields," Proc. European Conference on Computer Vision, vol. 7576, pp. 608-621, October 2012.
  20. C.-Y. Yang, C. Ma, and M.-H. Yang, "Single-image super-resolution: A benchmark," Proc. European Conference on Computer Vision, vol. 8692, pp. 372-386, September 2014.