DOI QR코드

DOI QR Code

Extraction of an Effective Saliency Map for Stereoscopic Images using Texture Information and Color Contrast

색상 대비와 텍스처 정보를 이용한 효과적인 스테레오 영상 중요도 맵 추출

  • Received : 2015.05.05
  • Accepted : 2015.07.27
  • Published : 2015.09.30

Abstract

In this paper, we propose a method that constructs a saliency map in which important regions are accurately specified and the colors of the regions are less influenced by the similar surrounding colors. Our method utilizes LBP(Local Binary Pattern) histogram information to compare and analyze texture information of surrounding regions in order to reduce the effect of color information. We extract the saliency of stereoscopic images by integrating a 2D saliency map with depth information of stereoscopic images. We then measure the distance between two different sizes of the LBP histograms that are generated from pixels. The distance we measure is texture difference between the surrounding regions. We then assign a saliency value according to the distance in LBP histogram. To evaluate our experimental results, we measure the F-measure compared to ground-truth by thresholding a saliency map at 0.8. The average F-Measure is 0.65 and our experimental results show improved performance in comparison with existing other saliency map extraction methods.

Keywords

1. 서 론

최근 스테레오 영상(Stereo image)을 촬영할 수 있는 카메라가 발전하고, 3D TV, 스마트폰, HMD등과 같은 3D 디스플레이(Display)의 보급이 가속화되면서 다양한 3D 콘텐츠들이 사람들의 실생활 깊숙이 자리잡게 되었다. 이에 따라 기존의 2D 영상처리기술과 비슷하게 스테레오 영상을 처리할 수 있는 기술의 필요성이 증가하고 있다. 스테레오 영상은 왼쪽, 오른쪽 한쌍의 영상으로 구성되며 양안시차를 통해 입체감을 느끼는 인간의 시각체계를 모방하여 두대 이상의 카메라를 사용해 3차원 정보를 획득하고 이를 표현한 영상을 일컫는다.[1] 스테레오 영상은 2D 영상과 비교해 더욱 많은 정보를 포함하고 있지만, 시청자에게 자연스럽고 편안한 양질의 스테레오 영상을 제공하기 위해 고려되어야 할 여러가지 제약조건 또한 존재한다. 이러한 제약조건을 고려하지 않은 채 기존의 2D 영상처리 기술을 확장하여 스테레오 영상에 적용시키는 경우 정확도가 낮고 스테레오 영상에 부적절한 결과를 도출한다. 따라서 2D 영상처리 기술을 스테레오 영상으로의 기술로 확장할 때는 스테레오 영상의 제약조건을 고려하면서 동시에 추가된 정보를 활용하는 방법이 필요하다.

그동안 2D 영상에서는 시청자에게 무의식적으로 중요하게 인식되고, 다른 부분과 비교하여 특출하게 시선을 끄는 영역을 검출하기 위한 중요도 맵 추출 연구들이 활발히 진행되어 왔다. 이러한 중요도 맵은 영상 압축, 영상 리타게팅(Retargeting), 객체 추출 및 인식 등 많은 영상처리 영역에서 활용되고 있다. 최근에는 다양한 스테레오 장비와 콘텐츠가 개발되고 발전함에 따라 스테레오 영상에서의 중요도 맵 또한 스테레오 영상 캡쳐, 2D에서 3D로의 변환, 깊이 정보 변환, 그리고 로봇 연구 등 다양한 분야에서 필요성이 대두되고 있다. 하지만 스테레오 영상에 대한 중요도 맵 연구는 기존의 많은 2D 영상 중요도 맵 연구에 비해 역사가 짧고 연구 발표 사례가 적다. 현재까지 대부분의 스테레오 영상 중요도 맵 알고리즘들이 2D 영상의 시각적 요인에 더해 깊이 정보와 같은 3D 인식 요인들을 활용하여 중요 영역을 검출하고 있다. 특히 깊이 정보를 활용함으로써 스테레오 영상과 2D 영상의 돌출도 차이에 따른 중요도 변화를 포착하고 적용하는 경우가 많다.[2] 하지만 이 경우에도 여전히 2D 영상의 시각적 요인은 중대하게 작용하는데, 중요도 맵에서 활용하는 요인에 따라 추출 결과에 큰 영향을 미친다.

2D 영상의 시각적 요인 중 많은 중요도 맵 알고리즘들이 주요 요인으로 활용하는 것이 영상의 색상 대비이다.[3] 색상 대비가 뚜렷한 영상의 경우 이를 활용한 방법은 매우 효과적인 결과를 보이지만 현실적으로 색상 대비가 뚜렷하지 않은 영상에서는 그 효과가 적고 오히려 정확도를 낮추는 원인이 된다. 따라서 본 논문에서는 어느 영상에서나 효과적으로 적용될 수 있도록 스테레오 영상의 전역적 색상 대비와 깊이 정보, 지역적 텍스처(Texture) 정보를 이용한 스테레오 영상 중요도 맵 추출 알고리즘을 제안한다. 먼저 왼쪽 영상 전체에 대해 색상 빈도수를 조사한다. 빈도수가 적은 색상은 빈도수가 많으면서 색상값의 차이가 적은 다른 색상과 병합시킨 뒤 남은 색상들 간의 대비를 계산하여 색상 대비에 비례하게 중요도를 할당한다. 다음으로 왼쪽 영상과 오른쪽 영상의 픽셀 차이를 통해 계산한 깊이 정보와 결합하여 스테레오 영상에 적용할 수 있도록 확장한다. 하지만 영상의 색상 정보만 이용하여 중요도를 추출한다면 객체와 주변 영역 간에 흡사한 색상을 나타내고 있는 경우 인간의 눈에는 확연한 차이가 인식되는 반면 색상 대비는 작기 때문에 객체가 갖는 중요도는 주변영역과 유사하게 할당된다. 이를 보완하기 위해 본 논문에서는 추가적으로 LBP(Local Binary Pattern) 특징 분석을 통한 텍스처 정보를 활용하여 더욱 정확도 높은 중요도 맵을 추출한다.

본 논문의 구성은 다음과 같다. 2장에서는 관련연구 조사를 통한 기존의 중요도 맵과 관련 정보 분석, 3장은 왼쪽 영상에 대한 색상 대비, 텍스처 정보, 스테레오 영상의 깊이 정보를 이용한 중요도 맵 추출에 대해 기술한다. 이어서 4장에서는 본 논문의 중요도 맵 결과 영상과 그에 대한 기존의 다른 중요도 맵알고리즘과의 비교와 정량적 평가를 진행하고, 5장은 맺음말과 이후 연구 방향에 대하여 기술한다.

 

2. 관련 연구

중요도 맵 추출은 영상 내에서 색상, 색상 변화, 윤곽선 등이 시각적으로 희소성을 갖거나 도드라져 특별히 시청자의 시선을 끄는 영역을 탐색하기 위한 방법이다. 일반적으로 중요도 맵을 추출하는 과정은 크게 상향식 접근 방법, 하향식 접근 방법 두 가지로 구분할 수 있다. 상향식 접근 방법은 영상의 픽셀 정보나 특징, 방향 등을 이용하여 중요도 맵을 추출하는 방법으로, 이는 세기, 방향, 색상 정보 등 입력 영상의 기본적인 정보에 기반하여 관심 영역을 결정하는[4] 인간의 시각체계를 모방한 것이다. 또한 하향식 접근 방법의 경우 객체 검출, 기하학적 구조 분석등 주관적이고 복잡한 구조의 형태를 포함[5]하고 있기 때문에 일정한 규칙을 만들고 알고리즘을 규정하기에 어려움이 따른다. 기존의 많은 중요도 맵 알고리즘 연구에서 다양한 방식의 상향식 접근 방법을 채택하여 사용하였다. Goferman의 알고리즘[6]에서는 영상의 색상과, 색상 대비를 이용하는데, 서로 다른 크기의 윈도우를 반복적으로 사용해 주변 영역과 의 색상 대비를 계산하여 영상 전반에 대해 빈번하게 검출되는 요소를 억제함으로써 독특하게 인식되는 영역에 중요도가 높게 할당되도록 하였다. Li의 알고리즘[7]에서는 푸리에 변환을 통해 영상을 주파수 공간으로 변환했을 때 배경 영역은 비슷한 형태의 로그스펙트럼이 반복되는 반면 객체에 해당하는 영역의 로그 스펙트럼은 주변에 비해 뚜렷하게 돌출되고 반복되지 않는다는 특징을 발견하고, 필터를 통해 반복되는 로그 스펙트럼(Log-spectrum)을 억제시킴으로써 배경 영역의 중요도를 낮추는 방법을 제안하였다. 이외에도 생물학적 이론을 기반으로 한 필터를 통해 특징을 추출하고 특징 벡터 기반의 활성도 맵(Activation Map)을 구성하여 중요도를 계산하는 방법[8] 등 현재까지도 다양한 요인과 방법을 통한 알고리즘들이 제안되고 있다.

3D 콘텐츠에서 스테레오 영상의 중요도 맵 필요성이 증가하였지만 위와 같은 2D 중요도 맵 알고리즘을 스테레오 영상에 적용할 경우 객체의 돌출 정보와 3D 시청 환경에서의 배치 등 3D 요소가 고려되지 않아 실제 시청자가 받아들이는 시각적 중요도와 차이가 발생한다.[9] 따라서 스테레오 영상의 중요도 맵을 추출하기 위해서는 기존 2D 영상의 중요도 맵 알고리즘과 함께 깊이 정보를 얻을 수 있는 돌출도 맵을 고려해야 한다. 돌출도 맵의 추출은 왼쪽과 오른쪽 영상 간의 매칭 비용을 계산하여 승자 독점 방식(winner-take-all)으로 가장 적은 매칭 비용을 갖는 픽셀을 선택하는 지역적 접근 방법[10], 영상 전체에 대한 에너지 최소화 방식을 이용하는 전역적 접근 방법[11], 두 영상의 대응되는 탐색선 사이의 매칭 비용을 포함한 행렬 계산을 통해 각 탐색선 별로 전역적 최소값을 찾을 수 있는 동적 계획법(Dynamic Programming) 활용 방법[12], 지역적인 계산 방법을 사용하지만 비선형 연산을 함으로써 전체적으로 전역적 방법과 비슷한 결과를 도출하도록 하는 협동 알고리즘(Cooperative algorithm) 방법[13] 등 다양한 알고리즘들이 연구되고 있다. 본 논문에서는 중요도 맵 추출 시 객체 영역의 윤곽선을 최대한 유지하면서 정확한 깊이 정보를 얻기 위해 [14] 알고리즘을 사용하였다.

색상 정보를 사용한 2D 중요도 맵과 돌출도 맵을 결합하여 스테레오 영상의 중요도 맵을 추출해 내는 알고리즘은 이전에도 자주 사용되던 방법이다.[2] 하지만 영상의 색상 정보와 깊이 정보만 활용한다면 객체와 주변 배경 영역과의 색상 대비가 크지 않은 경우 중요도 역시 객체와 배경 사이에 큰 차이가 없어 객체와 배경의 정확한 경계를 구분하지 못한다. 뿐만 아니라 오히려 전혀 시청자의 관심을 끌지 않는 엉뚱한 영역의 중요도가 높게 할당되는 등 중요도 맵의 의미를 상실하게 된다. 반면 인간 시각체계는 색상이 비슷하더라도 객체와 배경의 텍스처 정보를 구분함에 따라 분명하게 객체를 인식할 수 있다.[15] 이를 고려하여 본 논문에서는 영상의 텍스처 정보를 활용하기 위해 LBP 특징[16]을 사용한다. LBP는 영상의 텍스처를 효과적으로 나타낼 수 있는 특징 중 하나로써 흑백 영상, 회전된 영상에 강건하고, 빠른 처리 속도, 적은 파라미터, 충분한 특징 구별 성능등 많은 강점을 갖고 있어 얼굴 인식, 텍스처 영상분류 등 여러 분야에서 활용되고 있다.

 

3. 제안하는 중요도 맵 추출 기법

본 장에서는 2D 영상의 색상 대비를 이용한 중요도 맵 추출, 스테레오 영상의 깊이 정보 반영을 위한 가변 윈도우(Adaptive support window) 기반의 돌출도 맵 추출, 영상의 텍스처 정보를 분석하기 위한 LBP 특징 추출과 이를 통한 영역별 비교 방법, 마지막으로 추출된 정보들의 결합을 통해 최종적인 스테레오 영상 중요도 맵을 도출하는 방법에 대해 기술한다.

3.1 색상 빈도수를 이용한 전역적 색상 대비 기반의 2D 중요도 맵

인간의 시각체계는 시각적 자극을 받아들임에 있어서 색상 대비에 굉장히 민감한 것으로 알려져 있다[17]. 본 논문에서는 이같은 요인을 적용하기 위해 통계적 방법에 따른 전역적 색상 대비 기반 중요도 맵[3]을 활용한다. 영상 내 모든 픽셀의 중요도는 색상 대비에 의해 정해진다. 즉, 영상 l의 각 픽셀 lt의 중요도는 아래와 같이 정의된다.

여기서 lt는 현재 픽셀, lr은 현재 픽셀을 제외한 영상 내 다른 픽셀을 의미한다. D(lt, lt)는 Lab 색상공간에서 계산한 픽셀 lt와 lr의 색상 거리를 나타낸다. 식 (1)은 하나의 픽셀에 대해 영상의 모든 픽셀과 색상 대비를 계산하기 때문에 같은 색상 ci를 가진 픽셀 lt들은 모두 같은 중요도를 할당받게 된다. 식 (1)을 픽셀이 아닌 색상 ci에 따른 중요도로 변환하면 아래와 같이 나타낼 수 있다.

ci는 픽셀 li의 색상 값을, n은 영상 내에서 뚜렷이 구분되는 색상의 개수를 나타내고, fi는 영상 내에서 픽셀 색상 ci의 발생 확률을 의미한다.

식 (2)를 통해 각 색상들의 대비를 계산할 경우 영상에 포함된 색상의 수에 비례하게 계산량이 증가한다. 계산량을 줄이기 위해 색상 채널 별로 12개의 값을 갖도록 색상을 양자화하고 수가 적은 색상을 다른 색상으로 병합시킨다. 이를 통해 중요도 맵을 추출하기 위한 계산량을 현저하게 줄일 수 있지만 인위적인 양자화와 색상 대체의 무작위성은 중요도 맵 결과에 잡음을 발생시킨다. 이러한 잡음을 제거하고 각 색상의 중요도 값을 개선하기 위해 스무스(Smooth) 과정을 수행한다. 각 색상의 중요도 값을 비슷한 색상들 간의 가중평균 값으로 대체함으로써 실제로 컬러 공간에서 스무스 효과를 보이도록 한다. 본 논문에서는 잡음을 개선하기 위해 평균을 계산할 색상의 개수로 전체 색상의 1/4개()를 사용한다. 각 색상 에 대해 개선된 중요도 값은 아래와 같이 나타낼 수 있다.

이 때, T는 색상 c와 c의 가장 비슷한 값을 가진 m개의 색상들의 거리 합을 의미하며 로 표현할 수 있다. T-D(c, ci)를 통한 스무스 가중치를 사용하는데, 이는 색상 c에 가까우면 가까울수록 더욱 큰 가중치를 할당하게 한다. Fig. 1은 Lab 색상공간에서 계산한 색상 대비에 대해 스무스 과정을 수행하기 전의 색상 별 중요도 값과 스무스 과정 수행 후의 색상별 값을 비교한 것이다. 스무스 과정을 수행한 후에는 가까운 색상 간에 비슷한 중요도 값이 할당되면서 양자화와 색상 병합에 따른 잡음 또한 줄어든 것을 알 수 있다.

Fig. 1.Result of color contrast based 2D saliency map. (a) Original left image, (b) 2D Saliency map before smooth procedure. (c) 2D Saliency map after smooth procedure.

3.2 깊이 정보 반영을 위한 뎁스 맵 추출

색상 대비를 이용해 구한 2D 중요도 맵을 깊이 정보를 스테레오 영상으로 확장하기 위해 가변 윈도우 기반의 돌출도 맵 추출 알고리즘을 활용한다. 가변 윈도우 알고리즘[14]은 돌출도 맵을 추출하기 위해 총 세가지 단계를 수행하는데, 첫 번째로 가변 윈도우 내에서 색상 유사도와 기하학적 근접도를 이용하여 픽셀들의 가중치를 계산한다. 두 번째로 가중치를 기반으로 유사성을 계산하고, 마지막으로 계산된 유사성을 통해 각 픽셀의 돌출 값을 결정한다. 가변 윈도우 알고리즘은 가변 윈도우의 내용을 기반으로 계산한 가중치를 이용하기 때문에 초기 디스패리티(Disparity) 추정치에 크게 의존하지 않는다. 또한 결과영상 Fig. 2와 같이 균일한 영역뿐만 아니라 윤곽선 부분까지 비교적 정확한 결과를 얻을 수 있기 때문에 스테레오 영상의 중요도 맵 추출을 위한 깊이 정보를 획득하는 데 적합하다.

Fig. 2.Example of Depth map. (a) Original left image, (b) Ground truth, (c) Result of Adaptive Support-Weight Approach, (d) Bad pixel.

3.3 LBP 특징을 사용한 텍스처 정보 추출

LBP는 영상의 텍스처 정보를 픽셀 단위로 부호화하기 위해 사용하는 방법으로 Ojala [16]에 의해 처음 제안되었다. 영상의 모든 픽셀들은 Fig. 3과 같이 각 픽셀 l0,0을 중심으로 r 거리에 있는 주변 p개의 lr,n픽셀과 중심 픽셀의 흑백 색상 값 비교를 통해 이진코드로 부호화된다. 이진 코드로 나타나는 이진 패턴은 각 픽셀들과 그 주변 픽셀 사이의 관계를 나타낸다. 주변 픽셀의 흑백 색상 값이 가운데 픽셀의 값보다 크거나 같다면 1을, 가운데 픽셀의 값보다 작다면 0을 부여한다. 이 후, p개의 1 또는 0을 순서대로 연결시키고 10진수로 변환하여 각 픽셀의 텍스처 정보를 의미하는 값을 생성한다.

Fig. 3.Central pixel l0,0 and its p number of neighbor pixels on radius r.

중심 픽셀 (0,0)에 대해 주변 픽셀의 위치는 으로 구할 수 있다. 위치 계산값이 픽셀의 위치에 정확히 일치하지 않는다면 주변 픽셀과의 양방향 보간을 통해 흑백 색상 값을 유추하여 사용한다. 본 논문에서는 지역적으로 주변 영역과 의 텍스처 차이를 계산하여 픽셀의 중요도 가중치로 적용한다. Fig. 4(a)와 같이 각 픽셀의 위치 l=(xc, yc)에서 목표 윈도우 rt(l)과 참조 윈도우 rr(l)을 설정한 뒤 윈도우에 포함된 모든 픽셀에 대해 식 (4)를 통해 LBP 값을 계산한다. 이어서 계산 된 LBP 값을 이용해 Fig. 4(b), (c)의 형태로 히스토그램(Histogram)을 구성한다. 목표 윈도우와 참조 윈도우의 크기는 각각 7×7, 31×31로 설정하여 수행한다.

Fig. 4.LBP histogram of each window. (a) Target window(red, solid) and reference window(blue, dash), (b) LBP histogram of target window, (c) LBP histogram of reference window.

여기서 LBPp,r(i,j)는 각 윈도우 내의 픽셀 위치 (i,j)에서 LBP 값을, k는 0≤k≤K-1, K=2p로 픽셀의 LBP값이 존재하는 범위 내의 수를 나타내고, δ(·)는 Dirac delta 함수를 나타낸다. 각 윈도우의 히스토그램 hrt, hrr을 계산한 뒤 두 히스토그램의 거리 계산을 통해 윈도우 중심 픽셀 l=(xc, yc)의 중요도 가중치 wLBP를 할당한다. 각 픽셀의 LBP 중요도 가중치 wLBP를 위한 히스토그램 거리 계산은 카이 제곱 거리(Chi-Square distance)와 해밍 거리(Hamming distance)를 혼합하여 사용한다.

카이 제곱 거리

해밍 거리

식 (6)의 hi, hj는 목표 윈도우와 참조 윈도우의 히스토그램을 의미하고, h(k)는 각 히스토그램의 빈(Bin)의 값을, k는 히스토그램 빈의 수를 나타낸다. 식 (7)의 x, y는 비교할 두 LBP 값을 의미하고, k는 이진코드의 길이, cx, cy는 LBP 값의 이진코드 각 자리의 수, 즉 1 또는 0을 나타낸다. LBP를 이용하는 많은 논문들이 카이 제곱 거리를 통해 LBP 히스토그램 간의 거리를 계산하였다[18-20]. 하지만 본 논문의 윈도우를 이용한 지역적 LBP 비교에서는 한번에 조사하는 픽셀의 수가 적기 때문에 히스토그램 값의 밀도가 낮아 비교값의 정확도가 낮다. 이를 해결하기 위해 각 히스토그램 빈의 값을 큰 순서대로 정렬하여 상위 개의 히스토그램 빈만을 카이 제곱 거리 계산에 사용한다. 하지만 빈도수 순서로 히스토그램 빈을 변경한 뒤 서로 대응되지 않는 빈과 비교하기 때문에 정확한 거리 계산이 되지 않는다. 따라서 추가적으로 빈도수 순서로 대응되는 히스토그램 빈 LBP 값 사이의 해밍 거리를 계산하여 대응되지 않는 히스토그램빈의 LBP 값을 고려하도록 한다. 또한 두 윈도우의 크기가 서로 달라 직접적인 비교가 불가능하기 때문에 목적 윈도우의 히스토그램 값들의 수를 참조 윈도우 히스토그램 값들의 수와 같아지도록 정규화하여 거리 계산을 수행한다.

여기서 N은 거리 계산에 활용되는 히스토그램 빈의 수로서 빈도수가 많은 순서로 정렬한다. h(N)LBP는 각 윈도우의 히스토그램 빈의 LBP 값을 나타낸다. 카이 제곱 거리와 해밍 거리의 결합을 통해 적은 표본의 LBP 특징만을 사용하더라도 효율적으로 두 히스토그램의 거리를 계산할 수 있다.

Fig. 5는 목표 윈도우와 참조 윈도우의 LBP 히스토그램 거리 계산을 통해 추출한 LBP 가중치를 나타낸 영상이다. 제안하는 알고리즘에서 텍스처 정보는 일정한 크기의 윈도우를 활용한 지역적 방법을 사용하기 때문에 객체의 중심 부분은 가중치가 크게 나타나지 않고, 텍스처 변화가 큰 윤곽 부분에서 높은 가중치를 나타낸다. 따라서 실제로 각 픽셀에 중요도를 할당할 시 LBP 가중치가 높은 픽셀뿐만 아니라 주변영역의 픽셀까지 거리를 고려하여 가중치가 적용되도록 한다.

Fig. 5.Result of LBP weight using LBP histogram distance. (a) Original left image, (b) LBP weight.

3.4 색상 대비와 텍스처 정보 기반의 스테레오 영상중요도 맵 추출

앞서 계산한 색상 대비 기반의 2D 중요도 맵, 뎁스 맵의 깊이 정보, LBP 특징을 이용한 텍스처 정보를 결합하여 최종적인 스테레오 영상 중요도 맵을 추출한다. 먼저 2D 중요도 맵에 깊이 정보를 반영한다. 일반적으로 시청자가 3D 영상을 볼 때 디스플레이에서 많이 돌출된 영역일수록 그렇지 않은 영역에 비해 시선을 더 오래 머무르고, 관심을 집중시킨다[21]. 하지만 기존의 색상 대비를 기반으로 하는 2D 중요도 맵의 경우 영상 내의 같은 색상을 갖는 픽셀들은 모두 같은 중요도 값을 할당받도록 했다. 높은 중요도값을 갖는 색상들의 돌출도 또한 크다면 이상적인 결과를 보일 수 있지만 많은 경우 돌출도가 낮은 영역의 색상도 높은 중요도 값을 할당받게 된다. 따라서 영상 내의 색상 대비와 함께 각 색상별 픽셀의 위치에 따른 돌출도를 고려하여 돌출도가 높은 영역에 있는 색상들은 보다 높은 중요도 값을 갖도록 한다.

다음으로 각 픽셀마다 부여된 LBP 가중치를 고려하여 높은 LBP 가중치를 갖는 픽셀 주위 영역의 중요도 값을 높은 LBP 가중치를 갖는 픽셀과의 거리에 따라 증가시키고, 반대로 높은 LBP 가중치를 갖는 픽셀과 거리가 먼 영역은 중요도 값을 억제시킨다.

는 LBP 가중치를 적용하기 전 각 픽셀의 중요도 값을 나타내고, wLBP′는 LBP 가중치를 [0,1]로 정규화 했을 때 0.8 이상의 값을 갖는 가장 가까운 픽셀을 나타낸다. 그리고 D(·)는 두 픽셀 사이의 유클리디안 거리(Euclidean distance)를 의미한다. 즉, 영상의 각 픽셀과 가장 가까운 0.8 이상의 LBP 가중치를 갖는 픽셀 사이의 거리에 반비례하게 중요도 값이 적용되도록 한다.

Fig. 6는 본 논문에서 제안한 중요도 맵 추출 방법의 전체 알고리즘의 순서도를 나타낸다. 제안한 방법의 처리 과정을 순서대로 정리하면 다음과 같다.

Fig. 6.Overall flowchart of the proposed method.

Fig. 7은 본 논문에서 제안한 방법을 통해 도출한 결과 영상으로 전경과 배경의 차이를 확연하게 구분하고, 중요 객체의 윤곽선을 온전하게 보존하고 있는 것을 볼 수 있다.

Fig. 7.Result of proposed method. (a) Original left image, (b) Combined saliency map.

 

4. 실험 결과

본 논문에서 제안하는 알고리즘을 평가하기 위해서 Yuzhen Niu [23]에서 제공하는 스테레오 영상 중요도 데이터셋(Dataset)에 대한 중요도 맵 추출 결과를 기존의 다른 알고리즘의 결과와 비교하였다. 해당 데이터셋은 약 800장의 다양한 종류의 스테레오 영상과 함께 그와 대응하여 직접 중요한 영역을 레이블링(Labeling)한 검증자료(Ground truth) 영상을 포함하고 있다. 실험은 3.20 GHz CPU와 8GB 메모리의 데스크탑에서 진행하였으며 평균적으로 해상도의 영상에 대해서 약 3.85초의 시간이 소요되었다.

알고리즘의 성능 평가를 위해서 총 네개의 CA [6], FT [22], GB [8], SS [23] 중요도 맵 추출 알고리즘과 비교하였다. Fig. 8은 각 알고리즘의 몇가지 결과 영상을 나열한 것이다. 다른 알고리즘들이 중요 객체의 영역을 정확하게 검출하지 못하거나 객체의 윤곽선을 온전히 보존하지 못하는 반면 본 논문에서 제안하는 알고리즘은 중요 영역의 형태와 중요도 값을 다른 알고리즘의 결과보다 정확하게 추출한 것을 볼 수 있다. 이를 정량적으로 측정하기 위해 각 알고리즘의 중요도 맵을 이진화하고 검증자료와 비교하여 잘못 추출된 픽셀의 비율을 계산하였다. Fig. 9은 각 알고리즘의 중요도 맵에서 잘못 추출된 픽셀을 나타낸다. 다른 알고리즘의 결과들이 37%에서 51% 정도의 높은 비율로 잘못 추출된 픽셀을 보이고 있는 반면 본 논문에서 제안한 알고리즘의 결과에서 잘못된 픽셀은 15.8%로 향상된 성능을 보였다.

Fig. 8.Visual comparison of saliency maps. (a) Original left image, (b) Goferman et al. [6], (c) Achanta et al. [22], (d) Harel et al. [8], (e) Niu et al. [23].

Fig. 9.Comparison of each saliency maps and groundtruth. (a) Original stereo image, (b) Groundtruth, (c) Saliency error ratio of CA, 48.6%, (d) Saliency error ratio of FT, 51.9%, (e) Saliency error ratio of GB, 37.0%, (f) Saliency error ratio of SS, 41.7%, (g) Saliency error ratio of ours, 15.8%

이어서 데이터셋 전반에 걸친 알고리즘의 정확도를 판단하기 위해 중요도 맵을 이진 분할하여 검증자료와 비교하였다. 각 영상에 대해 중요한 영역이라고 판단되어 높은 값을 할당받은 픽셀 중 실제 중요한 영역의 픽셀 비율, 중요도가 낮다고 판단한 픽셀 중 반대로 중요한 영역인 경우의 비율을 산출하였다. 이같은 과정을 통해 모든 테스트 영상의 결과로부터 precision-recall 곡선과 평균 F-Measure를 산출하였다. F-Measure는 아래와 같이 정의된다.

여기서 β2는 [22]과 같이 0.3으로 설정하여 재현율(Recall)보다 정확도(Precision)에 높은 가중치가 적용되도록 하였다.

Fig. 10(a)는 비교한 알고리즘 각각의 precisionrecall curve, Fig. 10(b)는 정확도와 재현율을 이용해 F-Measure 산출 값을 나타낸 것이다. 비교 결과를 살펴 보았을 때, 본 논문에서 제안한 알고리즘의 평균 F-Meausre는 약 0.65로 다른 알고리즘에 비해 더 좋은 성능을 보인 것을 알 수 있다.

Fig. 10.(a) Precision-recall curves of saliency maps using benchmark dataset, (b) F-measure score chart of saliency maps using benchmark dataset.

 

5. 결 론

본 논문에서는 스테레오 영상의 색상 빈도수 기반의 색상 대비 계산 및 LBP를 이용한 지역적 텍스처특징, 그리고 3D 시청 환경에서의 돌출도를 고려한 3D 중요도 맵 추출 방법을 제안하였다. 기존에도 2D 중요도 맵과 깊이 정보를 이용하여 스테레오 영상의 중요도 맵을 계산하는 알고리즘들이 있었지만 영상의 색상 정보뿐만 아니라 텍스처 특징을 사용함으로써 색상을 통한 구분이 어려운 영상에 대해서도 중요도 맵의 정확도를 향상시킬 수 있었는데, 이를 위해서 영상의 각 부분에 대해 가까운 영역을 포함하는 윈도우, 보다 넓은 영역을 포함하는 윈도우를 생성하여 윈도우의 LBP를 추출 및 비교 분석을 통해 지역적으로 텍스처를 분석할 수 있도록 했고, 새로운 방식의 LBP 히스토그램 비교 방법을 통해 밀도가 낮은 LBP 히스토그램에 대해서도 보다 정확한 비교값을 산출할 수 있도록 하였다.

하지만, 제안한 방법의 경우 돌출도 맵 결과에 의존적인 부분이 있어 돌출도 맵 성능에 따라 중요도 맵 정확도에 영향을 미치게 된다. 계속해서 효과적인 돌출도 맵 알고리즘들이 연구되고 있지만 그와 별개로 돌출도 맵에 최대한 영향을 받지 않도록 하는 방법에 대한 연구가 필요하다. 또한 깊이 정보 외에 스테레오 영상의 중요도 맵에서 적용될 수 있는 중요도 요인과 그 영향에 대한 연구와 중요도 요인 추출 방법, 적용 방법 등의 연구를 통해 중요도 맵의 정확도를 더욱 높일 수 있도록 한다.

References

  1. S.M. Kim, C.H. Park and J.C. Namkung, "Face Feature Extraction Method Through Stereo Image's Matching Value," Journal of Korea Multimedia Society, Vol. 8, No. 4, pp. 461-472, 2005.
  2. J. Wang, M.P.D. Silva, P.L. Callet, and V. Ricordel, "Computational Model of Stereoscopic 3D Visual Saliency," IEEE Transactions on Image Processing, Vol. 22, Issue 6, pp. 2151-2165, 2013. https://doi.org/10.1109/TIP.2013.2246176
  3. M. Cheng, G. Zhang, N.J. Mitra, X. Huang, and S. Hu, "Global Contrast Based Salient Region Detection," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 409-416, 2011.
  4. J.H. Reynolds and R. Desimone, "Interacting Roles of Attention and Visual Salience in V4," Neuron, Vol. 37, No. 5, pp. 853-863, 2003. https://doi.org/10.1016/S0896-6273(03)00097-7
  5. J. Zhu, Y. Qiu, R. Zhang, J. Huang, and W. Zhang, "Top-Down Saliency Detection via Contextual Pooling," Journal of Signal Processing Systems, Vol. 74, No. 1, pp. 33-46, 2014. https://doi.org/10.1007/s11265-013-0768-9
  6. S. Goferman, L. Zelnik-Manor, and A. Tal, "Context-Aware Saliency Detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 34, No. 10, pp. 1915-1926, 2012. https://doi.org/10.1109/TPAMI.2011.272
  7. J. Li, M.D. Levine, X. An, X. Xu, and H. He, "Visual Saliency based on Scale-Space Analysis in the Frequency Domain," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 35, No. 4, pp. 996-1010, 2013. https://doi.org/10.1109/TPAMI.2012.147
  8. J. Harel, C. Koch, and P. Perona, "Graph-Based Visual Saliency," Proceeding of Conferences on Neural Information Processing Systems, pp. 545-552, 2006.
  9. L. Jansen, S. Onat, and P. König, "Influence of Disparity on Fixation and Saccades in Free Viewing of Natural Scenes," Journal of Vision, Vol 9, No. 1, pp. 1-19, 2009. https://doi.org/10.1167/9.1.29
  10. P. Anandan, "A Computational Framework and an Algorithm for the Measurement of Visual Motion," International Journal of Computer Vision, Vol. 2, No. 3, pp. 283-310, 1989. https://doi.org/10.1007/BF00158167
  11. D. Terzopoulos, “Regularization of Inverse Visual Problems Involving Discontinuities,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 8, No. 4, pp. 413–424, 1986. https://doi.org/10.1109/TPAMI.1986.4767807
  12. S. Birchfield and C. Tomasi, “A Pixel Dissimilarity Measure That is Insensitive to Image Sampling,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 4, pp. 401-406, 1998. https://doi.org/10.1109/34.677269
  13. D. Marr and T. Poggio, “Cooperative Computation of Stereo Disparity,” Science, Vol. 194, No. 4262, pp. 283-287, 1976. https://doi.org/10.1126/science.968482
  14. K. Yoon and I.S. Kweon, "Adaptive Support-weight Approach for Correspondence Search," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 4, pp. 650-656, 2006. https://doi.org/10.1109/TPAMI.2006.70
  15. B.J. Balas, "Texture Synthesis and Perception: Using Computational Models to Study Texture Representations in the Human Visual System," Vision Research, Vol. 46, No. 3, pp. 299-309, 2006. https://doi.org/10.1016/j.visres.2005.04.013
  16. T. Ojala, M. Pietikainen, and T. Maenpaa, "Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp. 971-987, 2002. https://doi.org/10.1109/TPAMI.2002.1017623
  17. H. Jung, K. Cho, and K. Han, “The Impact of Brightness, Polarity, and Hue Difference on Legibility and Emotional Effect of Word in Visual Display,” Journal of Korean Society for Cognitive Science, Vol. 17, No. 4, pp. 337-356, 2006.
  18. Z. Yang and H. Ai, "Demographic Classification with Local Binary Patterns," Advances in Biometrics, Vol. 4642, pp. 464-473, 2007. https://doi.org/10.1007/978-3-540-74549-5_49
  19. J. Ren, X. Jiang, and J. Yuan, "Noise-Resistant Local binary Pattern with an Embedded Error-Correction Mechanism," IEEE Transactions on Image Processing, Vol. 22, No. 10, pp. 4049-4060, 2013. https://doi.org/10.1109/TIP.2013.2268976
  20. Z. Guo, L. Zhang, and D. Zhang, "Rotation Invariant Texture Classification using LBP Variance (LBPV) with Global Matching," Pattern Recognition, Vol. 43, No. 3, pp. 706-719, 2010. https://doi.org/10.1016/j.patcog.2009.08.017
  21. J. Häkkinen, T. Kawai, J. Takatalo, R. Mitsuya, and G. Nyman, "What do people look at when they watch Stereoscopic Movies?," IS&T/SPIE Electronic Imaging, Vol. 7524, pp. 2010.
  22. R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk, "Frequency-tuned Salient Region Detection," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 1597-1604, 2009.
  23. Y. Niu, Y. Geng, X. Li, and F. Liu, "Leveraging Stereopsis for Saliency Analysis," Proceeding of IEEE Conference on Computer Vision and Pattern Recognition, pp. 454-461, 2012.