DOI QR코드

DOI QR Code

Layered Coding Method for Scalable Coding of HDR and SDR videos

HDR와 SDR 비디오의 스케일러블 부호화를 위한 계층 압축 기법

  • 임정윤 (광운대학교 컴퓨터공학과) ;
  • 안용조 (광운대학교 컴퓨터공학과) ;
  • 임웅 (광운대학교 컴퓨터공학과) ;
  • 박시내 (광운대학교 컴퓨터공학과) ;
  • 심동규 (광운대학교 컴퓨터공학과) ;
  • 강정원 (한국전자통신연구원)
  • Received : 2015.08.18
  • Accepted : 2015.09.24
  • Published : 2015.09.30

Abstract

In this paper, we propose a scalable coding method for high dynamic range (HDR) and standard dynamic range (SDR) videos based on Scalable High Efficiency Video Coding (SHVC). The proposed method has multi-layer coding architecture that consists of base layer for SDR videos and enhancement layer for HDR videos to support the backward compatibility with legacy codec and display devices. Also, to improve coding efficiency of enhancement layers, a global inverse tone mapping is applied to the reconstructed SDR video and the compensated frames are referred for coding of the enhancement layer. The proposed method is found to achieve BD-Rate gain of 43.0% on average (maximum 76.3%) for the enhancement layer and 15.7% on average (maximum 31%) for dual-layer against the SHM 7.0 reference software.

본 논문에서는 SHVC (Scalable High Efficiency Video Coding)의 계층적 부호화 구조를 기반으로 HDR (High Dynamic Range) 영상과 SDR (Standard Dynamic Range) 영상의 부호화 방법을 제안한다. 본 논문의 제안하는 방법은 SHVC 계층적 부호화 구조 중 기본 계층에서 SDR 영상을 부호화 및 복호화하여, 기존의 디스플레이 장치에 대한 하위 호환성을 제공하고, 향상 계층에서 HDR 영상에 대한 부호화 및 복호화를 수행한다. 또한, 기본 계층의 복원 영상에 전역 역 톤 맵핑 (Global inverse tone mapping)을 수행하여 향상 계층의 참조 영상으로 사용함으로써 HDR 영상의 부호화 효율을 향상시켰다. 본 논문에서 제안하는 방법을 통해 기존의 SHVC 레퍼런스 소프트웨어인 SHM7.0 대비 약 향상 계층에서 평균 43%, 최대 76.3%의 BD-Bitrate 감소를 얻을 수 있었으며, 기본 계층과 향상 계층 전체에서 평균 15.7%, 최대 31%의 BD-Bitrate 감소를 보였다.

Keywords

Ⅰ. 서 론

고해상도, 고화질 영상에 대한 소비자의 요구가 늘어남에 따라 차세대 비디오 서비스를 위한 부호화 기술의 필요성 또한 증가하고 있다. 이에 ISO/IEC MPEG (Moving Picture Expert Group)과 ITU-T VCEG (Video Coding Expert Group)은 2010년 JCT-VC (Joint Collaborative Team on Video Coding)를 결성하여 최신 비디오 부호화 표준인 HEVC (High Efficiency Video Coding)의 표준화를 시작하였다. 2013년 1월 HEVC version 1 표준 기술 개발이 완료 되었으며, 종래의 비디오 부호화 표준인 H.264/ AVC와 비교하여 주관적 화질 측면에서 약 50%, 객관적 화질 측면에서 약 40%의 비트율 감소를 나타내었다[1~2]. 이후, JCT-VC에서는 HEVC version 1을 기반으로 다양한 확장 표준에 대한 표준화를 지속하였으며, HEVC RExt (Range Extension), SHVC (HEVC Scalable Extension), MV-HEVC (HEVC Multi-view Extension)로 구성되는 HEVC version 2 표준을 완성하였다. 그 중 계층적 비디오 부호화를 제공하는 SHVC는 스마트 폰, 스마트 패드와 같이 다양한 해상도를 갖는 멀티미디어 장치의 보급과 네트워크 관련 기술 발달에 따라 활용도가 점차 증가할 것으로 예상된다[3][4].

이와 더불어 현실감, 몰입감 및 생동감에 대한 소비자들의 요구가 증가하고 있으며, 산업계는 이러한 시장의 수요를 충족시킬 수 있는 HDR(High Dynamic Range)/WCG (Wide Color Gamut) 디스플레이 장치들을 개발하기 시작하였다. 이에 따라 관련 디스플레이 장치와 콘텐츠에 적합한 표준 기술 개발이 필요하게 되었다[5]. MPEG에서는 이러한 시장의 흐름에 따라 2014년 7월 HDR/WCG의 표준 확장을 위한 필요성과 요구 사항을 수집하였으며, 2015년 2월 HDR/WCG 영상 압축 기술 개발을 위하여 CfE (Call for Evidence)문서를 발행하였다[6]. CfE는 기존의 HEVC 및 SHVC를 확장시켜 HDR/WCG 영상을 효과적으로 부호화 할 수 있는 방향을 제안하고 있으며, 이는 표준과 비표준, 하위 호환성(backward compatibility)에 대한 고려 여부를 기준으로 3가지 카테고리(category)로 나누어진다. 2015년 6월 MPEG과 JCT-VC 표준화 회의를 통해 CfE에 대한 응답 및 HDR/WCG 비디오 부호화 기술과 관련 연구들에 대하여 활발하게 논의되었다. CfE에서 제시한 부호화 기술은 크게 ‘Category 1, 2, 3’으로 분류할 수 있다. ‘Category 1’은 기존의 HEVC Main 10 Profile을 확장하여 HDR 영상 부호화 필요한 정보를 전처리 및 후처리 프로세싱을 통해 처리하는 비디오 부호화 방법이다. 또한, ‘Category 1’은 하위 호환성을 고려하지 않으며, 표준 기술 변화를 포함하여 HDR/WCG 비디오에 대한 부호화 효율을 향상시키는 방법이다. 이에 대한 관련 연구로써 [7~10]이 논의 되었다. ‘Cate- gory 2’는 기존의 HEVC Main 10 Profile 및 SHVC Main 10 Profile을 확장하여 SDR 영상과 HDR 영상에 대한 이중 계층 코딩(Dual-layer coding)방법으로써, 기존 계층의 SDR 영상을 HEVC/SHVC Main 10 Profile을 기반으로 부호화를 수행하고, 향상 계층에서는 기본 계층의 복원 영상 또는 입력 영상의 정보를 이용하여 향상 계층의 부호화 효율을 향상시킨다. ‘Category 3’는 기존의 HEVC Main 10 Profile 및 SHVC Main 10 Profile을 기반으로 전처리 및 후처리 프로세싱, 칼라 포맷 변환, 부호화기의 최적화 등을 통해 HDR 비디오를 부호화하는 방법으로써, 비-표준 기술 변화를 이용하여 부호화 효율을 향상시킨다. ‘Category 2’ 와 ‘Category 3’에 대한 연구 방법으로 [11~15] 등이 기고되었다.

본 논문에서는 기존의 SHVC Main 10 Profile의 확장을 통하여, HDR과 SDR 영상의 다이나믹 레인지 스케일러빌리티를 지원할 수 있는 다중 계층 비디오 부호화 방법을 제안한다. 본 논문에서 제안하는 방법은 'Category 3'에서 제안하는 비-표준 기술 변화를 통한 HDR 비디오의 부호화 효율 향상 기법들과는 다르게 SHVC 표준에서 하위 계층의 복원 영상을 업 샘플링 처리를 통하여 향상 계층의 복원 영상으로 참조, 향상 계층의 부호화 효율을 높이는 것과 같이 계층 간 예측에 있어 메타 데이터로 복호화기에 전달 될 수 있는 영상의 특징을 반영한 역 톤 매핑 계수를 이용, SDR 복원 영상에 역 톤 매핑 처리를 수행하여 HDR 영상의 부호화 효율을 향상시키는 기법이다. 본 논문에서 제안하는 부호화 구조는 기본 계층(base layer)과 향상 계층(enhancement layer)에서 SDR 영상과 HDR 영상에 대한 부호화를 수행한다. 본 논문에서 제안하는 방법은 향상 계층의 부호화 효율을 향상시키기 위하여 계층 간 예측(Inter-layer prediction, ILP)[4]을 효과적으로 수행하기 위하여 다이나믹 레인지를 조절하기 위한 역 톤 매핑(Inverse tone mapping)을 SDR 복원 픽쳐에 적용하여 향상 계층의 참조 픽쳐로 사용한다. 본 논문에서 제안하는 방법을 통하여 SDR과 HDR의 계층적 부호화를 제공함으로써 기존의 SDR 장치와의 하위 호환성을 제공함과 동시에 HDR에 대한 소비자의 요구를 충족시킬 수 있다.

본 논문의 구성은 다음과 같다. Ⅱ장에서는 본 논문에서 제안하는 방법의 관련 연구로 HDR 이미지 및 영상에 대한 소개와 HDR 영상의 톤 매핑(tone mapping), 역 톤 매핑에 대해 알아보고, HEVC기반의 HDR 영상에 대한 부호화 연구에 대해 소개한다. Ⅲ장에서는 본 논문에서 제안하는 역 톤 매핑을 이용한 HDR/SDR 영상의 스케일러블 코딩 방법에 대해 소개하며, Ⅳ장에서는 제안 하는 방법의 성능에 대해 평가 및 분석하고, 마지막으로 Ⅴ장에서는 결론과 향후 연구 방향을 제시하고 본 논문을 마친다.

 

Ⅱ. HDR 영상과 기존의 부호화 연구

2장에서는 본 논문을 이해하기 위한 배경 지식과 HDR 영상의 부호화 연구를 소개한다. 먼저, 2.1절에서는 HDR 이미지 및 영상에 대한 개념을 설명하고, 이를 응용한 톤 매핑 및 역 톤 매핑에 대하여 알아본다. 2.2절에서는 HDR 영상 부호화 연구들을 소개하며 본 장을 마친다.

1. HDR 이미지/영상과 응용

다이나믹 레인지는 최대 빛의 세기(light intensity)와 최소 빛의 세기의 비율로 설명할 수 있으며, nits 또는 f-stops와 같은 단위로 표현할 수 있다[16]. 디지털 카메라와 같은 취득 장치의 경우, 일반적으로 다이나믹 레인지를 측정하는 단위로 f-stops를 사용 하며, 최대 빛의 세기와 최소 빛의 세기의 비율을 명암비(contrast ratio)를 통해 표 1과 같이 나타낸다[17]. 이때 HDR은 16 f-stops 이상의 다이나믹 레인지를 의미하며, HDR 이미지 또는 영상은 다양한 HDR 이미지 취득 및 생성 기술[18~22]을 통하여 해당 밝기 값의 다이나믹 레인지를 가지는 디지털 처리된 이미지 및 영상을 의미한다. 또한, HDR 이미지는 넓은 다이나믹 레인지의 픽셀 값을 저장하기 위하여 지금까지 이미지를 저장하는데 사용 되던 파일 포맷과는 다르게 TIFF[23], OpenEXR[24]과 같은 파일 포맷을 이용하여 물리적 장면의 밝기 값(physical scene luminance)을 픽셀 값으로 저장한다. OpenEXR은 HDR 이미지의 파일 포맷을 지원하기 위해 ILM (Industrial Light & Magic)에 의해 개발되었으며, IEEE 754-2008에 따라 16-bit 또는 32-bit의 floating point 포맷으로 픽셀 데이터를 저장할 수 있다[24]. OpenEXR의 특징은 종래의 8-bit 파일 포맷이 7~10 f-stops의 다이나믹 레인지를 저장할 수 있는 반면에 16-bit floating point 파일 포맷의 경우, 최대 30 f-stops의 다이나믹 레인지를 저장할 수 있는 장점이 있다[24].

표 1.f-stop에 따른 다이나믹 레인지 Table 1. Dynamic range depending on f-stop

이와 같이 HDR의 다이나믹 레인지를 가지는 이미지와 영상은 종래의 SDR 영상 대비 넓은 범위의 밝기 값을 저장함으로써 현실감, 현장감 및 몰입감 등이 담긴 영상을 표현할 수 있다. 하지만 HDR 영상은 기존의 SDR 디스플레이 장치에서 재생될 수 없기 때문에, SDR 디스플레이 장치에서 HDR 영상을 표현하기 위해서는 별도의 변환(conver- sion)과정이 필요하다. 본 논문에서는 이를 톤 매핑이라 부르며, HDR로 캡쳐된 영상 및 이미지를 SDR 영상 및 이미지로 변환 하는 것을 의미한다. HDR 영상을 SDR 영상으로 변환하는 톤 매핑은 TMO(Tone Mapping Operator)에 적용되는 함수의 성격에 따라 전역 톤 매핑(global tone mapping)과 지역 톤 매핑(local tone mapping)으로 분류할 수 있다. 일반적인 전역 톤 매핑은 HDR 영상 전체의 밝기 값을 고려한 단조 증가 톤 매핑 곡선(monotonously increasing tone mapping curve)을 이용하여 HDR의 픽셀 값을 SDR의 픽셀 값으로 변환한다[25~27]. 대표적인 지역 톤 매핑 방법으로는 SDR로 변환하려는 HDR의 픽셀 값을 주변 HDR 픽셀의 정보를 이용하여 변환을 수행하는 방법들이 있다[28~30]. 이 외에도 영상의 엣지(edge)와 배경을 분리하여 톤 매핑을 수행하거나[31], HVS(Human Visual System)을 반영하여 HDR의 이미지 및 영상을 SDR로 변환하는 방법들이 있다[32].

일반적으로 톤 매핑은 그림 1과 같이 3단계를 통해 수행될 수 있다. 첫 단계는 Mapping operation으로써, 톤 매핑되는 입력 HDR 영상의 밝기 값(Luminance value)인 Lin을 SDR 디스플레이 장치의 다이나믹 레인지에 맞게 0과 1사이의 실수 값으로 조절한다. 이후, Gamma encoding 과정을 거치게 되는데, 이는 카메라와 다르게 사람의 눈은 빛에 비선형적으로 반응하는 점에서, Mapping operation 단계를 거친 HDR 영상 Luma 픽셀 값인 Lin 을 인지적 특성에 따라 값을 재분배 하여 디지털 컬러 픽셀 값 Lg로 조절하는 과정을 말한다. 마지막으로 Quantization 단계에서는 floating point의 값을 [0;2n-1](n은 비트 심도를 의미)의 범위의 정수형 코드 값(integer code value)으로 양자화 하여 입력 HDR 영상에 대하여 톤 매핑 된 Luma 픽셀 값 Lout을 출력한다[33].

그림 1.톤 매핑을 구성하는 3 단계 Fig. 1. Three steps to perform a tone mapping operation

본 논문에서 설명하는 역 톤 매핑은 SDR 영상의 다이나믹 레인지를 HDR 수준으로 역 변환하는 것을 의미한다. 이때, SDR 영상의 정보와 역 변환을 수행하는 ITMO (Inverse Tone Mapping Operator)에 따라 역 톤 매핑을 2가지로 분류될 수 있다. 만약 SDR 영상이 HDR 영상으로부터 TMO에 의해 톤 매핑된 영상이며, TMO에 대한 정보를 알 수 있는 경우, TMO를 역으로 계산하여 ITMO를 구할 수 있다. 이를 통해 SDR 영상을 HDR 영상으로 역 변환 할수 있다. 이와는 다르게 EO(Expand Operator)를 이용한 역 톤 매핑 방법이 있다. 이는 SDR 영상을 HDR 영상으로 변환하기 위한 정보가 없거나 TMO에 대한 정보를 알지 못할 때 역 톤 매핑하는 방법이며, HDR 디스플레이 장치의 다이나믹 레인지를 고려하여, SDR 영상의 다이나믹 레인지를 스트레칭 하여 역 변환을 수행한다[34~35].

2. HDR 영상 부호화 연구

본 절은 기존 비디오 표준을 이용한 HDR 영상 부호화 연구들에 대해 소개한다. OpenEXR, TIFF와 같은 HDR 영상의 파일 포맷은 기존의 비디오 표준에서 입력 영상으로 지원되지 않기 때문에 입력 영상에 대한 파일 포맷 변환 과정이 필요하다[6]. 본 절에서는 HEVC 표준 레퍼런스 소프트웨어를 이용하여 HDR 영상을 부호화하기 위한 파일 포맷 과정을 소개 하고, 이를 기반으로 HDR 영상을 부호화 하는 방법에 대해 소개한다.

그림 2는 HEVC 표준 레퍼런스 소프트웨어를 이용한 HDR 영상의 부호화 및 복호화에 필요한 전처리 및 후처리 과정을 나타낸다. 먼저, HDR 영상을 HEVC 부호화기를 통해 부호화하기 위하여 16bit floating point 4:4:4 RGB의 HDR 입력 영상을 10bit 4:2:0 Y'CbCr로 변환한다.

그림 2.HEVC 기반의 HDR 영상 코딩 구조 Fig. 2. HDR Video coding architecture based on HEVC

변환된 HDR 입력 영상을 HEVC의 부호화기를 통하여 부호화를 수행하며, 복호화 단계에서는 영상에 대한 비트스트림을 이용하여 HEVC 복호화기를 통해 영상을 복원한다. 이후, 복원된 10bit 4:2:0 Y'CbCr HDR 영상을 원래의 HDR 포맷으로 역 변환하는 작업을 수행한다. 이때 HDR 영상의 포맷을 변환하는 과정은 다음과 같이 수행된다.

그림 2의 Coding TF (Transfer Function) 단계는 HDR 입력 영상의 RGB 선형 데이터를 인간의 인지적 특성에 따라 비선형으로 매핑하는 단계로써, PQ-TF(Perceptual Quantizer) [36~37]를 이용하여 다음 식 (1)과 같이, 입력 HDR 영상의 R, G, B 데이터를 R', G', B'로 변환한다.

식 (1)에서 PQ-TF[36~37]는 EOTF(Electro-Optical Transfer Function) 단계로써, CRT 디스플레이 장치에서 수행되던 감마 보정(Gamma correction)과 유사한 동작을 수행한다. PQ-TF는 감마 보정이 HDR 영상의 다이나믹 레인지를 제대로 지원하지 못한다는 한계를 극복하기 위하여 개발되었으며, 입력 HDR 영상의 R, G, B 선형 신호를 인지 시각적 관점에서 비선형 함수를 통해 R’, G’, B’ 비선형 신호로 매핑하는 역할을 수행한다. Color conversion 단계에서 영상의 R'G'B‘의 floating 값을 Color gamut에 따라 Container의 gamut에 맞게 Y'CbCr floating point 값으로 변경하는 작업을 수행하는데, Color gamut이 BT.709[38]인 경우, 식 (2)를 이용하여 다음과 같이 수행한다.

Color gamut이 BT.2020[39]인 경우, 식 (3)을 이용하여 다음과 같이 Color conversion을 수행한다.

식 (2) 또는 식 (3)에서 R', G', B'는 PQ-TF를 통해 변환된 입력 HDR 영상의 신호를 의미하며, HEVC 참조 소프트웨어의 입력 포맷에 맞는 Y'CbCr의 칼라 포맷으로 변경하는 작업을 수행한다. Quantization 단계는 Y'CbCr의 floating point 값을 bit-depth에 따라 정수형으로 양자화 하며, 마지막 Sampling conversion 단계는 4:4:4의 Y'CbCr의 값을 4:2:0로 변환하는 작업을 수행한다[6].

그림 2와 같은 파일 포맷 변환 과정을 수행한 HDR 영상은 HEVC와 같은 기존의 비디오 표준의 입력 영상으로 부호화가 가능하다. 부호화 방법으로는 기존 비디오 표준을 따르면서 전처리 및 후처리 프로세스를 통해 HDR 영상을 부호화 하는 방법 및 기존 비디오 표준 기술의 변화를 통해 HDR 영상 부호화에 필요한 정보를 함께 부호화 하는 방법 등이 있다. 이에 대한 관련 연구로는 HDR 영상의 톤 매핑 정보 또는 특성 정보를 메타 데이터 형식으로 부호화하여 HDR 영상의 부호화 효율을 높이는 연구들과 HDR 영상의 파일 포맷을 기존의 HEVC 부호화기 및 복호화기의 파일 포맷으로 변환하는 과정에서 발생하는 아티팩트를 제거하여 주관적 화질을 높이는 연구들이 있었다[7~10].

단일 계층 부호화 방법은 SDR 코덱 및 디스플레이 장치에 대한 하위 호환성을 보장할 수 없다. 이는 HDR 디스플레이 장치 및 HDR 영상 관련 기술이 발전됨에 따라 HDR 영상에 대한 부호화 기술의 필요성이 높아짐에도 불구하고, 종래의 시장에서 높은 비중을 차지하는 SDR 디스플레이 장치 및 코덱에 대한 영상 서비스를 지원하지 못하는 문제점이 있다. 본 논문에서는 단일 계층 부호화 방법이 SDR 장치에서의 하위 호환성을 지원하지 못하는 문제점을 해결하고자 HDR 영상과 이에 대응하는 SDR 영상을 계층적으로 부호화 하는 다중 계층 부호화 방법을 제안한다.

 

Ⅲ. 제안하는 방법

본 장에서는 HDR 영상의 부호화 효율을 향상시키기 위하여, 본 논문에서 제안하는 역 톤 매핑을 이용한 HDR/ SDR 영상의 계층적 부호화 방법에 대해 소개한다. 제안하는 부호화 방법에 대한 구조는 SDR 영상을 기본 계층의 입력으로 하며, HDR 영상을 향상 계층의 입력으로 하는 이중 계층 부호화 구조를 가진다. 본 논문에서는 향상 계층의 부호화 효율을 향상시키기 위하여 기본 계층의 복원 픽쳐를 전역 역 톤 매핑을 적용하여 향상 계층의 참조 픽쳐 중 일부로 활용하는 구조를 제안한다. 본 장에서는 먼저 본 논문에서 제안하는 역 톤 매핑을 이용한 HDR/SDR 계층적 부호화 구조를 소개하고, 본 논문의 성능 평가를 위해 수행한 전역 톤 매핑에 대해 소개한다.

1. 역 톤 매핑을 이용한 HDR/SDR 영상의 계층적 부호화 방법

본 논문에서는 계층 간 예측에 있어, 역 톤 매핑을 이용한 HDR/SDR 영상의 계층적 부호화 방법을 제안한다. 본 논문의 제안하는 부호화 구조는 기본 계층과 향상 계층에서 SDR 영상과 HDR 영상에 대한 부호화 및 복호화를 수행하며, 제안하는 방법으로는 기본 계층의 복원 영상에 대해 전역 역 톤 매핑을 적용함으로써, 역 톤 매핑이 적용된 SDR 복원 픽쳐를 향상 계층의 참조 픽쳐로써 활용되는 구조를 통하여 향상 계층의 부호화 효율을 향상 시킨다.

그림 3은 본 논문에서 SHVC 레퍼런스 소프트웨어 SHM7.0을 기반으로 본 논문에서 제안하는 HDR/SDR 영상의 계층적 부호화 구조를 나타낸다. 부호화기의 기본 계층에서는 전역 톤 매핑하여 생성한 10bit YCbCr SDR 영상에 대한 부호화를 수행하며, 향상 계층에서는 10bit Y'CbCr HDR 영상에 대한 부호화를 수행한다. 이때, SDR 영상의 전역 톤 매핑 파라미터 정보를 이용하여 SDR 복원 영상에 역 톤 매핑을 적용하고, 이를 향상 계층의 참조 픽쳐 리스트에 포함시킨다. 역 톤 매핑은 SDR 영상을 생성할 때 계산한 전역 톤 매핑 파라미터를 이용하며, 이는 식 (4)과 같다.

그림 3.제안하는 계층적 부호화 구조의 블록도 Fig. 3. Block diagram of proposed scalable coding architecture

식 (4)에서 L'SDR은 SDR의 복원 영상을 의미하며, L'HDR은 SDR의 복원 영상과 영상에 대한 톤 매핑 파라미터 정보 αi와 βj를 이용하여 생성한 역 톤 매핑된 SDR 영상을 의미한다. αi와 βj는 SDR 복원 영상에 적용되는 톤 매핑 파라미터로써, 전역 톤 매핑을 통해 HDR 영상으로부터 SDR 영상을 생성하는 과정에서 해당 파라미터 정보를 계산할 수 있다. 이때, αi는 영상의 전체 밝기 값을 임의의 구간으로 나누었을 때, 특정 구간에 대한 톤 매핑 곡선의 기울기를 의미하며, βj는 기울기 곡선에 대한 오프셋 파라미터를 의미한다. 또한, i와 j는 영상의 밝기 값을 나눈 임의의 구간이며, 본 논문에서는 0부터 8까지 정수 값을 가진다.

본 논문에서 제안하는 계층적 부호화 방법에 있어 복호화 방법은 부호화기로부터 전송받은 SDR/HDR 영상의 비트스트림과 역 톤 매핑 정보를 이용하여 계층적 복호화를 수행한다. 이때, 영상 마다 부호화기와 동일한 역 톤 매핑 파라미터를 이용하여 SDR 복원 픽쳐에 역 톤 매핑을 적용하며, 역 톤 매핑된 SDR 복원 픽쳐를 향상 계층의 참조 픽쳐로써 활용한다. 본 논문에서는 역 톤 매핑에 필요한 파라미터들에 대한 정보를 복호화기에서 알고 있다는 가정에 실험을 진행하였지만, 역 톤 매핑 정보는 메타 데이터의 형태로 전송하는 방법을 고려할 수 있다.

본 논문에서 제안하는 계층적 부호화 방법은 기존의 SDR 영상 및 디코더에 대한 하위 호환성을 지원할 수 있으며, 역 톤 매핑 정보를 장면의 전환 또는 특정 밝기 값이 크게 변화는 시점과 이에 따라 톤 매핑 파라미터의 변화 정보를 메타 데이터로 전송할 수 있다면, 톤 매핑 시 영상이 깜빡이는 현상과 같은 플리커링 열화(flickering artifacts)의 문제점[40]을 보완할 수 있는 장점이 있다.

2. SDR 영상 생성 과정과 전역 톤 매핑 파라미터 정보

본 논문에서 제안하는 부호화 구조는 기본 계층에서 SDR 영상을 입력으로 받고, 향상 계층에서 HDR 영상을 입력으로 받는 이중 계층 부호화 구조를 가진다. 그리고 향상 계층의 부호화 효율을 향상시키기 위하여 계층 간 예측에 있어, SDR 복원 픽쳐에 전역 역 톤 매핑을 적용하여 이를 향상 계층의 참조 픽쳐 중 일부로써 활용하는 방법을 제안한다. 제안하는 부호화 방법의 성능을 평가하기 위해서는 향상 계층의 HDR 입력 영상, 이에 대응하는 전역 톤 매핑된 SDR 입력 영상 및 전역 톤 매핑 정보가 필요하다. 본 절에서는 SDR 입력 영상에 적용한 전역 톤 매핑 방법과 톤 매핑 파라미터 정보에 대해 소개한다.

그림 4는 본 논문에서 수행한 SDR 영상 생성 과정의 전반적인 과정을 나타낸다. 제안하는 방법에서는 SDR 영상 생성을 위하여 HDR 16bit RGB 4:4:4의 OpenEXR 파일 포맷을 10bit Y‘CbCr 4:2:0의 파일 포맷으로 변환한다. 이후, 변경된 HDR 영상에 전역 톤 매핑을 적용하여 SDR 영상을 생성한다. 그림 4에서 Conversion HDR은 파일 포맷의 변경 과정이며, 이는 그림 2에서 설명하였듯이, 원본 HDR 영상을 PQ-TF, Color conversion, Quantization 및 Sampling conversion 과정을 거쳐 10bit YUV 4:2:0 영상으로 변환시키는 과정을 수행한다. 이후, HDR 영상에 전역 톤 매핑을 적용하여 SDR 영상을 생성하게 된다.

그림 4.SDR 영상 생성 과정 Fig. 4. Process for SDR generation

다음은 본 논문에서 제안하는 코딩 구조의 성능을 평가하기 위하여 수행한 전역 톤 매핑 방법을 소개한다. HDR과 SDR 영상에서의 Luma 픽셀 값을 구간에 따른 비선형 일차원 함수를 구하여 SDR 영상을 생성한다. 또한, 영상에 따른 구간별 톤 매핑 파라미터들은 본 논문에서 제안하는 이중 계층 코딩 방법에 있어, 계층 간 예측을 수행할 때, SDR 복원 영상에 역 톤 매핑 파라미터로 활용된다. 본 논문은 CfE[6]에서 제공하는 HDR 영상과 이에 대응하는 톤 매핑 된 SDR 영상을 이용하여 동일한 POC (Picture order count)에서 같은 위치의 Luma 픽셀 값에 따른 매핑 관계를 기반으로 전역 톤 매핑 파라미터들을 계산한다.

그림 5(a)는 HDR 실험 영상 중 하나인 Balloon- Festival[6]과 이에 대응하는 톤 매핑 된 SDR 영상 픽셀 간 매핑 관계를 나타낸 분포도이며, X축과 Y축은 HDR 영상과 SDR 영상의 Luma 픽셀 값의 범위 [0;2n](n; 영상의 bit-depth)를 나타낸다. 이를 분석해 보면, HDR 영상의 특정 Luma 픽셀 값이 SDR 영상에서 서로 다른 Luma 픽셀 값으로 매핑 되는 것을 확인할 수 있다. 예를 들어, HDR 영상의 170~200 사이의 범위에 속한 픽셀 값들이 SDR 영상에서 80~120사이에 속한다는 점을 알 수 있다. 또한 HDR 영상에서 Luma 500의 값은 픽셀의 위치에 따라 SDR 영상에서 430~510 사이의 값으로 나타날 수 있다는 점을 알 수 있다. 이러한 특성을 기반으로 본 논문에서 사용한 전역 톤 매핑 방법은 HDR 영상의 픽셀 값 전체 범위를 분포에 따라 비 균등한 간격을 갖는 임의의 구간으로 나누고, 각 구간별로 식 (5)를 이용하여 비선형 일차원 전역 톤 매핑 함수로 일반화하였다.

그림 5.HDR 영상과 톤 매핑된 SDR 영상간의 픽셀 매핑 관계(a)과 이에 대한 전역 톤 매핑 곡선(b) Fig. 5. The pixel mapping relation between HDR video and tone mapped SDR video (a) and the normalized global tone mapping curve based on the corresponding relation (b)

식 (5)에서 αi와 βj는 전역 톤 매핑 파라미터로써, αi는 각 구간에서의 전역 톤 매핑 곡선 기울기, βj는 해당 곡선의 오프셋 파라미터를 의미한다. 이때, i와 j의 범위는 0부터 8까지 정수 값을 가진다.

그림 5(b)는 그림 5(a)의 HDR/SDR 영상 간 픽셀 분포 값을 기반으로 일차원 커브 피팅을 통해 톤 매핑 곡선을 나타낸 예이다. 본 논문에서는 HDR Luma 픽셀 구간을 8개의 구간([R0;R1], [R1;R2], ..., [R7;R8])으로 설정하였으며, 각 구간마다 HDR Luma 대표 픽셀 값 avg(Ri)와 이에 대응하는 SDR Luma 픽셀 구간([R‘0;R’1], [R‘1;R’2], ..., [R‘7;R’8])의 대표 픽셀 값 avg(R'i)를 계산한다. 이후, HDR/SDR 영상에서의 구간별 대표 픽셀 값을 식 (6)에 대입하고, 식 (5)를 이용하여 비선형 일차원 전역 톤 매핑 파라미터들을 구한다.

식 (6)에서 pi는 임의의 한 구간에서 톤 매핑 곡선을 계산하기 위해 사용되는 구간의 시작 구역 또는 끝 구역의 평균 픽셀 값으로 사용될 수 있으며, [Ri-1;Ri]의 톤 매핑 곡선은 pi-1과 pi를 이용하여 계산한다. 본 논문에서는 이와 같이 영상의 특성에 따라 전역 톤 매핑 곡선을 구간에 따른 파라미터를 통하여 계산하며, 해당 파라미터를 이용하여 SDR 실험 영상을 생성하고, 제안하는 부호화 방법의 계층간 예측에 있어 역 톤 매핑에 적용한다.

또한, 본 논문에서는 SDR 영상을 생성하는데 있어, 최적의 전역 톤 매핑 알고리즘에 대해서는 다루지는 않는다. 전역 톤 매핑 알고리즘은 2장에서 소개한 것과 같이 다양한 톤 매핑 방법들이 있으며, 이를 본 논문에서 제안하는 계층적 부호화 방법에 적용할 수 있다.

 

Ⅳ. 실험 결과

본 논문에서는 제안하는 방법의 부호화 효율의 성능을 분석하기 위해, SHVC 참조 소프트웨어인 SHM 7.0과 제안하는 방법을 비교 분석하였다. SHM7.0과 제안하는 방법의 기본 계층과 향상 계층에 각각 SDR 영상과 HDR 영상을 입력하였으며, 향상 계층에서의 부호화 효율 비교를 통해 본 논문에서 제안하는 계층 간 예측에 있어 제안하는 방법의 부호화 효율을 분석하였다. 표 2는 본 논문에서 제안하는 방법의 성능 평가를 위하 사용한 부호화 설정을 나타낸다.

표 2.실험 환경 및 부호화 설정 Table 2. Test environment and encoding configuration option

이외의 실험 영상의 종류, 영상에 따른 QP 설정[6]은 CfE에 제시한 실험 조건을 사용하였으며, 임의 접근(random access) 부호화 조건에서 제안하는 방법의 성능을 평가하였다. 표 3은 본 논문에서 사용한 HDR 실험 영상이다. 영상의 해상도는 기본 계층과 향상 계층 모두 1920×1080p이며, SDR의 영상은 HDR 영상에 위에서 언급한 전역 톤 매핑 방법을 적용하여 HDR 영상에 대응하는 SDR 영상을 생성하였다.

표 3.HDR 실험 영상 Table 3. HDR test sequences

표 4은 본 실험에서 설정한 기본 계층과 향상 계층의 QP 값을 나타낸다. 영상에 따라 CfE[6]에서 제시한 QP 값을 이용하여 실험하였으며, 2개의 dQP(deltaQP; dQP1 = -2, dQP2 = 0)를 설정하여 향상 계층의 QP 값을 조절하여 제안하는 방법의 부호화 효율을 평가하였다. 또한, 본 논문에서는 입력 영상간의 밝기 값에 대한 다이나믹 레인지 스케일러빌리티에 대한 부호화 효율을 평가하기 위하여 SDR영상을 생성할 때, HDR 입력 영상에서 Luma 픽셀 값에 글로벌 톤 매핑을 적용하고 Chroma 픽셀 값에 대해서는 HDR 영상의 픽셀 값을 복사하여 사용하였다.

표 4.기본 계층과 향상 계층에서 사용한 QP 집합 Table 4. QPs for Base layer and Enhancement layer

그림 6은 기본 계층의 복원 픽쳐에 역 톤 매핑이 적용되고, 이를 통해 향상 계층에서 참조되는 부호화 과정의 일부 예로써, S03 영상 중 특정 픽쳐의 향상 계층에서 SDR 복원 픽쳐에 역 톤 매핑을 적용하였을 때, 단방향 예측 및 양방향 예측을 통해 역 톤 매핑을 적용한 복원 픽쳐가 선택되는 비율은 약 47.8%가 선택되는 것을 확인하였다. 이와 같이 본 논문에서 제안하는 방법은 기본 계층의 복원 영상에 역 톤 매핑을 적용하면 계층 간 예측에 있어, SDR 복원 영상의 다이나믹 레인지를 HDR로 넓히고, 이를 향상 계층의 참조 픽쳐 중 일부로 활용됨으로써, 높은 부호화 효율을 기대할 수 있다.

그림 6.역 톤 매핑을 적용한 기본 계층의 복원 픽쳐를 향상 계층에서 참조하는 예 Fig. 6. Example for referencing in the enhancement layer with inverse tone mapping to reconstructed picture(base layer)

본 논문에서는 제안하는 방법에 대한 코딩 효율을 평가하기 위하여 SHM 7.0과 제안하는 방법을 비교하며, 표 5는 향상 계층만의 부호화 효율을 비교한 결과이다. 본 논문에서 제안하는 방법은 향상 계층에서 부호화 효율을 비교하였을 때, 최대 76.3%의 BD-Bitrate 감소하였고, 4개의 실험 영상에 대하여, dQP1과 dQP2에서 평균 43.0%의 BD- Bitrate 감소를 보였다. 특히, S02와 S03에서 56% 이상의 BD-Bitrate 감소 효율 있었는데, 해당 영상들은 자연 현상 및 실세계를 촬영한 영상이며 HDR 영상의 픽셀이 전체 Luma 픽셀 범위 ([0;210])에 고루 분포한다는 공통점이 있다. 이러한 특성을 갖는 영상들은 계층 간 예측에 있어 기본 계층의 복원 영상에 역 톤 매핑을 적용할 때, 향상 계층의 참조 픽쳐로써 유용하게 활용될 수 있기 때문이다. 반면에 S01은 최대 17.8의 BD-Bitrate 감소를 보이면서 S02와 S03 보다 적은 부호화 효율을 보였다. 이는 해당 영상의 특성이 일부 구간에서 Luma 픽셀이 집중적으로 분포하여, 부호화 하였을 때 생성되는 절대적인 비트 양이 크지 않아, 부호화 효율의 향상 폭이 높지 않기 때문이다. 마지막으로 S00은 컴퓨터 그래픽으로 제작된 영상으로써, HDR과 SDR 영상과의 관계를 분석해보면, 밝기 값에 대한 대비 보다 색차 대비의 변화가 두드러지게 나타나는 영상이며, 밝기 값의 다이나믹 레인지를 고려한 제안하는 방법을 통해서는 부호화 효율이 높게 나타나지 않는 것을 확인할 수 있다.

표 5.제안하는 방법에서 향상 계층에 대한 BD-Bitrate 비교 결과 Table 5. BD-Bitrate result for the proposed method vs. anchor on the enhancement layer

표 6는 기본 계층과 향상 계층의 부호화 효율을 분석한 결과이며, 기본 계층의 비트스트림은 SHM 7.0과 제안하는 방법 모두 동일한 비트스트림을 생성한다. 4개의 실험 영상과 dQP1과 dQP2의 QP 조건에서 기본 계층과 향상 계층을 함께 부호화 효율을 평가해보면 평균적으로 약 15.7%, 최대 31%의 BD-Bitrate 감소를 보였다.

표 6.제안하는 구조에서 이중 계층 전체에 대한 BD-Bitrate 비교 결과 Table 6. BD-Bitrate gains for the proposed method vs. anchor dual-layer (HDR and SDR)

 

Ⅴ. 결 론

본 논문에서는 HDR 영상을 효과적으로 부호화하기 위하여, 기존의 SDR 코덱 및 디스플레이 장치에 대한 하위 호환성을 지원하는 HDR/SDR 영상의 다중 계층 부호화 방법을 제안하였다. 제안하는 방법은 SDR 복원 픽쳐에 전역 역 톤 매핑을 적용하여 계층 간 참조 픽쳐 중 일부로 사용함으로써 향상 계층의 부호화 효율을 높이는 방법을 사용한다. 그 결과 SHM 7.0 대비 향상 계층에서 최대 76.3%의 BD- Rate 감소 효과를 얻을 수 있었으며, 기본 계층과 향상 계층 전체에서 평균 15.7%, 최대 31% BD-Rate 감소 효과를 얻을 수 있었다. 향후 다이나믹 레인지와 Color gamut을 함께 고려한 계층적 부호화 방법에 대한 연구를 진행할 예정이다.

References

  1. 심동규, 조현호, HEVC 표준 기술의 이해, 홍릉과학출판사, 2014. Donggyu Sim, Hyunho Jo, "Understanding of HEVC Standard Technology," Hongrung publishing, 2014.
  2. Yong-Jo Ahn, Tae-Jin Hwang, Dong-Gyu Sim and Woo-Jin Han, "Implementation of fast HEVC encoder based on SIMD and data-level parallelism," EURASIP Journal on Image and Video Processing 2014, 2014:16, Mar. 2014.
  3. 김경혜, 조현호, 심동규, 장영민, “Scalable HEVC 표준 기술 동향,” 한국통신학회지 (정보와 통신), 제30권, 제 9호, 49-57, 2013년 8월. Kyeong-Hye Kim, Hyunho Jo, Donggyu Sim, Youngmin Jang, "Trend of Scalable HEVC Standard technology," Information and Communications, vol. 30, no. 9, pp. 49-57, Aug. 2013.
  4. J. Chen, J. Boyce, Y. Ye, M. M. Hannuksela, G. J. Sullivan and Y. -K. Wang, "High efficiency video coding (HEVC) scalable extension Draft 6," Q-1008_v5, 17th JCT-VC meeting, Mar. 2014, Valencia.
  5. MovieLabs Specification for Next Generation Video: http://www. movielabs.com/ngvideo
  6. A. Luthra, E. Francois and W. Husak, "Call for Evidence (CfE) for HDR and WCG Video Coding," N-15083, February. 2015, Geneva.
  7. D. Baylon, Z. Gu, A. Luthra, K. Minoo, P. Yin, F. Pu, T. Lu, T. Chen, W. Husak, Y. He, L. Kerofsky, Y. Ye, B. Yi, "Response to Call for Evidence for HDR and WCG Video Coding: Arris, Dolby and InterDigital," M-36264, 112th MPEG meeting, June. 2015, Warsaw.
  8. S. Lasserre, F. Le Leannec, E. Francois, T. Poirier, "Technicolor's response to CfE for HDR and WCG (Category 1)," M-36263, 112th MPEG meeting, June. 2015, Warsaw.
  9. Rocco Goris, Robert Brondijk, Rene van der Vleuten, "Philips response to CfE for HDR and WCG," M-36266, 112th MPEG meeting, June. 2015, Warsaw.
  10. Jonathan Hatchett, Kurt Debattista, Joshua McNamee, Alan Chalmers, "goHDR10+: A Category 1 HDR video compression method," M-36261, 112th MPEG meeting, June. 2015, Warsaw.
  11. Jeongyun Lim, Woong Lim, Yong-jo Ahn, Seanea Park, Donggyu Sim, "Reporting: Coding efficiency of the scalable coding for HDR and SDR video using inverse tone mapping on SHVC," M-36463, 112th MPEG meeting June. 2015, Warsaw.
  12. Jacob Strom, Jonatan Samuelsson, Martin Pettersson, Kenneth Andersson, Per Wennersten, Rickard Sjorberg, "Ericsson's response to CfE for HDR and WCG," M-36184, 112th MPEG meeting, June. 2015, Warsaw.
  13. A. Cotton, T. Borer, M. Pindoria, S. Thompson, M. Naccari, S. Schwarz, M. Mark, "BBC's response to CfE for HDR Video Coding (Category 3a)," M-36249, 112th MPEG meeting, June. 2015, Warsaw.
  14. A.K Ramasubramonian, J. Sole, M. Karczewicz, S. Lee, D. Rusanovskyy, D. Bugdayci, X. Li, "Dual layer non-normative (category 3b) response to the Call for Evideonce on HDR/WCG," M-36280, 112th MPEG meeting, June. 2015, Warsaw.
  15. D. Rusanovskyy, S. Lee, D. Bugdayci, A. Ramsubramonian, J. Sole, M. Karczewicz, A.M. Tourapis, Y. Su, D. Singer, C. Fogg, A. Duenas, F. Bossen, "Single layer non-normative (category 3a)NCL and CL responses to the Call for Evidence on HDR/WCG," M-36256, 112th MPEG meeting, June. 2015, Warsaw.
  16. ITU-R BT.2246-2 (2012), "The present state of ultra-high definition television," http://www.itu.int/dms_pub/itu-r/opb/rep/R-REP-BT.2246-2-2012-PDF-E.pdf
  17. Ajay Luthra, Edouard Francois, Walt Husak, "Draft Requirements and Explorations for HDR and WCG Content Distribution," M-36436, 110th MPEG meeting, Oct. 2014, Strasbourg.
  18. Banterle, Francesco, et al. Advanced high dynamic range imaging: theory and practice. CRC Press, 2011.
  19. P.E. Devec and J. Malik, "Recovering high dynamic range radiance maps from photographs," Proc. ACM SIGGRAPH'97, pp. 369-378, 1997.
  20. T. Mitsunaga and S. K. Nayar, "High dynamic range imaging: Spatially varying pixel exposures," Proc. CVRP' 2000, vol. 1, pp. 472-479, 2000.
  21. S. Mann and R. W. Picard, "On being 'undigital' with digital cameras: extending dynamic range by combining differently exposed pictures," IS&T's 48th Annual Conference, Society for Imaging Science and Yechnology, Washington D. C., pp. 422-428, 1995.
  22. S.B. Kang, M. Uyttendale, S. Winder and R. Szeliski, "High dynamic range video," ACM Transactions on Graphics, vol.22, no. 3, pp. 319-325, July. 2003. https://doi.org/10.1145/882262.882270
  23. R. Mantiuk, G. Krawczyk, K. Myszkowski, and H-P Seidel, "Perception-motivated High Dynamic Range Video Encoding," Proc. of SIGGRAPH'2004, pp. 733-741, 2004.
  24. Larson, Gregory Ward. "LogLuv encoding for full-gamut, high-dynamic range images," Journal of Graphics Tools 3.1, pp. 15-31, 1998. https://doi.org/10.1080/10867651.1998.10487485
  25. Kainz, Florian, and Rod Bogart, "Technical introduction to OpenEXR," Industrial light and magic, Nov. 2009
  26. J. Tumbin, and H. Rushmeier, "Tone reproduction for realistic images," Computer Graphics and Application IEEE, 1993.
  27. E. Reinhard, M. Stark, P. Shirley, and J. Ferwerda, "Photographic tone reproduction for digital images," ACM Trans. Graph, pp. 267-276, 2002.
  28. R. Mantiuk, S. Daly and L. Kerofsky, "Display adaptive tone maping," ACM Transactions on Graphics, 27(3):1, 2008. https://doi.org/10.1145/1360612.1360667
  29. K. Chiu, M. Herf, P. Shirley, S. Swamy, K. Zimmerman, "Spatially nonuniform scaling functions for high contrast images," in Graphics Interface, pp. 245-245, 1993.
  30. S. N. Pattanaik, J. A. Ferwerda, M. D. Fairchild, and D. P. Greenberg, "A multiscale model of adaptation and spatial vision for realistic image display," In Proceedings of model of the 25th annual conference on Computer graphics and interactive techniques - SIGGRAPH' 98, pp. 287-298, 1998.
  31. Y. Li, L. Sharan, and H. E. Adelson, "Compressing and companding high dynamic range images with subband architectures," ACM Transactions on Graphics, 24(3):836, 2005. https://doi.org/10.1145/1073204.1073271
  32. Z. Farbman, R. Fattal, D. Lischinski, and R. Szeliski, "Edge-preserving decompositions for multi-scale tone and detail manipulation," In ACM SIGGRAPH 2008 papers on - SIGGRAPH'08, pp. 1, 2008.
  33. P. Ledda, A. Chalmers, T. Troscianko, and H. Seetzen, "Evaluation of tone mapping operators using a high dynamic range display," In ACM SIGGRAPH 2005 papers on - SIGGRAPH'05, pp. 640-648, 2005.
  34. Boitard, Ronan, et al. "Motion-guided quantization for video tone mapping," Multimedia and Expo (ICME), 2014 IEEE International Conference on. IEEE, 2014.
  35. Akyuz, Ahmet Oguz, et al, "Do HDR displays support LDR content?: a psychophysical evaluation," In ACM Transactions of Graphics (TOG), Vol. 26, p. 38, 2007.
  36. Banterle, Francesco, et al. "Inverse tone mapping," Processings of the 4th international conference on Computer graphics and interactive techniques in Australasia and Southeast Asia, ACM, pp. 349-356, 2006.
  37. S. Miller, M. Nezamabadi, and S. Daly, "Perceptual Signal Coding for More Efficient Usage of Bit Codes," SMPTE Motion Imaging Journal, vol. 122, no. 4, pp. 52-59, May-June 2013. https://doi.org/10.5594/j18290
  38. Society of Motion Picture and Television Engineers, FCD ST 2084 (2014), Electro-Optical Transfer Function for High Dynamic Range Reference Display.
  39. ITU-R Recommendation BT.709-5, "Parameter values for the HDTV standards for production and international programme exchange," 2002.
  40. ITU-R Recommendation BT.2020-1, "Parameter values for ultra-high definition television systems for production and international programme exchange," 2014.
  41. Boitard, Ronan, et al, "Survey of temporal brightness artifacts in video tone mapping," HDRi2014-Second International Conference and SME Workshop on HDR imaging. 2014.
  42. Vadim, Yong He, "Common SHM test conditions and software reference configurations," JCTVC-Q1009, Valencia, Es, 27 March - 4 April 2014.

Cited by

  1. High Dynamic Range Image Display Combining Weighted Least Squares Filtering with Color Appearance Model vol.21, pp.6, 2016, https://doi.org/10.5909/JBE.2016.21.6.920