Abstract
Recently, as the demand for immersive videos increases, efficient video processing techniques for omnidirectional immersive video is actively developed by MPEG-I. While the omnidirectional video provides a larger degree of freedom for a free viewpoint, the size of the video increases significantly. Furthermore, in order to compress 6 degree-of-freedom (6 DoF) videos that support motion parallax, it is required to develop a codec to yield better coding efficiency. In this paper, we develop a 6 DoF codec using Versatile Video Coding (VVC) as the next generation video coding standard. To the authors' best knowledge, this is the first VVC-based 6 DoF video codec toward the future ISO/IEC 23090 Part 7 (Metadata for Immersive Media (Video)) MPEG-I standardization. The experiments were conducted on the seven test video sequences specified in Common Test Condition (CTC) in two operation modes of TMIV (Test Model for Immersive Media) software. It is demonstrated that the proposed codec improves coding performance around 33.8% BD-rate reduction in the MIV (Metadata for Immersive Video) mode and 30.2% BD-rate reduction in the MIV view mode as compared to the state-of-the-art TMIV reference software. We also show the performance comparisons using Immersive Video PSNR (IV-PSNR) and Mean Structural Similarity (MSSIM).
최근 몰입형 비디오의 수요가 점차 늘어남에 따라 국제 표준 단체인 MPEG-I에서 전방위 몰입형 비디오의 처리 기술이 활발하게 개발 중이다. 전방위 몰입형 비디오는 사용자 시점의 자유도가 증가함에 따라 비디오 신호의 크기가 급격히 증가하여 효과적인 압축 기술이 필수적이다. 더욱이 사용자의 움직임에 따른 보다 자유로운 시점 변환을 지원하는 6 자유도 (6-Degree-of_Freedom, 6DoF) 비디오의 압축을 위해서는 보다 우수한 부호화 효율을 제공하는 코덱의 개발이 필요하다. 본 논문에서는 ISO/IEC 23090 Part 7 (Metadata for Immersive Media (Video))에서 진행 중인 몰입형 비디오의 압축 표준 프로젝트의 테스트 모델인 TMIV (Test Model for Immersive Video)에 기존 적용된 High Efficiency Video Coding (HEVC)를 최근 차세대 비디오 압축 표준 개발 중인 Versatile Video Coding (VVC)로 대체하여 성능 분석을 수행하고, VVC의 툴 분석으로부터 디블로킹 필터를 TMIV의 패치 아틀라스에 선택적으로 적용하는 것이 부호화 효율을 증대시킬 수 있음을 보인다. VVC 기반의 6 DoF 비디오 코덱의 성능 평가는 본 논문이 최초로 그에 따른 향후 6DoF지원 몰입형 비디오 표준 개발 방향을 제시한다. TMIV의 두 가지 작동 모드인 MIV (Metadata for Immersive Video) 모드와 MIV 시점 모드에서 공통 실험 조건에 명시된 일곱 가지 시퀀스에 대해 전체적으로 실험을 진행하였다. 기존 HEVC를 VVC로 대체함으로써 MIV 모드 방식에서 33.8%, MIV 시점 모드에서 30.2%의 Peak Signal-to-Noise Ratio (PSNR) 관점에서의 부호화 성능 향상을 제공하였다. 이외에도 3차원 비디오의 인지 화질 평가를 위하여 사용하는 평가 지표로 IV-PSNR (Immersive Video PSNR)와 MSSIM (Mean Structural Similarity)를 이용하여 성능을 평가하였다.