DOI QR코드

DOI QR Code

MSSSIM 및 쿨백-라이블러 발산 기반 의사 율-왜곡 평가 함수와 복수개의 영상처리 필터를 이용한 동영상 전처리 방법

Image Processing of Pseudo-rate-distortion Function Based on MSSSIM and KL-Divergence, Using Multiple Video Processing Filters for Video Compression

  • 석진욱 (한국전자통신연구원 방송.미디어연구소 미디어연구본부 실감AV연구그룹) ;
  • 조승현 (한국전자통신연구원 방송.미디어연구소 미디어연구본부 실감AV연구그룹) ;
  • 김휘용 (한국전자통신연구원 방송.미디어연구소 미디어연구본부 실감AV연구그룹) ;
  • 최진수 (한국전자통신연구원 방송.미디어연구소 미디어연구본부 실감AV연구그룹)
  • Seok, Jinwuk (Realistic AV Research Group Media Research Division Broadcasting.Media Research Laboratory Electronics and Telecommunications Research Institute) ;
  • Cho, Seunghyun (Realistic AV Research Group Media Research Division Broadcasting.Media Research Laboratory Electronics and Telecommunications Research Institute) ;
  • Kim, Hui Yong (Realistic AV Research Group Media Research Division Broadcasting.Media Research Laboratory Electronics and Telecommunications Research Institute) ;
  • Choi, Jin Soo (Realistic AV Research Group Media Research Division Broadcasting.Media Research Laboratory Electronics and Telecommunications Research Institute)
  • 투고 : 2018.09.07
  • 심사 : 2018.11.08
  • 발행 : 2018.11.30

초록

본 논문에서는 동영상 화질을 최대한 유지하면서 압축 비트량 절감을 효율적으로 이루기 위해 복수개의 영상처리 필터를 영상의 블록에 따라 선택적으로 적용하고, 영상처리 필터의 선택을 위한 MSSSIM(Multi-Scale Structural SIMilarity) 및 쿨백-라이블러 발산(Kullback-Leibler divergence: KL-Divergence) 기반의 영상 처리 평가 함수를 제안한다. 영상압축의 경우, 영상 내 특징에 따라 화질과 비트량 절감의 특성이 다르며, 이에 따라 단일 목적을 가진 영상처리 필터로서는 화질을 유지하면서, 비트량 절감이라는 목적을 동시에 만족 시키기 어렵다. 이에 따라, 주관적 화질을 최대한 유지하면서, 비트량을 절감시키기 위해 주관적 화질 측도로서 MSSSIM를 사용하고 비트 량 측도를 위하여 쿨백-라이블러 발산을 사용함과 동시에 두 가지 척도를 하나의 척도로 결합시키기 위한 방법을 제안한다. 아울러 제안한 측도를 사용하여 서로 다른 특성을 가진 영상처리 필터를 전처리 필터로 사용할 경우, 주관적 화질을 최대한 유지하면서 비트량 절감을 유지할 수 있도록 동영상 압축이 가능함을 확인할 수 있었다.

In this paper, we propose a novel video quality function for video processing based on MSSSIM to select an appropriate video processing filter and to accommodate multiple processing filters to each pixel block in a picture frame by a mathematical selection law so as to maintain video quality and to reduce the bitrate of compressed video. In viewpoint of video compression, since the properties of video quality and bitrate is different for each picture of video frames and for each areas in the same frame, it is difficult for the video filter with single property to satisfy the object of increasing video quality and decreasing bitrate. Consequently, to maintain the subjective video quality in spite of decreasing bitrate, we propose the methodology about the MSSSIM as the measure of subjective video quality, the KL-Divergence as the measure of bitrate, and the combination method of those two measurements. Moreover, using the proposed combinatorial measurement, when we use the multiple image filters with mutually different properties as a pre-processing filter for video, we can verify that it is possible to compress video with maintaining the video quality under decreasing the bitrate, as possible.

키워드

BSGHC3_2018_v23n6_768_f0001.png 이미지

그림 1. 컨볼루셔널 신경망에 기반한 영상 처리용 심층 신경망 구조 Fig. 1. The structure of DNN for image processing based on 컨볼루셔널 neural network

BSGHC3_2018_v23n6_768_f0002.png 이미지

그림 2. 본 논문에서 제안한 방식. 적절한 율-왜곡 평가함수를 통해 여러 영상처리 결과 중 하나를 선택한다. Fig. 2. The proposed structure in this paper. By an appropriate rate-distortion function, select the output from plural outputs of image processing filters

BSGHC3_2018_v23n6_768_f0003.png 이미지

그림 3. 영상처리 필터 1번(sb_vdn1_up)이 선택되는 경우의 제안한 의사 율-왜곡 함수의 특성 Fig. 3. The characteristics of the proposed pseudo rate-distortion function when the image processing filter No.1 (sb_vdn1_up) is selected

BSGHC3_2018_v23n6_768_f0004.png 이미지

그림 4. 영상처리 필터 2번(as_vdn2)이 선택되는 경우의 제안한 의사 율-왜곡 함수의 특성 Fig. 4. The characteristics of the proposed pseudo rate-distortion function when the image processing filter No.2 (as_vdn2) is selected

BSGHC3_2018_v23n6_768_f0005.png 이미지

그림 5. 영상처리 필터 3번(as_vdn1)이 선택되는 경우의 제안한 의사 율-왜곡 함수의 특성 Fig. 5. The characteristics of the proposed pseudo rate-distortion function when the image processing filter No.3 (as_vdn1) is selected

BSGHC3_2018_v23n6_768_f0006.png 이미지

그림 6. 실험에 사용된 제안한 영상처리 알고리즘의 구조 Fig. 6. The structure of the proposed algorithm employed in the experiments

BSGHC3_2018_v23n6_768_f0007.png 이미지

그림 7. 기준 최대 신호 대 잡음비의 변화에 따른 선택 필터의 변화, 남색은 sb_vdn1_up, 브라운색은 as_vdn2, 핑크색은 as_vdn1, 무색은 원본 영상 의미. 좌상의 경우 기준 최대 신호 대 잡음비 40, 우상은 44, 좌하는 48, 우하는 52. Fig. 7. The validity characteristics of selecting filters. Indigo blue represents that the filter sb_vdn1_up is applied to the block, brown color means the filter as_vdn2, pink means the filter as_vdn1, and none color means that the block is the part of original image. For the standard PNSR, it is 40 at the left upper, 44 at the right upper, 48 at the left below, and 52 at the right below

BSGHC3_2018_v23n6_768_f0008.png 이미지

그림 8. Cactus video에 적용했을 때의 경우. 기준 최대 신호 대 잡음비는 좌상 36, 우상 40, 좌하 44, 우하 48 Fig. 8. The same property in the Cactus video set. The standard PSNR is 36 at the left upper, 40 at the right upper, 44 at the left below, and 48 at the right below

표 1. 실험에 사용한 영상처리 필터의 종류와 특성 Table 1. Varieties and characteristics of image processing filters in the experiments

BSGHC3_2018_v23n6_768_t0001.png 이미지

표 3. 실험에 사용한 영상처리 필터의 종류와 특성 Table 3. Varieties and characteristics of image processing filters in the experiments

BSGHC3_2018_v23n6_768_t0002.png 이미지

표 2. 제안한 알고리즘의 성능 검증을 위해 사용된 HEVC 표준 테스트 영상의 상세 정보 Table 2. Detailed information of the standard HEVC test videos used to verify the performance of the proposed algorithm

BSGHC3_2018_v23n6_768_t0003.png 이미지

표 4. 실험결과 Table 4. Result of experiments

BSGHC3_2018_v23n6_768_t0004.png 이미지

참고문헌

  1. T. Dumas, A. Roumy, C. Guillemot "Image compression with stochastic winner-take-all auto-encoder". Proceeding of International Conference Acoustic, Speech and Signal Processing, New Orleans, USA, pp. 1512-1516
  2. K. Gregor, Y. LeCun "Learning representations by maximizing compression". arXiv:1108.1169, Aug. 2011
  3. C. Chou, 1995 , A Perceptually Tuned Subband Image Coder Based on the Measure of Just-Noticeable-Distortion Profile , IEEE Transactions on Circuits and Systems for Video Tech, vol. 5, Issue 6, pp.467-476, Dec. 1995. https://doi.org/10.1109/76.475889
  4. Wang, Z. Simoncelli, E.P. Bovik, A.C. "Multiscale structural similarity for image quality assessment". Conference Record of the Thirty- Seventh Asilomar Conference on Signals, Systems and Computers, Vol. 2, pp. 1398-1402, Feb. 2004. doi:10.1109/ACSSC.2003. 1292216.
  5. F. Bossen, "Common test conditions and software reference configurations," The 8th JCT-VC meeting, JCT-VC H1100, San Jose, CA, Jan. 2012.
  6. Y. Dai, D. Liu, and F. Wu, "A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding," Proceeding of the 23rd International Conference on Multimedia Modeling, Reykjavik, Iceland, pp.28-39, Jan. 2017.16
  7. T. Wang, M. Chen, and H. Chao, "A Novel Deep Learning-Based Method of Improving Coding Efficiency from the Decoder-end for HEVC," Proceeding of Data Compression Conference, Snowbird, USA pp.410-419, April 2017.
  8. Brian F. Doolin, Clyde F. Martin, Introduction to Differential Geometry for Engineers, New york, pp. 115-139, 1990.