• 제목/요약/키워드: Versatile Video Coding (VVC)

검색결과 76건 처리시간 0.025초

신경망 기반의 적응적 움직임 벡터 해상도 판별 기법 (Neural Network-Based Adaptive Motion Vector Resolution Discrimination Technique)

  • 백한결;박상효
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.49-51
    • /
    • 2021
  • Versatile Video Coding(VVC)에서 동영상 압축 효율을 증가시키기 위한 다양한 화면 간 예측(inter prediction) 기법 중에 적응적 움직임 벡터 해상도(Adaptive motion vector resolution, 이하 AMVR) 기술이 채택되었다. 다만 AMVR을 위해서는 다양한 움직임 벡터 해상도를 테스트해야 하는 부호화 복잡도를 야기하였다. AMVR의 부호화 복잡도를 줄이기 위하여, 본 논문에서는 가벼운 신경망 모델 기반의 AMVR 조기 판별 기법을 제안한다. 이에 따라 불필요한 상황을 미리 조기에 인지하여 대응한다면 나머지 AMVR 과정을 생략할 수 있기에 부호화 복잡도의 향상을 볼 수 있다.

  • PDF

DST-4 와 DCT-4 를 위한 DST-3 기반 비디오 압축 변환 커널 유도 방법 (A DST-3 BASED TRANSFORM KERNEL DERIVATION METHOD FOR DST-4 and DCT-4 IN VIDEO CODING)

  • 산딥 쉬레스따;이범식
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.249-251
    • /
    • 2019
  • In the ongoing standardization of Versatile Video Coding (VVC), DCT-2, DST-7 and DCT-8 are designated as the vital primary transform kernels. Due to the effectiveness of DST-4 and DCT-4 in smaller resolution sequences, DST-4 and DCT-4 transform kernel can also be used as the replacement of the DST-7 and DCT-8 transform kernel respectively. While storing all of those transform kernels, ROM memory storage is considered as the major issue. So, to deal with this scenario, a unified DST-3 based transform kernel derivation method is proposed in this paper. The transform kernels used in this paper is DCT-2, DST-4 and DCT-4 transform kernels. The proposed ROM memory required to store the matrix elements is 1368 bytes each of 8-bit precision.

  • PDF

VCM 의 객체추적을 위한 다중스케일 특징 압축 기법 (A Method of Multi-Scale Feature Compression for Object Tracking in VCM)

  • 윤용욱;한규웅;김동하;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.10-13
    • /
    • 2022
  • 최근 인공지능 기술을 바탕으로 지능형 분석을 수행하는 기계를 위한 비디오 부호화 기술의 필요성이 요구되면서, MPEG 에서는 VCM(Video Coding for Machines) 표준화를 시작하였다. VCM 에서는 기계를 위한 비디오/이미지 압축 또는 비디오/이미지 특징 압축을 위한 다양한 방법이 제시되고 있다. 본 논문에서는 객체추적(object tracking)을 위한 머신비전(machine vision) 네트워크에서 추출되는 다중스케일(multi-scale) 특징의 효율적인 압축 기법을 제시한다. 제안기법은 다중스케일 특징을 단일스케일(single-scale) 특징으로 차원을 축소하여 형성된 특징 시퀀스를 최신 비디오 코덱 표준인 VVC(Versatile Video Coding)를 사용하여 압축한다. 제안기법은 VCM 에서 제시하는 기준(anchor) 대비 89.65%의 BD-rate 부호화 성능향상을 보인다.

  • PDF

비디오 코딩을 위한 선형성을 이용한 역변환 방법 (Inverse Transform Using Linearity for Video Coding)

  • 송현주;김명준;이영렬
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.37-40
    • /
    • 2021
  • 비디오 압축 시 변환(transform)은 예측을 통해 만들어진 공간 영역에서의 잔차신호를 주파수 영역으로 변환함으로써 낮은 주파수 대역으로 에너지를 이동시켜 비디오 압축에서 중요한 역할을 수행한다. VVC(Versatile Video Coding)에서는 DCT-II(Discrete Cosine Transform-II), DST-VII(Discrete Sine Transform-VII), DCTVIII(Discrete Cosine Transform-VIII)를 이용하여 잔차신호 변환을 수행한다. 본 논문에서는 DCT-II, DST-VII, DCT-VIII 가 모두 선형 변환(linear transform)이라는 점에서 착안하여 변환의 선형성을 이용하여 계산량을 감소시키는 역변환을 제안한다. 실험결과 변환 수행 시 약 12.7%의 시간이 감소되는 것을 확인하였다.

  • PDF

VVC 에서의 움직임 제한 타일 셋 기반 타일 추출기 구현 (Implementing Motion-constrained Tile Set Based Tile Extractor on VVC)

  • 정종범;이순빈;류일웅;김성빈;김인애;류은석
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.6-9
    • /
    • 2020
  • 최근 몰입형 가상 현실을 제공하기 위한 360 도 영상 전송 기술이 활발히 연구되고 있다. 그러나 현재 가상현실 기기가 가지는 연산 능력 및 대역폭으로는 고화질의 360 도 영상을 전송 및 재생하기에 한계가 있다. 해당 문제점을 극복하기 위해 본 논문에서는 사용자 시점의 고화질 360 도 영상 제공을 위해 사용자 시점 타일을 추출하는 움직임 제한 타일 셋 기반 타일 추출기를 구현한다. Versatile video coding (VVC) 기반 타일 인코더를 이용해 360 도 영상에 대한 비트스트림을 생성한 후, 사용자 시점에 해당하는 타일들을 선택한다. 이후 선택된 타일들은 제안하는 타일 추출기에 의해 추출되고 전송된다. 또한, 전체 360 도 영상에 대한 저화질 비트스트림을 전송하여 갑작스러운 사용자 시점 변경에 대응한다. 제안된 타일 추출기를 기반으로 360 도 영상 전송을 수행하면, 기존 VVC 기반 시스템 대비 대비 평균 24.81%의 bjontegaard delta rate (BD-rate) 감소가 가능함을 확인하였다.

  • PDF

주변 화소 정보를 추가로 고려한 CCLM 의 예측 성능 향상 방법 (Improved CCLM by Considering Neighboring Pixel Information)

  • 이지환;김범윤;전병우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.357-358
    • /
    • 2021
  • 본 논문에서는 VVC(Versatile Video Coding)의 색차 채널을 위한 화면 내 예측 모드 중 하나인 CCLM (Cross-Component Linear Model) 모드의 부호화 성능을 향상시킬 수 있는 방법을 제안하였다. 기존의 CCLM 모드는 예측과정에서 대응 휘도 영역의 화소로만 색차 블록의 예측자를 생성하기 때문에 현재 색차 블록과 그 주변의 참조 화소와의 연관성을 고려하지 않는 문제점이 있다. 본 논문에서는 참조 화소를 사용하는 예측 모드를 유도하여 예측자를 생성한 후 기존 CCLM 을 통해 생성된 예측자와 가중 결합하는 방법을 제안함으로써 문제점을 극복하고 부호화 성능의 향상을 가져오고자 한다. 실험 결과 제안 방법은 기존 VVC 방법 대비 BDBR 측면에서 Y(0.10%), Cb(-0.22%), Cr(-0.22%)의 결과를 얻을 수 있었다.

  • PDF

라이트필드 영상 압축을 위한 Affine 움직임 보상 분석 (Analysis of Affine Motion Compensation for Light Field Image Compression)

  • ;;;전병우
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.216-217
    • /
    • 2019
  • Light Field (LF) image can be understood as a set of images captured by a multi-view camera array at the same time. The changes among views can be modeled by a general motion model such as affine motion model. In this paper, we study the impact of affine coding tool of Versatile Video Coding (VVC) on LF image compression. Our experimental results show a small contribution by affine coding tool in overall LF image compression of roughly 0.2% - 0.4%.

  • PDF

Deep Learning Network를 이용한 Video Codec에서 휘도성분 노이즈 제거 (Luma Noise Reduction using Deep Learning Network in Video Codec)

  • 김양우;이영렬
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.272-273
    • /
    • 2019
  • VVC(Versatile Video Coding)는 YUV 입력 영상에 대하여 Luma 성분과 Chroma 성분에 대하여 각각 다른 최적의 방법으로 블록분할 후 해당 블록에 대해서 화면 내 예측 또는 화면 간 예측을 수행하고, 예측영상과 원본영상의 차이를 변환, 양자화하여 압축한다. 이 과정에서 복원영상에는 블록화 노이즈, 링잉 노이즈, 블러링 노이즈 발생한다. 본 논문에서는 인코더에서 원본영상과 복원영상의 잔차신호에 대한 MAE(Mean Absolute Error)를 추가정보로 전송하여 이 추가정보와 복원영상을 이용하여 Deep Learning 기반의 신경망 네트워크로 영상의 품질을 높이는 방법을 제안한다. 복원영상의 노이즈를 감소시키기 위하여 영상을 $32{\times}32$블록의 임의로 분할하고, DenseNet기반의 UNet 구조로 네트워크를 구성하였다.

  • PDF

360 비디오의 SSP 를 위한 기하학적 패딩 (Geometry Padding for Segmented Sphere Projection (SSP) in 360 Video)

  • 명상진;김현호;윤용욱;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.143-144
    • /
    • 2018
  • 360 비디오는 VR 응용의 확산과 함께 몰입형 미디어로 주목 받고 있으며, JVET(Joint Video Experts Team)에서 post-HEVC 로 진행중인 VVC(Versatile Video Coding)에 360 비디오 부호화도 함께 고려하고 있다. 360 비디오 부호화를 위하여 변환된 2D 영상은 투영 면(face) 간의 불연속성과 비활성 영역이 존재할 수 있으며 이는 부호화 효율을 저하시키는 원인이 된다. 본 논문에서는 SSP(Segmented Projection)에서의 이러한 불연속성과 비활성 영역을 줄이는 효율적인 기하학적 패딩(padding) 기법을 제시한다. 실험결과 제안 기법은 복사에 의한 패딩을 사용하는 기존 SSP 대비 주관적 화질이 향상된 것을 확인 할 수 있었다.

  • PDF

TU 블록 크기에 따른 CNN기반 인루프필터 (CNN-based In-loop Filter on TU Block)

  • 김양우;정세윤;조승현;이영렬
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 추계학술대회
    • /
    • pp.15-17
    • /
    • 2018
  • VVC(Versatile Video Coding)는 입력된 영상을 CTU(Coding Tree Unit) 단위로 분할하여 코딩하며, 이를 다시 QTBTT(Quadtree plus binary tree and triple tree)로 분할하고, TU(Transform Unit)도 이와 같은 단위로 분할된다. 따라서 TU의 크기는 $4{\times}4$, $4{\times}8$, $4{\times}16$, $4{\times}32$, $8{\times}4$, $16{\times}4$, $32{\times}4$, $8{\times}8$, $8{\times}16$, $8{\times}32$, $16{\times}8$, $32{\times}8$, $16{\times}16$, $16{\times}32$, $32{\times}16$, $32{\times}32$, $64{\times}64$의 17가지 종류가 있다. 기존의 VVC 참조 Software인 VTM에서는 디블록킹필터와 SAO(Sample Adaptive Offset)로 이루어진 인루프필터를 이용하여 에러를 복원하는데, 본 논문은 TU 크기에 따라서 원본블록과 복원블록의 차이(에러)가 통계적으로 다름을 이용하여 서로 다른 CNN(Convolution Neural Network)을 구축하고 에러를 복원하는 방법으로 VTM의 인루프 필터를 대체한다. 복원영상의 에러를 감소시키기 위하여 TU 블록크기에 따라 DenseNet의 Dense Block기반 CNN을 구성하고, Hyper Parameter와 복잡도의 감소를 위해 네트워크 간에 일부 가중치를 공유하는 모양의 Network를 구성하였다.

  • PDF