• 제목/요약/키워드: video coding for machine

검색결과 28건 처리시간 0.026초

기계를 위한 비디오 부호화 표준화 동향 (Standardization Trends in Video Coding for Machines)

  • 권형진;정세윤;최진수;이태진;서정일
    • 전자통신동향분석
    • /
    • 제35권5호
    • /
    • pp.102-111
    • /
    • 2020
  • An increase in high-quality video service continually leads to the standardization of high-performance video codecs such as the versatile video coding standard. Although such codecs have improved coding efficiency in terms of high fidelity, a tremendous increase in the amount of video data is required for more efficient compression, especially for efficiently recognizing and analyzing the target within the millions of objects/events captured every day, such as those by surveillance systems. Therefore, newly established MPEG standardization efforts have studied the new generation of video compression standards for machine vision-oriented video. This paper presents the standardization trends in video coding for machines and discusses further directions for improvement.

Fast Algorithm for Intra Prediction of HEVC Using Adaptive Decision Trees

  • Zheng, Xing;Zhao, Yao;Bai, Huihui;Lin, Chunyu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권7호
    • /
    • pp.3286-3300
    • /
    • 2016
  • High Efficiency Video Coding (HEVC) Standard, as the latest coding standard, introduces satisfying compression structures with respect to its predecessor Advanced Video Coding (H.264/AVC). The new coding standard can offer improved encoding performance compared with H.264/AVC. However, it also leads to enormous computational complexity that makes it considerably difficult to be implemented in real time application. In this paper, based on machine learning, a fast partitioning method is proposed, which can search for the best splitting structures for Intra-Prediction. In view of the video texture characteristics, we choose the entropy of Gray-Scale Difference Statistics (GDS) and the minimum of Sum of Absolute Transformed Difference (SATD) as two important features, which can make a balance between the computation complexity and classification performance. According to the selected features, adaptive decision trees can be built for the Coding Units (CU) with different size by offline training. Furthermore, by this way, the partition of CUs can be resolved as a binary classification problem. Experimental results have shown that the proposed algorithm can save over 34% encoding time on average, with a negligible Bjontegaard Delta (BD)-rate increase.

인공지능 기반 멀티태스크를 위한 비디오 코덱의 성능평가 방법 (Evaluation of Video Codec AI-based Multiple tasks)

  • 김신;이예지;윤경로;추현곤;임한신;서정일
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.273-282
    • /
    • 2022
  • MPEG 내 VCM 그룹은 머신을 위한 비디오 코덱을 표준화하는 것으로 목표로 하고 있다. VCM 그룹은 객체 탐지, 객체 분할, 객체 추적 등 3가지의 머신비전 태스크를 포함한 데이터 세트와 데이터 세트 별 기준 데이터인 Anchor를 제공하고 있으며, 평가 템플릿을 이용하여 후보 기술군과 Anchor의 압축 대비 머신비전 성능을 비교할 수 있다. 하지만 성능 비교는 머신비전 태스크 별로 분리하여 수행되고 있으며, 다수의 머신비전 태스크에 대한 성능 평가를 수행할 수 있는 비트스트림을 생성할 수 있는 데이터는 별도로 제공하고 있지 않다. 본 논문에서는 인공 지능 기반 멀티 태스크를 위한 비디오 코덱의 성능 평가 방안에 대해 제안한다. 하나의 비트스트림의 크기 척도인 픽셀 당 비트수(BPP, Bits Per Pixel) 와 각 태스크의 정확도 결과인 Mean Average Precision(mAP)를 기반으로 산술 평균, 가중 평균, 조화 평균 등 총 3가지의 멀티 태스크 성능 평가 지표를 제안하며 mAP 결과를 기반으로 성능 결과를 비교하고자 한다. 멀티 태스크에서 태스크 별 mAP 결과 값의 범위의 차이가 있을 수 있으며 차이로 인해 생길 수 있는 성능 평가와 관련된 문제를 방지하고자 정규화한 mAP 기반 멀티 태스크 성능 결과를 산출하고 평가하고자 한다.

A Multi-category Task for Bitrate Interval Prediction with the Target Perceptual Quality

  • Yang, Zhenwei;Shen, Liquan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권12호
    • /
    • pp.4476-4491
    • /
    • 2021
  • Video service providers tend to face user network problems in the process of transmitting video streams. They strive to provide user with superior video quality in a limited bitrate environment. It is necessary to accurately determine the target bitrate range of the video under different quality requirements. Recently, several schemes have been proposed to meet this requirement. However, they do not take the impact of visual influence into account. In this paper, we propose a new multi-category model to accurately predict the target bitrate range with target visual quality by machine learning. Firstly, a dataset is constructed to generate multi-category models by machine learning. The quality score ladders and the corresponding bitrate-interval categories are defined in the dataset. Secondly, several types of spatial-temporal features related to VMAF evaluation metrics and visual factors are extracted and processed statistically for classification. Finally, bitrate prediction models trained on the dataset by RandomForest classifier can be used to accurately predict the target bitrate of the input videos with target video quality. The classification prediction accuracy of the model reaches 0.705 and the encoded video which is compressed by the bitrate predicted by the model can achieve the target perceptual quality.

물체탐색과 전경영상을 이용한 인공지능 멀티태스크 성능 비교 (Comparison of Artificial Intelligence Multitask Performance using Object Detection and Foreground Image)

  • 정민혁;김상균;이진영;추현곤;이희경;정원식
    • 방송공학회논문지
    • /
    • 제27권3호
    • /
    • pp.308-317
    • /
    • 2022
  • 딥러닝 기반 머신 비전 기술을 이용한 영상분석 과정에서 전송되고 저장되는 방대한 양의 동영상 데이터의 용량을 효율적으로 줄이기 위한 연구들이 진행 중이다. MPEG(Moving Picture Expert Group)은 VCM(Video Coding for Machine)이라는 표준화 프로젝트를 신설해 인간을 위한 동영상 부호화가 아닌 기계를 위한 동영상 부호화에 대한 연구를 진행 중이다. 그 중 한 번의 영상 입력으로 여러가지 태스크를 수행하는 멀티태스크에 대한 연구를 진행하고 있다. 본 논문에서는 효율적인 멀티태스크를 위한 파이프라인을 제안한다. 제안하는 파이프라인은 물체탐지를 선행해야 하는 각 태스크들의 물체탐지를 모두 수행하지 않고 한번만 선행하여 그 결과를 각 태스크의 입력으로 사용한다. 제안하는 멀티태스크 파이프라인의 효율성을 알아보기 위해 입력영상의 압축효율, 수행시간, 그리고 결과 정확도에 대한 비교 실험을 수행한다. 실험 결과 입력 영상의 용량이 97.5% 이상 감소한데 반해 결과 정확도는 소폭 감소하여 멀티태스크에 대한 효율적인 수행 가능성을 확인할 수 있었다.

회전 포레스트 분류기법을 이용한 HEVC 스크린 콘텐츠 화면 내 부호화 조기분할 결정 방법 (Fast Partition Decision Using Rotation Forest for Intra-Frame Coding in HEVC Screen Content Coding Extension)

  • 허정환;정제창
    • 방송공학회논문지
    • /
    • 제23권1호
    • /
    • pp.115-125
    • /
    • 2018
  • 본 논문에서는 머신러닝을 기반으로 한 조기분할 결정 방법을 통하여 High Efficiency Video Coding (HEVC) Screen Content Coding (SCC) 부호화 기기의 속도를 향상시키는 방법을 제안한다. 현재 HEVC에서는 최적의 부호화 효율을 내기 위해 쿼드트리 블록 분할 과정을 수행한다. 이 과정은 부호화기의 높은 계산 복잡도를 요구하기 때문에 블록 구조를 조기에 결정하여 부호화 속도를 향상시키는 방법으로 고속화 연구가 이루어져 왔다. 하지만 스크린 콘텐츠 부호화는 기존의 자연영상에 맞춰진 부호화 과정과 다른 블록 분할 특성을 보이기 때문에 기존의 조기분할 결정 연구를 적용하기 어렵다. 제안하는 방법은 먼저 스크린 콘텐츠 블록을 분류해 낸 다음 다시 블록분할을 결정하는 방법으로 문제를 해결하였고 SCC 공통 실험 조건에서 3.11%의 BD-BR 증가와 평균 42%의 부호화 시간 감소를 보였다.

부호화 패턴 분석을 이용한 동영상 삭제 검출 기법 (Detection of Frame Deletion Using Coding Pattern Analysis)

  • 홍진형;양윤모;오병태
    • 방송공학회논문지
    • /
    • 제22권6호
    • /
    • pp.734-743
    • /
    • 2017
  • 본 논문에서는 동영상의 압축 정보를 이용하여 동영상 조작 시 발생하는 특징 패턴을 분석하여 동영상의 삭제 여부를 검출하는 기법에 대해 소개한다. 제안 방식에서는 최근 표준 코덱으로 개발되어 향후 널리 사용될 것으로 예상되는 HEVC 코덱을 이용한다. 우선 조작된 동영상과 그렇지 않은 동영상의 HEVC 부호화 패턴 중 분류하기가 용이한 여러 패턴들을 분석하여 특징벡터로 선정하고, 선정된 특징벡터를 기계학습을 통해 학습하여 두 그룹 간의 분류 기준을 모델링하여 동영상에 대한 삭제 여부를 판단한다. 실험 결과, 제안한 방식이 이전의 연구 결과에 비해 HEVC 코덱 환경에서 더욱 효과적으로 삭제 여부를 판단함을 확인하였다.

VCM 을 위한 비디오 특징의 효율적인 표현 기법 (Efficient representation of video features for VCM)

  • 윤용욱;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 추계학술대회
    • /
    • pp.183-186
    • /
    • 2020
  • 방대한 비디오 데이터의 지능형 분석을 수행하는 기계를 위한 비디오 부호화 기술의 필요성이 대두되면서 MPEG 에서는 VCM(Video Coding for Machine) 표준화를 시작하였다. VCM 은 지능형 머신(machine)의 임무 수행을 위한 비디오 또는 비디오 특징(feature)의 압축 표준 기술로 기술 탐색 단계의 표준화를 진행하고 있다. 본 논문에서는 머신비전(machine vision) 네트워크에서 추출되는 대용량의 특징 압축을 위한 전처리 단계로 보다 효과적인 특징 표현 방법을 제시한다. 제안하는 특징 표현 방법은 정규화, 양자화 과정을 거쳐 특징 데이터 크기를 감소시킨다. 실험에서 특징을 4 개의 값으로 양자화 했을 때, 원본 대비 16 배의 데이터 크기가 감소되지만 mAP 평가 성능은 35.4592 로 높은 수준으로 유지함을 확인하였다.

  • PDF

VCM 의 객체추적을 위한 다중스케일 특징 압축 기법 (A Method of Multi-Scale Feature Compression for Object Tracking in VCM)

  • 윤용욱;한규웅;김동하;김재곤
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 추계학술대회
    • /
    • pp.10-13
    • /
    • 2022
  • 최근 인공지능 기술을 바탕으로 지능형 분석을 수행하는 기계를 위한 비디오 부호화 기술의 필요성이 요구되면서, MPEG 에서는 VCM(Video Coding for Machines) 표준화를 시작하였다. VCM 에서는 기계를 위한 비디오/이미지 압축 또는 비디오/이미지 특징 압축을 위한 다양한 방법이 제시되고 있다. 본 논문에서는 객체추적(object tracking)을 위한 머신비전(machine vision) 네트워크에서 추출되는 다중스케일(multi-scale) 특징의 효율적인 압축 기법을 제시한다. 제안기법은 다중스케일 특징을 단일스케일(single-scale) 특징으로 차원을 축소하여 형성된 특징 시퀀스를 최신 비디오 코덱 표준인 VVC(Versatile Video Coding)를 사용하여 압축한다. 제안기법은 VCM 에서 제시하는 기준(anchor) 대비 89.65%의 BD-rate 부호화 성능향상을 보인다.

  • PDF

Multi-task 수행을 위한 압축 심층신경망 기반 VCM (VCM based on Compression Neural Network for Multi-task)

  • 이해림;이주영;조승현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.43-46
    • /
    • 2021
  • 최근 기계 임무수행에 사용되는 데이터양이 증가함에 따라 기계를 위한 효율적인 영상 압축방식의 필요성이 높아졌다. 기존의 비디오 코덱은 HVS (Human Visual System) 특성을 고려한 기술이기 때문에 부호화 과정에서 기계 임무수행에 필요하지 않은 정보를 효과적으로 제거할 수 없다. 반면 심층신경망 기반 압축네트워크의 경우, 원본 영상으로부터 기계 임무수행에 필수적인 데이터만을 추출하여 부호화 하도록 학습할 수 있는 장점이 있다. 본 논문에서는 압축 심층신경망과 기계 임무수행 네트워크로 구성되는 VCM (Video Coding for Machine) 프레임워크를 제안하고 학습에 의한 압축효율 향상을 검증한다. 이를 위해 압축 심층신경망을 객체탐지 임무수행 네트워크와 함께 학습시킨 결과, VVC (Versatile Video Coding) 대비 평균 61.16%의 BD-rate 감소가 확인되었다. 뿐만 아니라, 학습된 압축 심층신경망은 객체분할 임무수행에서도 VVC 대비 평균 58.43%의 BD-rate 감소를 보여 다중 기계 임무의 효율적 수행이 가능함을 확인할 수 있었다.

  • PDF