• Title/Summary/Keyword: Encoder-decoder

검색결과 453건 처리시간 0.029초

신경망 기반 비디오 압축을 위한 레이턴트 정보의 방향 이동 및 보상 (Latent Shifting and Compensation for Learned Video Compression)

  • 김영웅;김동현;정세윤;최진수;김휘용
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.31-43
    • /
    • 2022
  • 전통적인 비디오 압축은 움직임 예측, 잔차 신호 변환 및 양자화를 통한 하이브리드 압축 방식을 기반으로 지금까지 발전해왔다. 최근 인공 신경망을 통한 기술이 빠르게 발전함에 따라, 인공 신경망 기반의 이미지 압축, 비디오 압축 연구 또한 빠르게 진행되고 있으며, 전통적인 비디오 압축 코덱의 성능과 비교해 높은 경쟁력을 보여주고 있다. 본 논문에서는 이러한 인공 신경망 기반 비디오 압축 모델의 성능을 향상시킬 수 있는 새로운 방법을 제시한다. 기본적으로는 기존 인공 신경망 기반 비디오 압축 모델들이 채택하고 있는 변환 및 복원 신경망과 엔트로피 모델(Entropy model)을 이용한 율-왜곡 최적화(Rate-distortion optimization) 방법을 사용하며, 인코더 측에서 디코더 측으로 압축된 레이턴트 정보(Latent information)를 전송할 때 엔트로피 모델이 추정하기 어려운 정보의 값을 이동시켜 전송할 비트량을 감소시키고, 손실된 정보를 추가로 전송함으로써 손실된 정보에 대한 왜곡을 보정한다. 이러한 방법을 통해 기존의 인공 신경망 기반 비디오 압축 기술인 MFVC(Motion Free Video Compression) 방법을 개선하였으며, 실험 결과를 통해 H.264를 기준으로 계산한 BDBR (Bjøntegaard Delta-Bitrate) 수치(%)로 MFVC(-14%) 보다 두 배 가까운 비트량 감축(-27%)이 가능함을 입증하였다. 제안된 방법은 MFVC 뿐 아니라, 레이턴트 정보와 엔트로피 모델을 사용하는 신경망 기반 이미지 또는 비디오 압축 기술에 광범위하게 적용할 수 있다는 장점이 있다.

이종망 연동형 3D 비디오 방송시스템 설계 및 구현 (Design and Implementation of Hybrid Network Associated 3D Video Broadcasting System)

  • 윤국진;정원식;이진영;김규헌
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.687-698
    • /
    • 2014
  • ATSC는 방송망 기반의 서비스호환 3DTV 방송서비스 표준완료 이후 최근 이종망 환경에서 하이브리드 3DTV 방송서비스에 대한 표준화를 진행 중에 있다. 본 논문에서는 기존의 디지털방송 화질열화 없이 Full HD 3D 화질을 보장하기 위한 방송망 및 IP망 연동형 3D 비디오 방송방식을 제안한다. 특히, 본 논문에서는 ISO/IEC 23009-1 DASH를 활용한 3D 부가영상 전송, 이종망 환경 하에서 안정적인 3D 비디오 동기화 및 하이브리드 3DTV 수신기 개발을 위한 시스템 타겟 디코더 모델을 기술한다. 실험결과, 제안된 기술은 하이브리드 3DTV 방송 표준화에 직접적으로 적용될 수 있으며 안정적인 하이브리드 3DTV 인코더 및 수신기 개발을 위한 참조 모델로 활용될 수 있음을 확인하였다.

고속 영상 검지기 시스템 개발에 관한 연구 (A Study On Development of Fast Image Detector System)

  • 김병철;하동문;김용득
    • 전자공학회논문지SC
    • /
    • 제41권1호
    • /
    • pp.25-32
    • /
    • 2004
  • 교통 분야에서도 역시 영상을 이용한 시스템의 개발이 주요 이슈가 되고 있다. 이는 영상을 이용한 시스템의 경우 설치비용이 기존 시스템들에 비해 엄청나게 저렴하다는 것과 설치하는 기간 중에도 교통의 흐름을 거의 방해하지 않고 설치가 가능하다는 장점을 가지고 있기 때문이다. 본 연구에서는 임베디드 시스템 환경에서 영상 검지기 시스템의 구현을 제안하였다. 전체 시스템은 호스트 컨트롤러 보드부분과 영상처리 보드 부분으로 나뉜다. 호스트 컨트롤러 보드 부분은 전체 시스템의 제어와 외부와의 인터페이스, 그리고 OSD(On Screen Display) 부분을 담당하게 된다. 영상처리 보드 부분은 알고리즘의 적용, 마우스 신호의 베어를 담당하고 있다 그리고 안정적인 호스트 컨트롤러의 보드의 운영을 위해 uC/OS-II 를 호스트 컨트롤러 보드에 포팅하였다.

Fine-scalable SPIHT Hardware Design for Frame Memory Compression in Video Codec

  • Kim, Sunwoong;Jang, Ji Hun;Lee, Hyuk-Jae;Rhee, Chae Eun
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제17권3호
    • /
    • pp.446-457
    • /
    • 2017
  • In order to reduce the size of frame memory or bus bandwidth, frame memory compression (FMC) recompresses reconstructed or reference frames of video codecs. This paper proposes a novel FMC design based on discrete wavelet transform (DWT) - set partitioning in hierarchical trees (SPIHT), which supports fine-scalable throughput and is area-efficient. In the proposed design, multi-cores with small block sizes are used in parallel instead of a single core with a large block size. In addition, an appropriate pipelining schedule is proposed. Compared to the previous design, the proposed design achieves the processing speed which is closer to the target system speed, and therefore it is more efficient in hardware utilization. In addition, a scheme in which two passes of SPIHT are merged into one pass called merged refinement pass (MRP) is proposed. As the number of shifters decreases and the bit-width of remained shifters is reduced, the size of SPIHT hardware significantly decreases. The proposed FMC encoder and decoder designs achieve the throughputs of 4,448 and 4,000 Mpixels/s, respectively, and their gate counts are 76.5K and 107.8K. When the proposed design is applied to high efficiency video codec (HEVC), it achieves 1.96% lower average BDBR and 0.05 dB higher average BDPSNR than the previous FMC design.

Distributed Matching Algorithms for Spectrum Access: A Comparative Study and Further Enhancements

  • Ali, Bakhtiar;Zamir, Nida;Ng, Soon Xin;Butt, Muhammad Fasih Uddin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권4호
    • /
    • pp.1594-1617
    • /
    • 2018
  • In this paper, we consider a spectrum access scenario which consists of two groups of users, namely Primary Users (PUs) and Secondary Users (SUs) in Cooperative Cognitive Radio Networks (CCRNs). SUs cooperatively relay PUs messages based on Amplify-and-Forward (AF) and Decode-and-Forward (DF) cooperative techniques, in exchange for accessing some of the spectrum for their secondary communications. From the literatures, we found that the Conventional Distributed Algorithm (CDA) and Pragmatic Distributed Algorithm (PDA) aim to maximize the PU sum-rate resulting in a lower sum-rate for the SU. In this contribution, we have investigated a suit of distributed matching algorithms. More specifically, we investigated SU-based CDA (CDA-SU) and SU-based PDA (PDA-SU) that maximize the SU sum-rate. We have also proposed the All User-based PDA (PDA-ALL), for maximizing the sum-rates of both PU and SU groups. A comparative study of CDA, PDA, CDA-SU, PDA-SU and PDA-ALL is conducted, and the strength of each scheme is highlighted. Different schemes may be suitable for different applications. All schemes are investigated under the idealistic scenario involving perfect coding and perfect modulation, as well as under practical scenario involving actual coding and actual modulation. Explicitly, our practical scenario considers the adaptive coded modulation based DF schemes for transmission flexibility and efficiency. More specifically, we have considered the Self-Concatenated Convolutional Code (SECCC), which exhibits low complexity, since it invokes only a single encoder and a single decoder. Furthermore, puncturing has been employed for enhancing the bandwidth efficiency of SECCC. As another enhancement, physical layer security has been applied to our system by introducing a unique Advanced Encryption Standard (AES) based puncturing to our SECCC scheme.

Motion JPEG2000을 위한 실시간 비디오 압축 프로세서의 하드웨어 구조 및 설계 (Hardware Architecture and its Design of Real-Time Video Compression Processor for Motion JPEG2000)

  • 서영호;김동욱
    • 대한전기학회논문지:시스템및제어부문D
    • /
    • 제53권1호
    • /
    • pp.1-9
    • /
    • 2004
  • In this paper, we proposed a hardware(H/W) structure which can compress and recontruct the input image in real time operation and implemented it into a FPGA platform using VHDL(VHSIC Hardware Description Language). All the image processing element to process both compression and reconstruction in a FPGA were considered each of them was mapped into a H/W with the efficient structure for FPGA. We used the DWT(discrete wavelet transform) which transforms the data from spatial domain to the frequency domain, because use considered the motion JPEG2000 as the application. The implemented H/W is separated to both the data path part and the control part. The data path part consisted of the image processing blocks and the data processing blocks. The image processing blocks consisted of the DWT Kernel for the filtering by DWT, Quantizer/Huffman Encoder, Inverse Adder/Buffer for adding the low frequency coefficient to the high frequency one in the inverse DWT operation, and Huffman Decoder. Also there existed the interface blocks for communicating with the external application environments and the timing blocks for buffering between the internal blocks. The global operations of the designed H/W are the image compression and the reconstruction, and it is operated by the unit or a field synchronized with the A/D converter. The implemented H/W used the 54%(12943) LAB(Logic Array Block) and 9%(28352) ESB(Embedded System Block) in the APEX20KC EP20K600CB652-7 FPGA chip of ALTERA, and stably operated in the 70MHz clock frequency. So we verified the real time operation. that is. processing 60 fields/sec(30 frames/sec).

VoIP를 위한 Session Description Protocol 스택에 관한 연구 (A Study on the Session Description Protocol Stack for VoIP)

  • 정성옥;고광만
    • 대한전자공학회논문지TC
    • /
    • 제38권3호
    • /
    • pp.19-27
    • /
    • 2001
  • 현재 국내.외적으로 VoIP 관련 시장의 지속적인 성장으로 인해 VoIP 표준 프로토콜에 대한 국제 표준화 작업과 병행하여 프로토콜 스텍과 같은 소프트웨어 개발이 절실한 상황이다. 본 논문에서는 IETF RFC2327에서 제시한 SDP 문법을 기반으로 문법 지식적 변환 기법으로 SDP 요청 메시지를 구조체 형태로 변환하는 앤코더와 구조체 형태를 갖는 SDP 응답 메시지를 텍스트 형태로 변환하는 디코더를 구현하였다. 이를 위해 IETF RFC2327에 제시한 Augmented BNF 형식의 SDP 문법을 BNF 형식으로 기술하여 어휘 분석기 및 구문 분석기를 자동 생성한 후 구문 트리를 구성하였다. 또한 SDP 문법으로부터 생성 가능한 모든 규칙에 대한 정보를 저장할 수 있는 구조체 형태의 헤더 파일을 자동 생성하였다.

  • PDF

스케일러블 비디오 코딩에서의 실시간 스케일러빌리티 변환 (Dynamic Full-Scalability-Conversion in SVC)

  • 이동수;배태면;노용만
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.60-70
    • /
    • 2006
  • 유비쿼터스 환경에서의 비디오 적응 변환을 위하여 현재 MPEG-4 AVC/SE SVC에서는 공간적, 시간적, 품질적 스케일러빌리티를 지원하고 있다. 이러한 스케일러빌리티의 변환은 가변적인 대역폭을 가지는 네트워크 특성에 따라 실시간으로 이루어져야 한다. 그러나 현재의 SVC에서는 품질적 스케일러빌리티에 대해서는 실시간으로 스케일러빌리티를 변환할 수 잇지만 공간적, 시간적 스케일러빌리티에 대해서는 이를 제대로 지원할 수 없다. 이에 본 논문에서는 이와 관련된 문제점들을 자세히 알아보고 이를 해결하기 위한 방법을 제안한다. 부호시에는 주기적으로 IDR NAL을 삽입하였다. 추출시에는 실시간 추출에 필요한 정보들을 미리 분석한 후 실제 추출시에 활용하여 실시간 추출을 가능하도록 하였다. 마지막으로 복호시에는 실시간 스케일러빌리티를 지원할 수 있는 프로세스를 정의하였다. 이를 JSVM4.0에 구현하였고 주어진 네트워크 대역폭에 스케일러빌리티를 통하여 적응된 비트스트림의 비트레이트, PSNR, 스케일러빌리티를 측정하여 제안된 방법의 유효성을 검증하였다.

경계 방향성을 고려한 스테레오 동영상의 움직임-변이 동시추정 기법 (Edge-Directional Joint Disparity-Motion Estimation of Stereoscopic Sequences)

  • 김용태;서형갑;박창섭;이재호;손광훈
    • 방송공학회논문지
    • /
    • 제9권3호
    • /
    • pp.196-206
    • /
    • 2004
  • 본 논문에서는 스테레오 동영상 CODEC (Coder and decoder)을 위한 효율적인 변이와 움직임의 동시추정 기법을 제안한다. 동시 추정 기법은 좌우 움직임 벡터와 이전 시점의 변이 벡터를 이용해서 현재 시점의 변이 벡터를 예측한다. 하지만 동시추정 기법은 추정 오류가 축적되고 가려진 영역으로 인해 벡터들이 잘못 추정될 경우 성능이 매우 떨어질 수가 있다. 이런 문제점을 해결하기 위해서 동시추정 기법과 별도로 공간적인 변이 벡터의 예측을 수행한다. 즉, 동시 추정과 공간적인 변이 벡터의 예측을 통해서 정확한 변이 벡터들을 구해내어 전체 부호화 효율을 높일 수 있다. 마지막으로 본 논문에서는 역방향 사진트리 분할 기법을 제안한다. 역방향 사진트리 분할 기법은 사진트리 분할 정보를 보내지 않고도 상세한 변이맵을 얻어낼 수 있기 때문에 변이 보상의 성능을 높일 수 있었다. 실험 결과를 통해서 제안 알고리듬이 기존 알고리듬과 비교하여 수행시간이 9배가량 감소하고 주관적 화질에서 좋은 결과를 보임을 확인하였고 객관적 화질 평가에서 0.5~1.5dB가량 PSNR이 높아짐을 확인하였다.

컨볼루션 인공신경망을 이용한 2차원 게임 이미지 색상 합성 시스템 (2D Game Image Color Synthesis System Using Convolutional Neural Network)

  • 홍승진;강신진;조성현
    • 한국게임학회 논문지
    • /
    • 제18권2호
    • /
    • pp.89-98
    • /
    • 2018
  • 최근의 인공 신경망(Neural Network) 기법은 전통적인 분류 문제와 군집화 문제 해결에서 벗어나 이미지 생성 같은 컨텐츠 생성에서도 좋은 성능을 보이고 있다. 본 연구에서는 차세대 컨텐츠 생성 기법으로 인공신경망을 이용한 이미지 생성기법을 제안한다. 제안하는 인공신경망 모델은 두개의 이미지를 입력받아서 하나의 이미지에서는 색상을, 다른 이미지에서는 모양을 가져와 새로운 이미지로 조합해낸다. 이 모델은 컨볼루션 인공신경망(Convolutional Neural Network)으로 제작되었으며 각각 이미지에서 색상과 모양을 추출해내는 두 개의 인코더와 각 인코더의 값을 모두 넘겨받아 하나의 조합이 되는 이미지를 생성해내는 하나의 디코더로 구성이 되어있다. 본 연구의 성과는 저비용으로 게임 개발 프로세스 상 다양한 2차원 이미지 생성 및 보정 작업에 활용될 수 있다.