Abstract
In this paper, an intra prediction hardware architecture is proposed to reduce computational complexity of intra prediction in HEVC decoder. The architecture uses shared operation units and common operation units and adopts a fast smoothing decision algorithm and a fast algorithm to generate coefficients of a filter. The shared operation unit shares adders processing common equations to remove the computational redundancy. The unit computes an average value in DC mode for reducing the number of execution cycles in DC mode. In order to reduce operation units, the common operation unit uses one operation unit generating predicted pixels and filtered pixels in all prediction modes. In order to reduce processing time and operators, the decision algorithm uses only bit-comparators and the fast algorithm uses LUT instead of multiplication operators. The proposed architecture using four shared operation units and eight common operation units which can reduce execution cycles of intra prediction. The architecture is synthesized using TSMC 0.13um CMOS technology. The gate count and the maximum operating frequency are 40.5k and 164MHz, respectively. As the result of measuring the performance of the proposed architecture using the extracted data from HM 7.1, the execution cycle of the architecture is about 93.7% less than the previous design.
본 논문에서는 HEVC 복호기내 화면내 예측의 연산 복잡도를 감소시키기 위해 공유 연산기, 공통 연산기, 고속 smoothing 결정 알고리즘, 고속 필터계수 생성 알고리즘을 적용한 하드웨어 구조를 제안한다. 공유 연산기는 공통수식을 공유하여 smoothing 과정의 연산 중복성을 제거하고, DC모드의 평균값을 미리 계산하여 수행 사이클 수를 감소시킨다. 공통 연산기는 모든 예측모드의 예측픽셀 생성과 필터링 과정을 하나의 연산기로 처리하기 때문에 연산기의 개수를 감소시킨다. 고속 smoothing 결정 알고리즘은 비트 비교기만을 사용하고, 고속 필터계수 생성 알고리즘은 곱셈연산 대신 LUT를 사용하여 연산 개수, 하드웨어 면적과 처리 시간을 감소시킨다. 또한 제안하는 구조는 2개의 공유 연산기와 8개의 공통 연산기를 사용하여 병렬처리함으로써 화면내 예측의 수행 사이클 수를 감소시킨다. 제안하는 구조를 TSMC 0.13um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 40.5k, 최대 동작 주파수는 164MHz이다. HEVC 참조 소프트웨어 HM 7.1에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조 대비 93.7% 감소하였다.