4-way Search Window for Improving The Memory Bandwidth of High-performance 2D PE Architecture in H.264 Motion Estimation

H.264 움직임추정에서 고속 2D PE 아키텍처의 메모리대역폭 개선을 위한 4-방향 검색윈도우

  • Ko, Byung-Soo (Department of Computer Engineering, Kwangwoon University) ;
  • Kong, Jin-Hyeung (Department of Computer Engineering, Kwangwoon University)
  • 고병수 (광운대학교 컴퓨터공학과) ;
  • 공진홍 (광운대학교 컴퓨터공학과)
  • Published : 2009.06.25

Abstract

In this paper, a new 4-way search window is designed for the high-performance 2D PE architecture in H.264 Motion Estimation(ME) to improve the memory bandwidth. While existing 2D PE architectures reuse the overlapped data of adjacent search windows scanned in 1 or 3-way, the new window utilizes the overlapped data of adjacent search windows as well as adjacent multiple scanning (window) paths to enhance the reusage of retrieved search window data. In order to scan adjacent windows and multiple paths instead of single raster and zigzag scanning of adjacent windows, bidirectional row and column window scanning results in the 4-way(up. down, left, right) search window. The proposed 4-way search window could improve the reuse of overlapped window data to reduce the redundancy access factor by 3.1, though the 1/3-way search window redundantly requires $7.7{\sim}11$ times of data retrieval. Thus, the new 4-way search window scheme enhances the memory bandwidth by $70{\sim}58%$ compared with 1/3-way search window. The 2D PE architecture in H.264 ME for 4-way search window consists of $16{\times}16$ pe array. computing the absolute difference between current and reference frames, and $5{\times}16$ reusage array, storing the overlapped data of adjacent search windows and multiple scanning paths. The reference data could be loaded upward and downward into the new 2D PE depending on scanning direction, and the reusage array is combined with the pe array rotating left as well as right to utilize the overlapped data of adjacent multiple scan paths. In experiments, the new implementation of 4-way search window on Magnachip 0.18um could deal with the HD($1280{\times}720$) video of 1 reference frame, $48{\times}48$ search area and $16{\times}16$ macroblock by 30fps at 149.25MHz.

본 논문에서는 H.264 움직임추정의 고속처리를 위하여 2D PE 아키텍처의 메모리 대역폭을 개선할 수 있는 새로운 4-방향 검색윈도우를 설계 및 구현하였다. 기존의 2D PE 아키텍처는 메모리 대역폭을 줄이기 위하여 스캔경로 내에서 인접한 검색윈도우간 중복되는 데이터를 재사용하였으나, 본 연구에서는 재사용을 증대시키기 위하여 인접한 스캔경로 간의 검색윈도우에 대해서도 재사용할 수 있는 방법을 제안한다. 이를 위해서 검색윈도우를 하나의 스캔경로 내에서 래스터 및 사행 스캐닝을 수행하는 기존 방식을 개선하여, 인접한 복수 스캔경로를 4방향(상, 하, 좌, 우)으로 스캐닝하면서 이동할 수 있는 검색윈도우를 설계하였다. 기존 검색윈도우가 제한적인 데이터 재사용으로 $7.7{\sim}11$회 정도의 중복적인 검색(redundancy access factor)을 요구하는데 비하여, 제안된 4-방향 검색윈도우는 3.1/1.4회 정도로 중복검색을 감소시킨 성능을 보인다. 이에 따라서 4-방향 검색윈도우는 기존의 1-방향 검색윈도우에 비하여 70%, 4-방향 검색윈도우에 비하여 60%/81%의 메모리 대역폭 개선 효과를 가져을 수 있게 된다. 제안된 4-방향 검색윈도우의 H.264 정수화소 움직임추정 아키텍처는 절대차분 연산을 위한 $16{\times}16$의 2D PE어레이와 인접 스캔경로 간 검색윈도우 데이터를 재사용하기 위한 $5{\times}16$의 RE어레이로 구성되어 있다. 2D PE어레이는 스캔방향에 따라 상/하 양방향으로 참조데이터를 입력받을 수 있으며, 인접한 복수 스캔경로들의 데이터 재사용을 위한 RE 어레이가 2D PE어레이와 함께 좌/우 양방향으로 로테이트가 가능하도록 구성되어 있다. 4방향 검색윈도우는 Magnachip 0.18um공정으로 구현되어 H.264 움직임추정 메모리대역폭을 개선하여 2D PE 아키텍처 사양 참조 프레임 1장, 검색영역 $48{\times}48$, 매크로 블록 $16{\times}16$의 HD영상($1280{\times}720$)을 149.25MHz에서 실시간처리하는 성능을 보였다.

Keywords

References

  1. Yang Song, Zhenyu LIU, 'VLSI Architecture for Variable Block Size Motion Estimation in H.264/AVC with low Cost Memory organization', IEEE, VLSI Design, Automation and Test, 2006 International Symposium, pp. 1-4, April 2006 https://doi.org/10.1109/VDAT.2006.258131
  2. Xiang Li, Rahul Chopa, Kenneth W. Hsu, 'Novel VLSI Architecture of Motion Estimation for H.264 standard', IEEE, SOC Conference, 2005 Proceedings. IEEE International, pp. 117-118, Sept 2005 https://doi.org/10.1109/SOCC.2005.1554476
  3. Kenneth W. Hsu, Xiang Li, Rahul Chopa, 'An IC Design for Real-Time Motion Estimation in H.264 Digital Video', IEEE, Circuits and Systems, 2005 48th Midwest Symposium, vol 2, pp. 1489-1493, Aug 2005 https://doi.org/10.1109/MWSCAS.2005.1594395
  4. Minho Kim, Ingu Hwang, Soo-Ik Chae, 'A Fast VLSI Architecture for Full-Search Variable Block Size Motion Estimation in MPEG-4 AVC/H.264', IEEE, Design Automation Conference, 2005 Proceedings of the ASP-DAC 2005 Asia and South Pacific, vol 1, pp. 631-634, Jan. 2005 https://doi.org/10.1109/ASPDAC.2005.1466240
  5. Dong-Xiao Li, Wei Zheng, Ming Zhang, 'Architecture Design for H.264/AVC Integer Motion Estimation with Minimum Memory Bandwidth', IEEE Transactions on Consumer Electronics, Vol. 53, No. 3, AUGUST 2007 https://doi.org/10.1109/TCE.2007.4341585
  6. Swee Yeow Yap, John V. McCanny, 'A VLSI Architecture for Variable Block Size Video Motìon Estimation', IEEE, Circuits and Systems II: Express Briefs, IEEE Transactions, vol 51, pp. 384-389, July 2004 https://doi.org/10.1109/TCSII.2004.829555
  7. Swee Yeow Yap, John V. McCanny, 'A VLSI Architecture for Advanced Video Coding Motion Estimation', IEEE, Application-SPEcific Systems, Architectures, and Processors, 2003 Proceedings. IEEE International Conference, pp. 293-301, June 2003
  8. Yu- Wen Huang, Tu-Chih Wang, Bing-Yu Hsieh, and Liang-Gee Chen, 'Hardware Architecture Design for Variable Block Size Motion Estimation in MPEG-4 AVC/JVT/ITU-T H264', IEEE, Circuits and Systems, 2003 ISCAS '03 Proceedings of the 2003 International Symposium, vol 2, pp. 796, 799, May 2003
  9. Ching-Yeh Chen, Shao-Yi Chien, Yu-Wen Huang, Tung-Chien Chen, Tu-Chih Wang, and Liang-Gee Chen,, 'Analysis and Architecture Design of Variable Block-Size Motion Estimation for H.264/AVC', Circuits and Systems I: Regular Papers, IEEE Transactions on, vol 53, pp. 578-593, March 2006 https://doi.org/10.1109/TCSI.2005.858488
  10. Zhenyu Liu, Yang Song, Ming Shao, Shen Li, Lingfeng Li, Satoshi Goto and Takeshi Ikenaga, '32-Parallel SAD Tree Hardwired Engine for Variablc Block Size Motion Estimation in HDTV1080P Real-Time Encoding Application', Signal Processing Systems, 2007 IEEE Workshop on, pp. 675-680, Oct. 2007