DOI QR코드

DOI QR Code

멀티미디어 내장형 시스템을 위한 저전력 데이터 캐쉬 설계

An Area Efficient Low Power Data Cache for Multimedia Embedded Systems

  • 김정길 (연세대학교 컴퓨터과학과) ;
  • 김신덕 (연세대학교 컴퓨터과학과)
  • 발행 : 2006.04.01

초록

대용량의 데이터 처리가 요구되는 내장형 시스템에서 메모리의 비중은 아주 중요하며, 특히 제한적인 메모리를 최적으로 이용하기 위하여 응용의 특성을 활용하는 온칩(on-chip) 메모리 구조의 설계가 필요하다. 본 논문에서는 멀티미디어 응용을 위한 내장형 시스템에서 저전력을 위하여 작은 용량으로 설계되었으나 우수한 성능을 보이는 데이터 캐쉬(data cache)가 제안된다. 제안되는 캐쉬는 컴파일러의 도움 없이 구조적인 특징과 간단한 동작 메커니즘만을 이용하여 해당 응용의 데이터 지역성(data locality)을 효과적으로 반영할 수 있도록 작은 블록 크기를 지원하는 4KB 용량의 직접사상 캐쉬(direct-mapped cache)와 큰 블록을 지원하는 1KB 용량의 완전연관 버퍼(fully-associative buffer)로 구성되어 진다. 전체 5KB의 작은 캐쉬 용량으로 인한 성능 저하를 보완하기 위하여 멀티미디어 응용의 알고리즘 특성을 기반으로 응용 적응적인 다중 블록 선인출(adaptive multi-block prefetching) 기법과 효과적 블록 필터링(effective block filtering) 기법이 제안되었다 시뮬레이션 결과에 따르면 제안된 5KB 캐쉬는 기존의 16KB 4-way 집합연관 캐쉬와 동등한 성능을 보이면서 소비 전력 면에서는 40% 이상의 감소를 보이고 있다.

One of the most effective ways to improve cache performance is to exploit both temporal and spatial locality given by any program executional characteristics. This paper proposes a data cache with small space for low power but high performance on multimedia applications. The basic architecture is a split-cache consisting of a direct-mapped cache with small block sire and a fully-associative buffer with large block size. To overcome the disadvantage of small cache space, two mechanisms are enhanced by considering operational behaviors of multimedia applications: an adaptive multi-block prefetching to initiate various fetch sizes and an efficient block filtering to remove rarely reused data. The simulations on MediaBench show that the proposed 5KB-cache can provide equivalent performance and reduce energy consumption up to 40% as compared with 16KB 4-way set associative cache.

키워드

참고문헌

  1. W. Shiue, S. Udayanarayanan, and C. Chakrabati, 'Data memory design and exploration for low-power embedded systems,' ACM Trans. Design Automation of Electronic Systems, Vol.6 No.4, pp.553-568, Oct., 2001 https://doi.org/10.1145/502175.502182
  2. S. Santhanam, 'StrongARM SA110-A 160MHz 32b 0.5W CMOS ARM Processor,' Hot Chips 8: A Symposium on High-Performance Chips, Aug., 1996
  3. P. Stroik, P. van der Wolf, and A. D. Pimentel. 'A combined hardware/software solution for stream prefetching in multimedia applications,' Proceedings of the SPIE Multimedia Hardware Architectures, pp.120-130, Jan., 1998 https://doi.org/10.1117/12.304664
  4. D. F. Zucker, R. B. Lee, M. J. Flynn, 'Hardware and software cache prefetching techniques for MPEG benchmarks,' IEEE Trans. Circuits and Systems for Video Technology, Vol. 10, No.5, pp.782-796, Aug., 2000 https://doi.org/10.1109/76.856455
  5. R. Cucchiara, M. Piccardi, and A. Prati, 'Neighbor cache prefetching for multimedia image and video processing,' IEEE Trans. Multimedia, Vo1.6, No.4, pp.539-552, Aug., 2004 https://doi.org/10.1109/TMM.2004.830806
  6. I. Kuroda, and T. Nishitani, 'Multimedia processors,' Proc. the IEEE Vol.86, No.6, pp.1203-1221, June, 1998 https://doi.org/10.1109/5.687835
  7. Z. Xu, S. Sohoni, R. Min, and Y. Hu, 'An analysis of cache performance of multimedia applications,' IEEE Trans. Computers Vol.53, No.1, pp.20-38, Jan., 2004 https://doi.org/10.1109/TC.2004.1255788
  8. P. Soderquist and M. Leeser, 'Optimizing the data cache performance of a software MPEG-2 video decoder,' Proceedings of the fifth ACM International Multimedia Conference, pp.291-301, Nov., 1997 https://doi.org/10.1145/266180.266380
  9. C. Zhang, F. Vahid, and W. Najjar, 'A highly configurable cache architecture for embedded systems,' Proceedings of the 30th Annual International Symposium on Computer Architecture, pp.136-146, June, 2003 https://doi.org/10.1109/ISCA.2003.1206995
  10. J. H. Lee, S. W. Jeong, S. D. Kim, and C. C. Weem, 'An intelligent cache system with hardware prefetching for high performance,' IEEE Transactions on Computers, Vol.52, No.5, pp.607-616, May, 2003 https://doi.org/10.1109/TC.2003.1197127
  11. J. Tse and A. J. Smith, 'CPU cache prefetching: Timing evaluation of hardware implementations,' IEEE Trans. Computers Vol.47, No.5, pp.509-526, May, 1998 https://doi.org/10.1109/12.677225
  12. Z. Hu, S. Kaxiras, and M. Martonosi, 'Timekeeping techniques for predicting and optimizing memory behavior,' Proceedings of the IEEE International Solid-State Circuits Conference 2003, Digest of Technical Papers, Vol. 1, pp.166-485, 2003 https://doi.org/10.1109/ISSCC.2003.1234251
  13. D. Burger and T. M. Austin, 'The SimpleScalar tool set, version 2.0, Technical Report TR-97-1342,' University of Wisconsin-Madison, 1997
  14. J. Edler and M. D. Hill, 'Dinero IV Trace-Driven Uniprocessor Cache Simulator,' University of Wisconsin, http://www.cs.wisc.edu/-markhill/DineroIV
  15. G. Reinman. and N. P. Jouppi, 'CACTI 3.0: An integrated cache timing and power, and area model,' Compaq WRL Report, Aug., 2001