DOI QR코드

DOI QR Code

Low Power TLB System by Using Continuous Accessing Distinction Algorithm

연속적 접근 판별 알고리즘을 이용한 저전력 TLB 구조

  • 이정훈 (경상대학교 전기전자공학부 공학연구원)
  • Published : 2007.02.28

Abstract

In this paper we present a translation lookaside buffer (TLB) system with low power consumption for imbedded processors. The proposed TLB is constructed as multiple banks, each with an associated block buffer and a corresponding comparator. Either the block buffer or the main bank is selectively accessed on the basis of two bits in the block buffer (tag buffer). Dynamic power savings are achieved by reducing the number of entries accessed in parallel, as a result of using the tag buffer as a filtering mechanism. The performance overhead of the proposed TLB is negligible compared with other hierarchical TLB structures. For example, the two-cycle overhead of the proposed TLB is only about 1%, as compared with 5% overhead for a filter (micro)-TLB and 14% overhead for a same structure without continuos accessing distinction algorithm. We show that the average hit ratios of the block buffers and the main banks of the proposed TLB are 95% and 5% respectively. Dynamic power is reduced by about 95% with respect to with a fully associative TLB, 90% with respect to a filter-TLB, and 40% relative to a same structure without continuos accessing distinction algorithm.

본 논문은 내장형 프로세서의 소비 전력을 줄이기 위한 저전력 TLB 구조를 제안하고자 한다. 제안된 TLB는 다수의 뱅크로 구성되어지며, 각각의 뱅크들은 하나의 블록 버퍼와 하나의 비교기를 포함한다. 블록 버퍼와 메인 뱅크는 특정 비트를 이용하여 선택적으로 접근이 가능하다. 그러므로 필터링 구조처럼 블록 버퍼에서 적중이 발생하면 메인 TLB 뱅크의 구동 소비 전력이 없고 단지 하나의 엔트리로 구성된 블록 버퍼에 의한 소비 전력만 발생함으로써 소비 전력을 효과적으로 줄일 수 있다. 또한 다른 계층적 구조와는 달리 이중 사이클에 대한 오버헤드가 1%로써 거의 무시 가능하다. 이에 반해 대표적인 계층 구조인 필터 구조의 경우 대략 5%이상 발생하게 되며, 제안된 구조와 동일한 구조를 가지지만 연속적 접근 판별 알고리즘을 사용하지 않은 동일한 구조의 블록 버퍼-뱅크 구조의 경우 15% 이상의 이중 사이클 오버헤드가 발생하게 된다. 이러한 이중 사이클은 프로세서의 성능 저하를 초래함으로써 데이터의 경우 특히 적용이 어려운 단점으로 지적되었다. 소비 전력의 감소 효과는 기존 완전 연관 구조에 비해 95%, 필터 구조에 비해 90%, 연속적 접근 판별 알고리즘 사용하지 않은 동일 구조에 비해 40%의 소비 전력 감소 효과를 얻을 수 있다.

Keywords

References

  1. Todd M. Austin and Gurindar S. Sohi, 'Hign-bandwidth address translation for multiple-issue processors,' In Proc. of the 32rd ACM Intl Symp. on Computer Architecture, pp. 158-167, May, 1996
  2. T. Juan, T. Lang, and J. Navarro, 'Reducing TLB Power Requirements,' In Proc. of the International Symposium on Low Power Electronics and Design, 1997 https://doi.org/10.1145/263272.263332
  3. I. Kadayif, A. Sivasubramaniam, M. Kandemir, G. Kandiraju, and G. Chen, 'Generating Physical Addresses Directly for saving Instruction TLB Energy Efficiency,' In Proc. of the International Symposium on Microarchitecture, 2002
  4. S. Segars, 'Low Power Design Techniques for Microprocessors,' Tutorial Note of the ISSCC, Feb., 2000
  5. M. B. Kamble and K. Ghose, 'Energy-Efficiency of VLSI Cache: A Comparative Study,' in Proc. of the IEEE 10-th. Intl. Conf. On VLSI Design, pp.261-267, Jan., 1997 https://doi.org/10.1109/ICVD.1997.568087
  6. M B. Kamble and K. Ghose, 'Analytical Energy Dissipation Models for Low Power Caches,' ACM/IEEE Intl Symp. on Low-Power Electronics and Design, Aug., 1997
  7. Ghose, K. and Kamble, M.B., 'Reducing power in superscalar processor caches using subbanking, multiple line buffers and bit-line segmentation,' ACM/IEEE Intl Symp. on Low-Power Electronics and Design, pp.70-75, Aug., 1999 https://doi.org/10.1145/313817.313860
  8. Kin, et. al., 'Filtering memory references to increase energy efficiency,' IEEE Transactions on Computers, Vol.49, No. 1, January, 2000 https://doi.org/10.1109/12.822560
  9. D. Liu, and C. Svensson, 'Trading Speed for Low Power by Choice of Supply and Threshold Voltages,' IEEE journal of solid state Circuits, Vol.28, No.1, 1993 https://doi.org/10.1109/4.179198
  10. T. Juan, T. Lang, J. Navarro, 'Reducing TLB Power Requirements,' Int'l Symp. on Low Power Electronics and design, 1997 https://doi.org/10.1145/263272.263332
  11. J. Kin, M. Gupta, and W. H. Mangione-Smith, 'The Filter Cache: An Energy Efficient Memory Structure,' MICRO-97: ACM/IEEE International Symposium on Microarchitecture, Research Triangle Park, NC, pp.184-193, Dec., 1997 https://doi.org/10.1109/MICRO.1997.645809
  12. ARM co., 'ARM1136 Technical Reference Manual,' http://www.arm.com/documentation/ARMProcessor_Cores/, 2003
  13. K. Ghose and M. B. Kamble, 'Reducing Power in Superscalar Processor Caches Using Subbanking, Multiple Line Buffers and Bit-Line Segmentation,' Proc. International Symposium on Low Power Electronics and Design, pp.70-75, Aug., 199 https://doi.org/10.1145/313817.313860
  14. S. Manne, A. Klauser, D. Grunwald, F. Somenzi, 'Low power TLB Design for High Performance Microprocessors,' Univ. of Colorado Technical Report, 1997
  15. Jan Edler and Mark D. Hill, 'Dinero IV Trace-Driven Uniprocessor Cache Simulator,' available from Univ. Wis., CS ftp site 1997
  16. Glenn Reinman and Norm Jouppi, 'An Integrated Cache Timing and Power Model,' Compaq WRL Report, 1999
  17. S. J. E. Wilton, and N. Jouppi, 'An Enhanced Access and Cycle Time Model for On-Chip Caches,' Digital WRL Research Report 93/5, July, 1994