• 제목/요약/키워드: L1 data cache

검색결과 22건 처리시간 0.024초

Variable latency L1 data cache architecture design in multi-core processor under process variation

  • Kong, Joonho
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권9호
    • /
    • pp.1-10
    • /
    • 2015
  • In this paper, we propose a new variable latency L1 data cache architecture for multi-core processors. Our proposed architecture extends the traditional variable latency cache to be geared toward the multi-core processors. We added a specialized data structure for recording the latency of the L1 data cache. Depending on the added latency to the L1 data cache, the value stored to the data structure is determined. It also tracks the remaining cycles of the L1 data cache which notifies data arrival to the reservation station in the core. As in the variable latency cache of the single-core architecture, our proposed architecture flexibly extends the cache access cycles considering process variation. The proposed cache architecture can reduce yield losses incurred by L1 cache access time failures to nearly 0%. Moreover, we quantitatively evaluate performance, power, energy consumption, power-delay product, and energy-delay product when increasing the number of cache access cycles.

A Locality-Aware Write Filter Cache for Energy Reduction of STTRAM-Based L1 Data Cache

  • Kong, Joonho
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권1호
    • /
    • pp.80-90
    • /
    • 2016
  • Thanks to superior leakage energy efficiency compared to SRAM cells, STTRAM cells are considered as a promising alternative for a memory element in on-chip caches. However, the main disadvantage of STTRAM cells is high write energy and latency. In this paper, we propose a low-cost write filter (WF) cache which resides between the load/store queue and STTRAM-based L1 data cache. To maximize efficiency of the WF cache, the line allocation and access policies are optimized for reducing energy consumption of STTRAM-based L1 data cache. By efficiently filtering the write operations in the STTRAM-based L1 data cache, our proposed WF cache reduces energy consumption of the STTRAM-based L1 data cache by up to 43.0% compared to the case without the WF cache. In addition, thanks to the fast hit latency of the WF cache, it slightly improves performance by 0.2%.

내장형 시스템을 위한 에너지-성능 측면에서 효율적인 2-레벨 데이터 캐쉬 구조의 설계 (Energy-Performance Efficient 2-Level Data Cache Architecture for Embedded System)

  • 이종민;김순태
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권5호
    • /
    • pp.292-303
    • /
    • 2010
  • 온칩(on-chip) 캐쉬는 외부 메모리로의 접근을 감소시키며 빈번하게 접근되기 때문에 내장형 시스템의 성능과 에너지 소비 측면에서 중요한 역할을 한다. 본 논문에서는 내장형 시스템에 맞추어 설계된 2-레벨 데이터 캐쉬 메모리 구조를 제안하고자 한다. 레벨1(L1) 캐쉬의 구성으로 작은 크기, 직접시장(direct-mapped) 그리고 바로쓰기(write-through)를 채용한다. 대조적으로 레벨2(L2) 캐쉬는 보통의 캐쉬 크기와 집합연관(set-associativity) 그리고 나중쓰기(write-back) 정책을 채용한다. 결과적으로 L1 캐쉬는 빠른 접근 시간을 가지며 (한 사이클 이내) L2 캐쉬는 전체 캐쉬의 미스율(global miss rate)을 낮추는데 효과적이다. 작은 크기의 L1 데이터 캐쉬로 인한 증가된 캐쉬 미스율(miss rate)을 줄이기 위해 ECP(Early Cache hit Predictor)기법을 제안하였다. 제안된 ECP기법은 L1 캐쉬 히트 예측을 통해서 요청된 데이터가 L1 캐쉬에 있는지 예측할 수 있으며 추가적으로, ALU를 필요로 하지 않고 빠르게 유효주소(effective address)계산을 할 수 있다. 또한, 두 캐쉬 계층간 바로쓰기(write-through) 정책에서 오는 빈번한 L2 캐쉬 접근으로 인한 에너지 소비를 줄이기 위해 지정웨이 쓰기(one-way write) 기법을 제안하였다. 제안된 지정웨이 쓰기 기법을 이용하면 바로쓰기 정책으로 인한 L1 캐쉬에서 L2 캐쉬로의 쓰기 접근시 태그(tag) 비교 과정을 거치지 않고 하나의 지정된 웨이를 바로 접근할 수 있다. 사이클 단위 정확도의 시뮬레이터와 내장형 벤치마크를 이용한 실험 결과 본 논문에서 제안한 2-레벨 데이터 캐쉬 메모리 구조는 평균적으로 3.6%의 성능향상과 50%의 데이터 캐쉬 에너지 소비를 감소 시켰다.

Enhancing GPU Performance by Efficient Hardware-Based and Hybrid L1 Data Cache Bypassing

  • Huangfu, Yijie;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.69-77
    • /
    • 2017
  • Recent GPUs have adopted cache memory to benefit general-purpose GPU (GPGPU) programs. However, unlike CPU programs, GPGPU programs typically have considerably less temporal/spatial locality. Moreover, the L1 data cache is used by many threads that access a data size typically considerably larger than the L1 cache, making it critical to bypass L1 data cache intelligently to enhance GPU cache performance. In this paper, we examine GPU cache access behavior and propose a simple hardware-based GPU cache bypassing method that can be applied to GPU applications without recompiling programs. Moreover, we introduce a hybrid method that integrates static profiling information and hardware-based bypassing to further enhance performance. Our experimental results reveal that hardware-based cache bypassing can boost performance for most benchmarks, and the hybrid method can achieve performance comparable to state-of-the-art compiler-based bypassing with considerably less profiling cost.

New Two-Level L1 Data Cache Bypassing Technique for High Performance GPUs

  • Kim, Gwang Bok;Kim, Cheol Hong
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.51-62
    • /
    • 2021
  • On-chip caches of graphics processing units (GPUs) have contributed to improved GPU performance by reducing long memory access latency. However, cache efficiency remains low despite the facts that recent GPUs have considerably mitigated the bottleneck problem of L1 data cache. Although the cache miss rate is a reasonable metric for cache efficiency, it is not necessarily proportional to GPU performance. In this study, we introduce a second key determinant to overcome the problem of predicting the performance gains from L1 data cache based on the assumption that miss rate only is not accurate. The proposed technique estimates the benefits of the cache by measuring the balance between cache efficiency and throughput. The throughput of the cache is predicted based on the warp occupancy information in the warp pool. Then, the warp occupancy is used for a second bypass phase when workloads show an ambiguous miss rate. In our proposed architecture, the L1 data cache is turned off for a long period when the warp occupancy is not high. Our two-level bypassing technique can be applied to recent GPU models and improves the performance by 6% on average compared to the architecture without bypassing. Moreover, it outperforms the conventional bottleneck-based bypassing techniques.

Designing a low-power L1 cache system using aggressive data of frequent reference patterns

  • Jung, Bo-Sung;Lee, Jung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.9-16
    • /
    • 2022
  • 오늘날, 4차산업혁명의 도래와 함께 사물인터넷(Internet of Things (IoT)) 시스템이 빠르게 발전하고 있다. 이러한 이유로, 고성능 및 대용량의 다양한 애플리케이션이 등장하고 있다. 따라서, 이러한 애플리케이션을 가지는 컴퓨팅 시스템을 위한 저전력 및 고성능 메모리가 필요하다. 본 논문에서는 컴퓨팅 시스템에서 가장 많은 에너지 소비가 발생하는 L1 캐시 메모리에 대한 효과적인 구조를 제안하였다. 제안된 캐시 시스템은 크게 L1 메인 캐시와 버퍼캐시로 구성되어 진다. 메인 캐시는 2-뱅크 시스템으로, 각 뱅크는 2-웨이 연관사상으로 구성된다. L1캐시에서 접근 성공이 발생하면 제안된 알고리즘에 따라 데이터가 버퍼캐시에 복사가 된다. 시뮬레이션 결과에 따르면, 제안된 L1 캐시 시스템은 기존 4웨이 연관사상 캐시 메모리에 비해 에너지-지연에서 약65%의 성능향상을 보였다.

Workload Characteristics-based L1 Data Cache Switching-off Mechanism for GPUs

  • Do, Thuan Cong;Kim, Gwang Bok;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.1-9
    • /
    • 2018
  • Modern graphics processing units (GPUs) have become one of the most attractive platforms in exploiting high thread level parallelism with the support of new programming tools such as CUDA and OpenCL. Recent GPUs has applied cache hierarchy to support irregular memory access patterns; however, L1 data cache (L1D) exhibits poor efficiency in the GPU. This paper shows that the L1D does not always positively affect the applications in terms of performance and energy efficiency for the GPU. The performance of the GPU is even harmed by using the L1D for lots of applications. Our proposed technique exploits the characteristics of the currently-executed applications to predict the performance impact of the L1D on the GPU and then decides whether to continuously use the cache for the application or not. Our experimental results show that the proposed technique improves the GPU performance by 9.4% and saves up to 52.1% of the power consumption in the L1D.

에너지 효율이 높은 이중웨이선택형 연관사상캐시 (Energy-efficient Set-associative Cache Using Bi-mode Way-selector)

  • 이성재;강진구;이주호;윤지용;이인환
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제1권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 레벨1 캐시에서 가장 우수한 수준의 에너지 효율을 제공하는 웨이룩업캐시와 레벨2 캐시에서 가장 높은 에너지 효율을 제공하는 웨이추적캐시의 장점을 결합하여, 모든 레벨의 캐시에서 가장 높은 수준의 에너지 효율을 제공하는 이중웨이선택캐시를 제안한다. Alpha 21264 프로세서의 예를 이용한 시뮬레이션 결과에 따르면, 이중웨이선택캐시는 레벨1 명령어캐시에서 일반적인 연관사상캐시에 비해 27.57%의 에너지를 소비하여, 웨이룩업캐시와 같은 수준의 에너지 효율을 제공한다. 그리고 이중웨이선택캐시는 레벨1 데이터 캐시에서 일반적인 연관사상캐시에 비해 28.42%의 에너지를 소비하며, 이는 웨이룩업캐시에 비해 에너지 소비가 15.54% 감소한 것이다. 또한 이중웨이선택캐시는 레벨2 캐시에서 일반적인 연관사상캐시에 비해 15.41%의 에너지를 소비하며, 이는 웨이추적캐시에 비해 에너지 소비가 16.16% 감소한 것이다.

다양한 cache block크기에 의한 시스템의 성능 변화 (Impacts of multiple cache block sizes on system performance)

  • 이성환;김준성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1347-1350
    • /
    • 2003
  • 본 논문에서는 instruction과 data cache로 나누어지는 L1 cache를 가진 시스템에서 instruction과 data cache 각각의 block 크기 변화가 전체 시스템의 성능에 미치는 영향을 고찰하였다. 이를 위하여 SPEC CPU 벤치마크 프로그램을 입력으로 하는 SimpleScalar를 이용한 시뮬레이션을 수행하였다. 본 연구를 통해서, instruction과 data 각각의 특성에 맞는 cache block 크기를 사용하는 것이 일률적인 cache block 크기를 사용하는 것에 비하여 전체 시스템의 성능을 더욱 향상시켜 준다는 것을 보여준다.

  • PDF

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.