• 제목/요약/키워드: L2_cache

검색결과 57건 처리시간 0.015초

내장형 시스템을 위한 에너지-성능 측면에서 효율적인 2-레벨 데이터 캐쉬 구조의 설계 (Energy-Performance Efficient 2-Level Data Cache Architecture for Embedded System)

  • 이종민;김순태
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권5호
    • /
    • pp.292-303
    • /
    • 2010
  • 온칩(on-chip) 캐쉬는 외부 메모리로의 접근을 감소시키며 빈번하게 접근되기 때문에 내장형 시스템의 성능과 에너지 소비 측면에서 중요한 역할을 한다. 본 논문에서는 내장형 시스템에 맞추어 설계된 2-레벨 데이터 캐쉬 메모리 구조를 제안하고자 한다. 레벨1(L1) 캐쉬의 구성으로 작은 크기, 직접시장(direct-mapped) 그리고 바로쓰기(write-through)를 채용한다. 대조적으로 레벨2(L2) 캐쉬는 보통의 캐쉬 크기와 집합연관(set-associativity) 그리고 나중쓰기(write-back) 정책을 채용한다. 결과적으로 L1 캐쉬는 빠른 접근 시간을 가지며 (한 사이클 이내) L2 캐쉬는 전체 캐쉬의 미스율(global miss rate)을 낮추는데 효과적이다. 작은 크기의 L1 데이터 캐쉬로 인한 증가된 캐쉬 미스율(miss rate)을 줄이기 위해 ECP(Early Cache hit Predictor)기법을 제안하였다. 제안된 ECP기법은 L1 캐쉬 히트 예측을 통해서 요청된 데이터가 L1 캐쉬에 있는지 예측할 수 있으며 추가적으로, ALU를 필요로 하지 않고 빠르게 유효주소(effective address)계산을 할 수 있다. 또한, 두 캐쉬 계층간 바로쓰기(write-through) 정책에서 오는 빈번한 L2 캐쉬 접근으로 인한 에너지 소비를 줄이기 위해 지정웨이 쓰기(one-way write) 기법을 제안하였다. 제안된 지정웨이 쓰기 기법을 이용하면 바로쓰기 정책으로 인한 L1 캐쉬에서 L2 캐쉬로의 쓰기 접근시 태그(tag) 비교 과정을 거치지 않고 하나의 지정된 웨이를 바로 접근할 수 있다. 사이클 단위 정확도의 시뮬레이터와 내장형 벤치마크를 이용한 실험 결과 본 논문에서 제안한 2-레벨 데이터 캐쉬 메모리 구조는 평균적으로 3.6%의 성능향상과 50%의 데이터 캐쉬 에너지 소비를 감소 시켰다.

A Locality-Aware Write Filter Cache for Energy Reduction of STTRAM-Based L1 Data Cache

  • Kong, Joonho
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제16권1호
    • /
    • pp.80-90
    • /
    • 2016
  • Thanks to superior leakage energy efficiency compared to SRAM cells, STTRAM cells are considered as a promising alternative for a memory element in on-chip caches. However, the main disadvantage of STTRAM cells is high write energy and latency. In this paper, we propose a low-cost write filter (WF) cache which resides between the load/store queue and STTRAM-based L1 data cache. To maximize efficiency of the WF cache, the line allocation and access policies are optimized for reducing energy consumption of STTRAM-based L1 data cache. By efficiently filtering the write operations in the STTRAM-based L1 data cache, our proposed WF cache reduces energy consumption of the STTRAM-based L1 data cache by up to 43.0% compared to the case without the WF cache. In addition, thanks to the fast hit latency of the WF cache, it slightly improves performance by 0.2%.

Designing a low-power L1 cache system using aggressive data of frequent reference patterns

  • Jung, Bo-Sung;Lee, Jung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권7호
    • /
    • pp.9-16
    • /
    • 2022
  • 오늘날, 4차산업혁명의 도래와 함께 사물인터넷(Internet of Things (IoT)) 시스템이 빠르게 발전하고 있다. 이러한 이유로, 고성능 및 대용량의 다양한 애플리케이션이 등장하고 있다. 따라서, 이러한 애플리케이션을 가지는 컴퓨팅 시스템을 위한 저전력 및 고성능 메모리가 필요하다. 본 논문에서는 컴퓨팅 시스템에서 가장 많은 에너지 소비가 발생하는 L1 캐시 메모리에 대한 효과적인 구조를 제안하였다. 제안된 캐시 시스템은 크게 L1 메인 캐시와 버퍼캐시로 구성되어 진다. 메인 캐시는 2-뱅크 시스템으로, 각 뱅크는 2-웨이 연관사상으로 구성된다. L1캐시에서 접근 성공이 발생하면 제안된 알고리즘에 따라 데이터가 버퍼캐시에 복사가 된다. 시뮬레이션 결과에 따르면, 제안된 L1 캐시 시스템은 기존 4웨이 연관사상 캐시 메모리에 비해 에너지-지연에서 약65%의 성능향상을 보였다.

Enhancing GPU Performance by Efficient Hardware-Based and Hybrid L1 Data Cache Bypassing

  • Huangfu, Yijie;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제11권2호
    • /
    • pp.69-77
    • /
    • 2017
  • Recent GPUs have adopted cache memory to benefit general-purpose GPU (GPGPU) programs. However, unlike CPU programs, GPGPU programs typically have considerably less temporal/spatial locality. Moreover, the L1 data cache is used by many threads that access a data size typically considerably larger than the L1 cache, making it critical to bypass L1 data cache intelligently to enhance GPU cache performance. In this paper, we examine GPU cache access behavior and propose a simple hardware-based GPU cache bypassing method that can be applied to GPU applications without recompiling programs. Moreover, we introduce a hybrid method that integrates static profiling information and hardware-based bypassing to further enhance performance. Our experimental results reveal that hardware-based cache bypassing can boost performance for most benchmarks, and the hybrid method can achieve performance comparable to state-of-the-art compiler-based bypassing with considerably less profiling cost.

고성능 저전력 하이브리드 L2 캐시 메모리를 위한 연관사상 집합 관리 (Way-set Associative Management for Low Power Hybrid L2 Cache Memory)

  • 정보성;이정훈
    • 대한임베디드공학회논문지
    • /
    • 제13권3호
    • /
    • pp.125-131
    • /
    • 2018
  • STT-RAM is attracting as a next generation Non-volatile memory for replacing cache memory with low leakage energy, high integration and memory access performance similar to SRAM. However, there is problem of write operations as the other Non_volatile memory. Hybrid cache memory using SRAM and STT-RAM is attracting attention as a cache memory structure with lowe power consumption. Despite this, reducing the leakage energy consumption by the STT-RAM is still lacking access to the Dynamic energy. In this paper, we proposed as energy management method such as a way-selection approach for hybrid L2 cache fo SRAM and STT-RAM and memory selection method of write/read operation. According to the simulation results, the proposed hybrid cache memory reduced the average energy consumption by 40% on SPEC CPU 2006, compared with SRAM cache memory.

캐시 파티션을 이용한 공유 2차 캐시 누설 에너지 관리 기법 (Leakage Energy Management Techniques via Shared L2 Cache Partitioning)

  • 강희준;김현희;김지홍
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권1호
    • /
    • pp.43-54
    • /
    • 2010
  • 기존의 타임아웃 기반 캐시 누설 에너지 관리 기법들은 한동안 사용되지 않은 비활성화 상태의 캐시 라인의 전력 공급을 끊음으로써 누설 에너지 소모를 줄인다. 그러나, 이들 기법들은 단일 프로세서 환경에 적합하게 고안되었기 때문에, 태스크들 간의 간섭이 빈번히 발생하는 공유 2차 캐시를 사용하는 멀티프로세서 환경에서는 에너지 감소를 방해한다. 본 논문에서는 캐시 라인 비활성화 시간을 고려한 캐시 파티션 전략을 통해 캐시 간섭을 줄임으로써 멀티프로세서 환경의 공유 2차 캐시에서의 누설 에너지 감소 효과를 증가시키기 위한 기법을 제안한다. 또한, 각 태스크들의 특성을 고려하여 타임아웃을 설정하는 적응형 타임아웃 관리 기법을 통해 캐시 누설 에너지 소비를 감소시키는 기법을 제안한다. 시뮬레이션을 통한 실험 결과에서 기존의 기법과 비교하여 2-way CMP에서는 평균 73%, 4-way CMP에서는 평균 56% 정도의 누설 에너지 소비가 줄어드는 것을 확인하였다.

에너지 효율이 높은 이중웨이선택형 연관사상캐시 (Energy-efficient Set-associative Cache Using Bi-mode Way-selector)

  • 이성재;강진구;이주호;윤지용;이인환
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제1권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 레벨1 캐시에서 가장 우수한 수준의 에너지 효율을 제공하는 웨이룩업캐시와 레벨2 캐시에서 가장 높은 에너지 효율을 제공하는 웨이추적캐시의 장점을 결합하여, 모든 레벨의 캐시에서 가장 높은 수준의 에너지 효율을 제공하는 이중웨이선택캐시를 제안한다. Alpha 21264 프로세서의 예를 이용한 시뮬레이션 결과에 따르면, 이중웨이선택캐시는 레벨1 명령어캐시에서 일반적인 연관사상캐시에 비해 27.57%의 에너지를 소비하여, 웨이룩업캐시와 같은 수준의 에너지 효율을 제공한다. 그리고 이중웨이선택캐시는 레벨1 데이터 캐시에서 일반적인 연관사상캐시에 비해 28.42%의 에너지를 소비하며, 이는 웨이룩업캐시에 비해 에너지 소비가 15.54% 감소한 것이다. 또한 이중웨이선택캐시는 레벨2 캐시에서 일반적인 연관사상캐시에 비해 15.41%의 에너지를 소비하며, 이는 웨이추적캐시에 비해 에너지 소비가 16.16% 감소한 것이다.

New Two-Level L1 Data Cache Bypassing Technique for High Performance GPUs

  • Kim, Gwang Bok;Kim, Cheol Hong
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.51-62
    • /
    • 2021
  • On-chip caches of graphics processing units (GPUs) have contributed to improved GPU performance by reducing long memory access latency. However, cache efficiency remains low despite the facts that recent GPUs have considerably mitigated the bottleneck problem of L1 data cache. Although the cache miss rate is a reasonable metric for cache efficiency, it is not necessarily proportional to GPU performance. In this study, we introduce a second key determinant to overcome the problem of predicting the performance gains from L1 data cache based on the assumption that miss rate only is not accurate. The proposed technique estimates the benefits of the cache by measuring the balance between cache efficiency and throughput. The throughput of the cache is predicted based on the warp occupancy information in the warp pool. Then, the warp occupancy is used for a second bypass phase when workloads show an ambiguous miss rate. In our proposed architecture, the L1 data cache is turned off for a long period when the warp occupancy is not high. Our two-level bypassing technique can be applied to recent GPU models and improves the performance by 6% on average compared to the architecture without bypassing. Moreover, it outperforms the conventional bottleneck-based bypassing techniques.

페이지 접근 정보에 기반한 효율적인 명령어 캐쉬 선인출 기법 (An Efficient Instruction Prefetching Scheme Based on the Page Access Information)

  • 신숭현;김철홍;전주식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권5호
    • /
    • pp.306-315
    • /
    • 2006
  • 컴퓨터 시스템의 1차 캐쉬 적중률은 시스템의 성능을 평가함에 있어 가장 중요한 요소 중 하나이다. 하위 메모리 구조로부터 1차 캐쉬로의 선인출은 1차 캐쉬의 적중률을 증가시키기 위해 사용되는 대표적인 기술 중 하나이다. 본 논문에서는 명령어 캐쉬의 선인출 효율은 높이고 선인출에 소모되는 비용은 감소시키는 재 접근 페이지 선인출 정책을 제안하고자 한다. 재 접근 페이지 선인출 정책은 수행되는 명령어들의 소속 페이지를 추적하여, 이 정보를 바탕으로 일정 횟수 이상 같은 페이지를 접근하는 경우에 한하여 선인출을 수행함으로써, 명령어 캐쉬로의 선인출 횟수는 줄이고 선인출 성공률은 향상시킨다. 또한, 일반적인 컴퓨터 시스템에서 하나의 2차 캐쉬 블록에 여러 개의 1차 캐쉬 블록이 포함되는 특성을 이용하여 미스 블록과 선인출 블록이 같은 2차 캐쉬 블록에 포함된 경우로 선인출을 한정함으로써 선인출에 소모되는 비용을 줄인다. 모의 실험에 따르면 제안하는 구조는 최대 6.7%의 성능향상을 보인다.

마이크로프로세서 캐쉬메모리의 적중률 개선을 위한 제안 (A Proposal for Hit Ratio Improvement of a Microprocessor's Cache Memory)

  • 조용훈;김정선
    • 한국통신학회논문지
    • /
    • 제25권4B호
    • /
    • pp.783-787
    • /
    • 2000
  • 현재 사용되고 있는 개인용 컴퓨터의 중앙처리장치로서 주종을 이루고 있는 마이크로프로세서는 256KB, 혹은 512KB의 L2(Second Level) 캐쉬를 Direct Mapping, 32B 라인사이즈, 그리고 Write Allocation을 채택하지 않는 형태로 사용하고 있는데, 이러한 L2 캐쉬에서 Mapping 방식을 8-way Set Associative Mapping Procedure로 바꾸고, 라인사이즈를 늘려서 128B 이상으로 변경하고, 그리고 Write Allocation을 채택하였을 경우 그 적중률(Hit Ratio)이 약간의 하드웨어적 추가 비용만으로 2.5% 정도 개선됨을 확인하였다.

  • PDF