• 제목/요약/키워드: Set-associative cache

검색결과 26건 처리시간 0.018초

n-way Set Associative Cache와 Fully Associative Cache성능 분석 (Performance Analysis of n-way Associative Cache and Fully Associative Cache)

  • 조용훈;김정선
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.802-810
    • /
    • 1997
  • 본 논문에서는 n-way Set Associative Cache와 Fully Associative Cache의 유용성 검증을 위하여 direct mapping,2_,4_,16_way set associative mapping 뿐만 아니라 32_, 64_,128_,256_,512_,1024_,2048_,그리고4096_way set assiciative mapping을 사용하는 캐취 의 성능을 제안된 시뮬레이터 프로그램을 실행시켜 분석한다. 일반적으로 캐쉬 메모리 내에있는 하나의 라인보호 내에 수용 가능한 주기억장치의 라인 수 n이 커짐에 따라 그 성능 선형적으로 개선될 것으로 기대되지만, 본 논문의 분석에 따르면 512K 이상의 대용량 캐쉬에서는 n의 변화에 따른 성능 개선이 거의 없는 상태였고 소용량 캐쉬의 경우에도 사용된 라이사이즈가 작은 경우 그 성능개선이 미미하였으며 라인사이즈가 비교적 큰 캐쉬에서는 괄목할 만한 성능개선이 있음을 확인하였다.

  • PDF

저전력 집합연관 캐시를 위한 효과적인 알고리즘 (Effective Algorithm for the Low-Power Set-Associative Cache Memory)

  • 정보성;이정훈
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.25-32
    • /
    • 2014
  • In this paper, we proposed a partial-way set associative cache memory with an effective memory access time and low energy consumption. In the proposed set-associative cache memory, it is allowed to access only a 2-ways among 4-way at a time. Choosing ways to be accessed is made dynamically via the least significant two bits of the tag. The chosen 2 ways are sequentially accessed by the way selection bits that indicate the most recently referred way. Therefore, each entry in the way has an additional bit, that is, the way selection bit. In addition, instead of the 4-way LRU or FIFO algorithm, we can utilize a simple 2-way replacement policy. Simulation results show that the energy*delay product can be reduced by about 78%, 14%, 39%, and 15% compared with a 4-way set associative cache, a sequential-way cache, a way-tracking cache, and a way cache respectively.

OpenRISC 코어의 성능향상을 위한 캐쉬 구조 설계 (Cache Architecture Design for the Performance Improvement of OpenRISC Core)

  • 정홍균;류광기
    • 대한전자공학회논문지SD
    • /
    • 제46권1호
    • /
    • pp.68-75
    • /
    • 2009
  • 최근 마이크로프로세서의 성능이 빠르게 향상됨에 따라 주 메모리의 접근 시간이 증가하고 있어 캐쉬의 필요성이 증대되고 있다. 직접사상 캐쉬는 주 메모리의 각각의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 사상되는 규칙이 간단하지만 서로 다른 블록이 하나의 캐쉬 라인에 사상될 경우 블록의 충돌에 의한 접근 실패율이 집합연관 캐쉬에 비해 높아진다. 본 논문에서는 OpenRISC 코어의 직접사상의 단점을 개선하기 위해 사원 집합연관 캐쉬 구조를 제시한다. 제시한 캐쉬는 주 메모리의 네 개의 블록이 하나의 캐쉬 라인에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 감소한다. 또한 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시켰다. FPGA 에뮬레이션을 이용하여 사원 집합연관 캐쉬를 포함한 OpenRISC 코어를 검증하였고, 테스트 프로그램을 이용하여 성능을 측정한 결과, 사원 집합연관 캐쉬를 포함한 OpenRISC 코어의 성능이 기존의 OpenRISC 코어의 성능에 비해 약 50% 향상되었고, 미스율은 15%이상 감소하였다.

Instruction Flow based Early Way Determination Technique for Low-power L1 Instruction Cache

  • Kim, Gwang Bok;Kim, Jong Myon;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권9호
    • /
    • pp.1-9
    • /
    • 2016
  • Recent embedded processors employ set-associative L1 instruction cache to improve the performance. The energy consumption in the set-associative L1 instruction cache accounts for considerable portion in the embedded processor. When an instruction is required from the processor, all ways in the set-associative instruction cache are accessed in parallel. In this paper, we propose the technique to reduce the energy consumption in the set-associative L1 instruction cache effectively by accessing only one way. Gshare branch predictor is employed to predict the instruction flow and determine the way to fetch the instruction. When the branch prediction is untaken, next instruction in a sequential order can be fetched from the instruction cache by accessing only one way. According to our simulations with SPEC2006 benchmarks, the proposed technique requires negligible hardware overhead and shows 20% energy reduction on average in 4-way L1 instruction cache.

차세대 CPU를 위한 캐시 메모리 시스템 설계 (Design of Cache Memory System for Next Generation CPU)

  • 조옥래;이정훈
    • 대한임베디드공학회논문지
    • /
    • 제11권6호
    • /
    • pp.353-359
    • /
    • 2016
  • In this paper, we propose a high performance L1 cache structure for the high clock CPU. The proposed cache memory consists of three parts, i.e., a direct-mapped cache to support fast access time, a two-way set associative buffer to reduce miss ratio, and a way-select table. The most recently accessed data is stored in the direct-mapped cache. If a data has a high probability of a repeated reference, when the data is replaced from the direct-mapped cache, the data is stored into the two-way set associative buffer. For the high performance and fast access time, we propose an one way among two ways set associative buffer is selectively accessed based on the way-select table (WST). According to simulation results, access time can be reduced by about 7% and 40% comparing with a direct cache and Intel i7-6700 with two times more space respectively.

에너지 효율이 높은 이중웨이선택형 연관사상캐시 (Energy-efficient Set-associative Cache Using Bi-mode Way-selector)

  • 이성재;강진구;이주호;윤지용;이인환
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제1권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문은 레벨1 캐시에서 가장 우수한 수준의 에너지 효율을 제공하는 웨이룩업캐시와 레벨2 캐시에서 가장 높은 에너지 효율을 제공하는 웨이추적캐시의 장점을 결합하여, 모든 레벨의 캐시에서 가장 높은 수준의 에너지 효율을 제공하는 이중웨이선택캐시를 제안한다. Alpha 21264 프로세서의 예를 이용한 시뮬레이션 결과에 따르면, 이중웨이선택캐시는 레벨1 명령어캐시에서 일반적인 연관사상캐시에 비해 27.57%의 에너지를 소비하여, 웨이룩업캐시와 같은 수준의 에너지 효율을 제공한다. 그리고 이중웨이선택캐시는 레벨1 데이터 캐시에서 일반적인 연관사상캐시에 비해 28.42%의 에너지를 소비하며, 이는 웨이룩업캐시에 비해 에너지 소비가 15.54% 감소한 것이다. 또한 이중웨이선택캐시는 레벨2 캐시에서 일반적인 연관사상캐시에 비해 15.41%의 에너지를 소비하며, 이는 웨이추적캐시에 비해 에너지 소비가 16.16% 감소한 것이다.

고성능 데이터 캐시 메모리 구조 (High Performance Data Cache Memory Architecture)

  • 김홍식;김정길
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.945-951
    • /
    • 2008
  • 공간적 지역성(spatial locality) 및 시간적 지역성(temporal locality)을 동시에 향상시킬 수 있는 새로운 고성능 데이터 캐시 구조를 제안한다. 제안된 캐시 메모리는 하드웨어 프리패치 유닛과 큰 블록 크기를 갖는 직접사상(DM: direct mapped) 캐시와 작은 블록 크기를 갖는 완전 사상(FA: fully associative) 캐시의 하위 캐시 유닛으로 구성된다. 공간적 지역성은 블록 데이터를 패치하여 직접 사상 캐시에 저장함으로써 보장되며, DM 캐시 히트가 발생한 경우에 그 이웃 데이터 블록을 프리패치 함으로써 최적화 된다. 시간적 지역성은 작은 블록 데이터가 DM 캐시로부터 제거 될때 그 블록의 과거 기록에 따라서 중요한 데이터는 완전사상 캐시에 저장함으로써 보장된다. Spec2000 벤치 마크 프로그램에 대한 실험 결과에 의하면 제안된 캐시 구조는 비슷한 크기의 직접사상 캐쉬, 4웨이 연관사상(4 way set associative cache) 및 SMI(selective-mode intelligent cache) 캐쉬 [8]등의 기존의 구조에 비해서 미스 비율(miss rate)을 평균적으로 $12.53\sim23.62%$ 그리고 AMAT(average memory access time)를 평균적으로 $14.67\sim18.60%$ 줄일 수 있음을 증명하였다.

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.

Performance Improvement and Power Consumption Reduction of an Embedded RISC Core

  • Jung, Hong-Kyun;Jin, Xianzhe;Ryoo, Kwang-Ki
    • Journal of information and communication convergence engineering
    • /
    • 제10권1호
    • /
    • pp.78-84
    • /
    • 2012
  • This paper presents a branch prediction algorithm and a 4-way set-associative cache for performance improvement of an embedded RISC core and a clock-gating algorithm with observability don’t care (ODC) operation to reduce the power consumption of the core. The branch prediction algorithm has a structure using a branch target buffer (BTB) and 4-way set associative cache that has a lower miss rate than a direct-mapped cache. Pseudo-least recently used (LRU) policy is used for reducing the number of LRU bits. The clock-gating algorithm reduces dynamic power consumption. As a result of estimation of the performance and the dynamic power, the performance of the OpenRISC core applied to the proposed architecture is improved about 29% and the dynamic power of the core with the Chartered 0.18 ${\mu}m$ technology library is reduced by 16%.

Bounding Worst-Case Data Cache Performance by Using Stack Distance

  • Liu, Yu;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제3권4호
    • /
    • pp.195-215
    • /
    • 2009
  • Worst-case execution time (WCET) analysis is critical for hard real-time systems to ensure that different tasks can meet their respective deadlines. While significant progress has been made for WCET analysis of instruction caches, the data cache timing analysis, especially for set-associative data caches, is rather limited. This paper proposes an approach to safely and tightly bounding data cache performance by computing the worst-case stack distance of data cache accesses. Our approach can not only be applied to direct-mapped caches, but also be used for set-associative or even fully-associative caches without increasing the complexity of analysis. Moreover, the proposed approach can statically categorize worst-case data cache misses into cold, conflict, and capacity misses, which can provide useful insights for designers to enhance the worst-case data cache performance. Our evaluation shows that the proposed data cache timing analysis technique can safely and accurately estimate the worst-case data cache performance, and the overestimation as compared to the observed worst-case data cache misses is within 1% on average.