• 제목/요약/키워드: Cache Memory

검색결과 412건 처리시간 0.025초

Study of Cache Performance on GPGPU

  • Choi, Kyu Hyun;Kim, Seon Wook
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권2호
    • /
    • pp.78-82
    • /
    • 2015
  • General-purpose graphics processing units (GPGPUs) provide tremendous computational and processing power. Despite the latency hiding mechanism, a GPU architecture requires high memory bandwidth and lower latency between computational units and the memory system. For this reason, the current GPU architecture has private L1 caches in each core and a shared L2 cache to increase performance by reducing memory latency. But in some cases, this CPU-like cache design is not suitable for GPGPUs. In this paper, we analyze detailed cache performance related to GPGPU application characteristics, and suggest technical alternatives for the GPGPU architecture as future work.

범위질의 검색을 위한 캐시적응 T-트리 주기억장치 색인구조 (Cache Sensitive T-tree Main Memory Index for Range Query Search)

  • 최상준;이종학
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1374-1385
    • /
    • 2009
  • 최근 CPU의 속도는 메모리의 속도에 비해 훨씬 빠르게 향상되었다. 따라서 주기억 장치의 접근이 주기억장치 데이터베이스 시스템의 성능에서 병목현상으로 나타나고 있다. 기억장치 접근 속도를 줄이기 위해 캐시메모리를 이용하지만, 캐시메모리는 요구되는 데이터가 캐시에서 찾을 수 있는 경우에만 기억장치 접근속도를 줄일 수 있다. 본 논문에서는 $CST^*$-트리라는 범위질의를 위한 새로운 캐시 적응 T-트리 색인구조를 제안한다. $CST^*$-트리는 색인 엔트리를 저장하지 않는 축소된 내부노드들을 캐시메모리에 올려 사용함으로써 캐시메모리의 활용도를 높인다. 그리고 인접한 단말노드들과 내부 색인노드들을 링크포인터를 통해 서로 연결함으로써 색인 엔트리들의 순차적 접근을 가능하도록 한다. 본 논문에서는 성능평가를 위한 비용 모델을 개발하고, 이를 이용하여 캐시미스 발생 횟수를 평가하였다. 그 결과 단일키 값 검색에서는 기존의 캐시만을 고려한 CST-트리에 비해 약 20~30%의 캐시미스 발생 횟수가 감소하였고, 범위질의에서는 기존의 범위질의만을 고려한 색인구조인 $T^*$-트리에 비해 약 10~20%의 캐시미스 발생 횟수가 감소하였다.

  • PDF

n-way Set Associative Cache와 Fully Associative Cache성능 분석 (Performance Analysis of n-way Associative Cache and Fully Associative Cache)

  • 조용훈;김정선
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.802-810
    • /
    • 1997
  • 본 논문에서는 n-way Set Associative Cache와 Fully Associative Cache의 유용성 검증을 위하여 direct mapping,2_,4_,16_way set associative mapping 뿐만 아니라 32_, 64_,128_,256_,512_,1024_,2048_,그리고4096_way set assiciative mapping을 사용하는 캐취 의 성능을 제안된 시뮬레이터 프로그램을 실행시켜 분석한다. 일반적으로 캐쉬 메모리 내에있는 하나의 라인보호 내에 수용 가능한 주기억장치의 라인 수 n이 커짐에 따라 그 성능 선형적으로 개선될 것으로 기대되지만, 본 논문의 분석에 따르면 512K 이상의 대용량 캐쉬에서는 n의 변화에 따른 성능 개선이 거의 없는 상태였고 소용량 캐쉬의 경우에도 사용된 라이사이즈가 작은 경우 그 성능개선이 미미하였으며 라인사이즈가 비교적 큰 캐쉬에서는 괄목할 만한 성능개선이 있음을 확인하였다.

  • PDF

압축 지역성 수준에 기반한 캐쉬 인식 압축 색인 (A Cache-Conscious Compression Index Based on the Level of Compression Locality)

  • 김원식;유재준;이진수;한욱신
    • 한국멀티미디어학회논문지
    • /
    • 제13권7호
    • /
    • pp.1023-1043
    • /
    • 2010
  • 최근 메인 메모리의 용량 증가와 가격하락으로 데이터베이스 시스템에서 사용하고 있는 색인 전체를 메인 메모리상에 상주시키는 것이 가능해지고 있다. 그러나 CPU와 메인 메모리의 연산속도와 메인 메모리의 접근 속도의 차이는 해마다 커지고 있다. 이러한 접근 속도 차이로 생기는 문제를 해결하기 위한 많은 연구가 진행 중에 있다. 이러한 연구 중 캐시 인식 트리는 데이터 압축을 통해서 캐시 미스를 줄이고, 메인 메모리의 접근 비용을 감소시킬 수 있다. 기존의 캐시 인식 트리는 데이터의 특성과 관계없이 오직 한 가지 방법의 압축방법을 사용하는 한계가 있다. 본 논문에서는 이러한 한계를 극복 할 수 있는 방법을 제안한다. 첫 번째로, 데이터의 특성을 설명 할 수 있는 압축 지역성의 개념을 제안한다. 두 번째로, 데이터의 특성에 따라 최대한 캐시 미스를 줄일 수 있도록 여러 가지 압축 방법을 지원하는 DC-Tree를 제안한다. 캐시 미스 수 측면에서 DC-Tree는 B+-Tree, Simple prefix DC-Tree, pkB-Tree에 비해 각각 1.7배, 1.5배, 1.3배의 성능 향상을 보였다. 본 논문에서 제안한 DC-Tree는 사업 데이터베이스 시스템에 적용 할 수 있을 것으로 예상되며, 실제 응용에서도 성능 향상을 보일 수 있을 것이다.

대용량 파일시스템을 위한 선택적 압축을 지원하는 인-메모리 캐시의 설계와 구현 (Design and Implementation of an In-Memory File System Cache with Selective Compression)

  • 최형원;서의성
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.658-667
    • /
    • 2017
  • DRAM 기반의 인메모리 캐시는 고비용으로 인해 용량을 늘리는 데에는 한계가 있다. 이를 위해 압축을 이용하여 더 많은 데이터를 캐시하는 기법들이 연구되어 왔다. 그러나 압축은 높은 처리부하와 반응 지연을 야기한다. 본 논문에서는 섀넌 엔트로피를 통해 파일의 압축률을 낮은 오버헤드를 통해 고속으로 예측하여, 높은 압축률을 가진 파일만 압축하는 선택적 압축 기법을 제안하였다. 또한 이를 파일시스템 내에서 실제 사용이 가능하도록 커널 레벨에서 파일 시스템을 위한 인메모리 캐시를 제공하도록 구현하였다. 실험 결과 선택적 압축 기법은 비 압축에 비해 약 18%의 실행시간 감소를 보이며, 전체 캐시 데이터 압축 방법에 비해서도 캐시 히트율의 감소에 의한 성능하락을 최소화 시키고, 동시에 압축에 대한 오버헤드를 줄여, 7.5%의 실행시간을 감소시킬 수 있음을 보였다. 또한 압축에 사용되는 CPU사용시간을 모두 압축 했을 때와 비교하여 28%감소시킬 수 있음을 보여주었다.

압축블록의 압축률 분포를 고려해 설계한 내장캐시 및 주 메모리 압축시스템 (An On-chip Cache and Main Memory Compression System Optimized by Considering the Compression rate Distribution of Compressed Blocks)

  • 임근수;이장수;홍인표;김지홍;김신덕;이용석;고건
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권1_2호
    • /
    • pp.125-134
    • /
    • 2004
  • 최근에 프로세서-메모리간 성능격차 문제를 완화하기 위하여 내장캐시의 접근실패율을 낮추고 메모리 대역폭을 확장하는 내장캐시 압축시스템이 제안되었다. 내장캐시 압축시스템은 데이타를 압축해 저장함으로써 내장캐시의 실질적 저장공간을 확장하고, 메모리 버스에서 데이타를 압축해 전송함으로써 실질적 메모리 대역폭을 확장한다. 본 논문에서는 이와 같은 내장캐시 압축시스템을 확장해 기존의 주 메모리 압축시스템과 병합해 설계한 이종 메모리 압축시스템을 제안한다. 주 메모리의 기억공간을 효율적으로 확장하고, 내장캐시의 접근실패율을 낮추고, 메모리 대역폭을 확장하고, 압축캐시의 복원시간을 줄이고, 설계 복잡도를 낮추기 위하여 몇 가지 새로운 기법들을 제시한다. 제안하는 시스템과 비교대상 시스템의 성능은 슈퍼스칼라 구조의 마이크로프로세서 시뮬레이터를 수정하여 실행기반 시뮬레이션을 통해 검증한다. 본 논문에서 사용한 실험방법은 기존의 트레이스기반 시뮬레이션과 비교해 보다 높은 정확도를 갖는다. 실험결과 주 메모리 확장에 따른 이득을 고려하지 않은 경우에 제안하는 시스템은 일반 메모리시스템에 비하여 수행시간을 내장캐시의 크기에 따라 최대 4-23%가량 단축한다. 제안하는 시스템의 데이타 메모리와 코드 메모리의 확장비율은 각각 57-120%와 27-36%이다.

계층적 메모리 구성에 따른 GPU 성능 분석 (Analysis on the GPU Performance according to Hierarchical Memory Organization)

  • 최홍준;김종면;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.22-32
    • /
    • 2014
  • 병렬 연산에 최적화된 하드웨어를 가진 GPU를 그래픽스 작업 이외에 범용 작업에 활용하고자, 최근에 GPGPU 기술이 큰 관심을 받고 있다. GPU와 같은 대용량 병렬처리 장치에서는 메모리 시스템이 성능에 큰 영향을 미치게 된다. GPU에서는 메모리 시스템의 효율성을 향상시키기 위하여, 메모리 대역폭 사용률을 감소시켜주는 계층적 메모리 구조와 메모리를 요청하는 트랜잭션을 줄여주는 메모리 주소 접합과 메모리 요청 합병 등의 기술들을 사용한다. 본 논문에서는 메모리 시스템 효율성 향상을 위해 활용되는 기법들이 GPU 성능에 미치는 영향을 정량적으로 평가하고 분석하기 위해, 다양한 메모리 구조에 대한 실험을 수행한다. 실험 결과에 따르면, 캐쉬를 사용하지 않는 경우에 비해 8KB, 16KB, 32KB, 64KB의 L1 캐쉬를 추가하면 평균적으로 15.5%, 21.5%, 25.5%, 30.9%의 성능이 각각 향상된다. 하지만, 일부 벤치마크 프로그램에서는 데이터 일관성을 유지하기 위하여 메모리 트랜잭션이 증가함에 따라 오히려 성능이 감소하는 결과를 보이기도 한다. 그리고 메모리 요청에 대한 미스가 많이 발생하는 경우에는 캐쉬 레벨이 증가함에 따라 평균 메모리 접근 지연 시간이 증가하기도 한다.

GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현 (Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs)

  • 김영태;김두한;유명한
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPU는 그래픽 처리를 위한 GPU의 다중쓰레드를 일반 수치 계산에 활용하여 초고속으로 계산하는 장치이다. GP-GPU에서는 CPU의 캐시메모리와는 달리 다중쓰레드가 공유하는 공유메모리의 형태로 캐시메모리를 제공하며, 공유메모리는 사용자 프로그램에서 직접 제어할 수 있다. 본 연구에서는 GP-GPU의 캐시메모리를 사용하여 계산 성능을 향상시키기 위한 블록 구조의 병렬 LU 분해 프로그램을 구현하였다. Nvidia CUDA C로 구현된 병렬 블록 LU 분해 프로그램은 동일한 GP-GPU 상에서 일반 LU 분해 프로그램에 비교하여 7~8배 이상의 속도 개선을 보였다.

혼합 지연 모델에 기반한 비동기 명령어 캐시 설계 (Design of an Asynchronous Instruction Cache based on a Mixed Delay Model)

  • 전광배;김석만;이제훈;오명훈;조경록
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.64-71
    • /
    • 2010
  • 최근에는 프로세서의 고성능화에 따라 명령어 캐시와 데이타 캐시를 분리하는 구조의 설계가 일반적이다. 본 논문에서는 혼합 지연모델을 갖는 비동기식 명령어 캐쉬구조를 제안하며, 데이타 패스에는 지연무관인 회로모델을 적용하고 메모리 에는 번들지연모델을 도입하였다. 요소기술로는 명령어 캐시는 CPU, 프로그램 메모리와 4-상 핸드쉐이크(hand-shake) 프로토콜로 데이터를 전달하고, 8-K바이트, 4상 연관의 맵핑 구조를 가지며 Pseudo-LRU 엔트리 교체알고리즘을 채택하였다. 성능분석을 위하여 제안된 명령어 캐시를 게이트레벨로 합성하고 32비트 임베디드 프로세서와 연동하는 플랫폼을 구축하였다. 구축한 플랫폼에서 MI벤치마크 프로그램을 테스트하여 99%의 캐시히트율과 레이턴시가 68% 감소하는 결과를 얻었다.

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.