• 제목/요약/키워드: cache performance

검색결과 656건 처리시간 0.023초

가상화 환경에서 스토리지 성능 향상을 위한 호스트 캐시 마이그레이션 엔진 설계 및 구현 (Design and Implementation of Host-side Cache Migration Engine for High Performance Storage in A Virtualization Environment)

  • 박준영;박현찬;유혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권6호
    • /
    • pp.278-283
    • /
    • 2016
  • 최근 폭발적으로 증가하는 사용자 데이터가 클라우드에 저장됨에 따라 고품질의 일관된 성능으로 클라우드 스토리지 서비스를 제공하는 것이 더욱 더 중요해지고 있다. 하지만 클라우드 관리를 위한 가상머신 이주(migration)로 인해 스토리지 서비스의 품질이 저하될 수 있다. 특히 플래시 캐시를 사용하는 환경에서는 가상머신 이주가 실행 될 경우 기존 서버에 예열된 캐시를 잃고 새로운 머신에서 콜드 스타트하는 문제가 발생한다. 본 논문은 위의 문제를 해결하기 위해 가상머신 이주로 인한 캐시의 콜드 스타트 문제를 시연 및 분석하고 플래시 캐시의 효율적인 핫 스타트를 수행하는 캐시미어 기법을 제안한다.

캐시 이미지의 동적 관리 방법을 이용한 명령어 캐시 성능 개선 (Improving Instruction Cache Performance by Dynamic Management of Cache-Image)

  • 서효중
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권9호
    • /
    • pp.564-571
    • /
    • 2017
  • 프로세스 구동시마다 캐시 이미지를 메모리로부터 버스트 로딩하여 초기 캐시 실패를 줄이는 방법은 프로그램의 시작으로부터 초기화 부분의 지연을 줄이고 에너지 소모를 줄이는 데 효과적이다. 하지만 로딩에 사용하기 위한 적절한 캐시 이미지는 컴파일러와 인스톨러 등 소프트웨어적인 접근 방법을 이용하여 적절한 캐시 이미지를 생성하는 과정이 필요하며, 동적인 수행 특성을 보이는 프로세스의 경우 비효율적이다. 본 논문은 이러한 손실에 주목하여, 하드웨어를 부가하여 캐시 이미지를 동적으로 생성하고 관리하는 방법을 제안하고자 한다. 시뮬레이션 결과에 따르면 제안한 방법을 사용할 경우 프로그램의 캐시 필요량에 따른 적절한 이미지 크기를 유지할 수 있어 기존의 캐시 이미지 로딩 기법을 더욱 효율적으로 개선할 수 있었다.

Low Power Trace Cache for Embedded Processor

  • Moon Je-Gil;Jeong Ha-Young;Lee Yong-Surk
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.204-208
    • /
    • 2004
  • Embedded business will be expanded market more and more since customers seek more wearable and ubiquitous systems. Cellular telephones, PDAs, notebooks and portable multimedia devices could bring higher microprocessor revenues and more rewarding improvements in performance and functions. Increasing battery capacity is still creeping along the roadmap. Until a small practical fuel cell becomes available, microprocessor developers must come up with power-reduction methods. According to MPR 2003, the instruction and data caches of ARM920T processor consume $44\%$ of total processor power. The rest of it is split into the power consumptions of the integer core, memory management units, bus interface unit and other essential CPU circuitry. And the relationships among CPU, peripherals and caches may change in the future. The processor working on higher operating frequency will exact larger cache RAM and consume more energy. In this paper, we propose advanced low power trace cache which caches traces of the dynamic instruction stream, and reduces cache access times. And we evaluate the performance of the trace cache and estimate the power of the trace cache, which is compared with conventional cache.

  • PDF

고성능 데이터 캐시 메모리 구조 (High Performance Data Cache Memory Architecture)

  • 김홍식;김정길
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.945-951
    • /
    • 2008
  • 공간적 지역성(spatial locality) 및 시간적 지역성(temporal locality)을 동시에 향상시킬 수 있는 새로운 고성능 데이터 캐시 구조를 제안한다. 제안된 캐시 메모리는 하드웨어 프리패치 유닛과 큰 블록 크기를 갖는 직접사상(DM: direct mapped) 캐시와 작은 블록 크기를 갖는 완전 사상(FA: fully associative) 캐시의 하위 캐시 유닛으로 구성된다. 공간적 지역성은 블록 데이터를 패치하여 직접 사상 캐시에 저장함으로써 보장되며, DM 캐시 히트가 발생한 경우에 그 이웃 데이터 블록을 프리패치 함으로써 최적화 된다. 시간적 지역성은 작은 블록 데이터가 DM 캐시로부터 제거 될때 그 블록의 과거 기록에 따라서 중요한 데이터는 완전사상 캐시에 저장함으로써 보장된다. Spec2000 벤치 마크 프로그램에 대한 실험 결과에 의하면 제안된 캐시 구조는 비슷한 크기의 직접사상 캐쉬, 4웨이 연관사상(4 way set associative cache) 및 SMI(selective-mode intelligent cache) 캐쉬 [8]등의 기존의 구조에 비해서 미스 비율(miss rate)을 평균적으로 $12.53\sim23.62%$ 그리고 AMAT(average memory access time)를 평균적으로 $14.67\sim18.60%$ 줄일 수 있음을 증명하였다.

Performance Analysis of Adaptive Partition Cache Replacement using Various Monitoring Ratios for Non-volatile Memory Systems

  • Hwang, Sang-Ho;Kwak, Jong Wook
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권4호
    • /
    • pp.1-8
    • /
    • 2018
  • In this paper, we propose an adaptive partition cache replacement policy and evaluate the performance of our scheme using various monitoring ratios to help lifetime extension of non-volatile main memory systems without performance degradation. The proposal combines conventional LRU (Least Recently Used) replacement policy and Early Eviction Zone (E2Z), which considers a dirty bit as well as LRU bits to select a candidate block. In particular, this paper shows the performance of non-volatile memory using various monitoring ratios and determines optimized monitoring ratio and partition size of E2Z for reducing the number of writebacks using cache hit counter logic and hit predictor. In the experiment evaluation, we showed that 1:128 combination provided the best results of writebacks and runtime, in terms of performance and complexity trade-off relation, and our proposal yielded up to 42% reduction of writebacks, compared with others.

고성능 DSP에서 동영상 인코더의 최적화 구현을 위한 캐쉬 및 내부 메모리 성능 분석 (Performance Analysis of Cache and Internal Memory of a High Performance DSP for an Optimal Implementation of Motion Picture Encoder)

  • 임세훈;정선태
    • 한국콘텐츠학회논문지
    • /
    • 제8권5호
    • /
    • pp.72-81
    • /
    • 2008
  • 고성능 DSP는 보통 캐쉬와 내부 메모리를 지원한다. 이러한 고성능 DSP에 멀티미디어 스트림 응용을 최적화하여 구현하고자 하는 경우에는, DSP 가 지원하는 캐쉬와 내부 메모리를 효율적으로 잘 활용하여야 한다. 본 논문에서는 2단계 레벨 캐쉬 구조 및 내부 메모리 구성을 지원하는 고성능 DSP인 TMS320C6000 시리즈에 대해 동영상 인코더와 같은 멀티미디어 스트림 처리 응용을 최적으로 구현하기 위해서 필요한 캐쉬 성능 분석, 내부 메모리 구성 및 배치에 따른 성능 분석과 개선 방안에 대해 연구하였다. 분석 및 실험 결과, L2 메모리의 경우, 이중 집합연관 캐쉬로 구성하고, 남은 메모리는 내부 메모리로 구성하는 것이 수행 시간 성능 개선에 효과적임을 확인하였다. 또한, L1P 캐쉬의 경우는 자주 호출되고 시간이 많이 소요되는 루틴들을 연속적으로 내부 메모리에 배치하는 것이 L1P 캐쉬의 히트 율을 개선하며, L1D 캐쉬의 경우는 사용하는 데이터의 크기를 조절하므로 써 쉽게 히트 율을 개선할 수 있다는 것을 밝혔다. 본 논문의 연구 결과는 고성능 DSP 에 멀티미디어 스트림 처리 응용을 최적화로 구현하는데 도움을 줄 것으로 기대한다.

4Ghz 고성능 CPU 위한 캐시 메모리 시스템 (Cache memory system for high performance CPU with 4GHz)

  • 정보성;이정훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 4Ghz의 빠른 클럭 속도의 CPU에 적합한 고성능 L1 캐시 메모리 구조를 제안한다. 제안된 캐시 메모리는 빠른 접근 시간을 위한 직접사상 캐시와 시간적 지역성을 고려한 2-way 연관사상 버퍼 그리고 버퍼 선택 테이블로 구성된다. 빠른 접근 시간을 보장하는 직접사상 캐시는 가장 최근 접근한 데이터를 저장하게 된다. 만약에 직접사상 캐쉬로부터 추출되는 데이터가 다시 참조되어질 높은 확률을 가지는 데이터이면 그 데이터들은 2-웨이 연관사상 버퍼로 선택적으로 저장되어 진다. 그리고 고성능과 저전력의 효과를 높이기 위하여 2-웨이 연관사상 버퍼중 하나의 웨이만 선택적으로 먼저 접근되어지며, 이러한 동작은 버퍼 선택 테이블에 의해 선택된다. 시뮬레이션 결과에 따르면, 에너지 소비와 평균 메모리 접근 시간을 고려한 에너지$^*$지연시간에서 두배 이상의 크기를 가지는 직접사상 캐시, 4-웨이 연관사상 캐시 그리고 희생 캐시에 비해 각각 45%, 70% 그리고 75%의 성능향상을 이루었다.

DM-Cache를 이용해 구현한 SSD 캐시의 성능 평가 (Performance Evaluation of SSD Cache Based on DM-Cache)

  • 이재면;강경태
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권11호
    • /
    • pp.409-418
    • /
    • 2014
  • 최근 클라우드 서비스와 소셜 네트워크 서비스가 활성화되면서 스토리지 서버에 저장해야 할 데이터의 용량이 급격히 증가하고 있으며, 사용자의 고품질 미디어 데이터에 대한 높은 수요는 이러한 경향을 더더욱 가속화하고 있다. 이와 더불어 데이터의 효율적 참조를 통한 처리시간 감소는 이미 과거로부터 꾸준히 요구되어온 시스템 설계 주 고려사항이다. 이런 이유로 하이브리드 디스크의 효율적인 사용에 대한 많은 기술연구가 진행되고 있다. 그 핵심이라고 할 수 있는 리눅스 기반 SSD 캐시 기법은 내장된 DM-cache를 활용하여 구현하는데, 현재 이에 대한 최적화 관련 정책 연구가 많이 부족한 실정이다. 본 연구에서는, 다양한 환경에서 성능 평가를 통하여 현재 제공되고 있는 DM-cache의 문제점을 파악하였다. 그 결과, 일반 운영체제에서 실험한 DM-cache는 읽기 명령 시 나름대로의 효과를 보고 있지만, 특히 가상 머신이 탑재된 운영체제 환경에서는 DM-cache의 사용으로 인한 성능 개선을 찾을 수 없었으며 오히려 캐시 오버헤드로 성능 저하가 발생함을 확인하였다.

Exploiting Static Non-Uniform Cache Architectures for Hard Real-Time Computing

  • Ding, Yiqiang;Zhang, Wei
    • Journal of Computing Science and Engineering
    • /
    • 제9권4호
    • /
    • pp.177-189
    • /
    • 2015
  • High-performance processors using Non-Uniform Cache Architecture (NUCA) are increasingly used to deal with the growing wire delays in multicore/manycore processors. Due to the convergence of high-performance computing with embedded computing, NUCA caches are expected to benefit high-end embedded systems as well. However, for real-time systems that use multicore processors with NUCA caches, it is crucial to bound worst-case execution time (WCET) accurately and safely. In this paper, we developed a WCET analysis approach by considering the effect of static NUCA caches on WCET. We compared the WCET in real-time applications with different topologies of static NUCA caches. Our experimental results demonstrated that the static NUCA cache could improve the worst-case performance of realtime applications using multicore processor compared to the cache with uniform access time.

대규모 병렬 시스템에서 캐시와 공유메모리를 이용한 유한 차분법 성능 (Performance of the Finite Difference Method Using Cache and Shared Memory for Massively Parallel Systems)

  • 김현규;이효종
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.108-116
    • /
    • 2013
  • 최근 GPU 시스템과 같은 수백 개의 프로세서로 구성된 대규모 병렬 시스템을 이용하여 성능을 향상시키는 방법들이 많이 개발 되었다. 대표적으로 GPU에서 캐싱(Caching)과 유사한 개념으로 공유 메모리가 사용되었다. 출력 값을 얻기 위해서 이웃 값을 참조하는 이미지 필터와 같은 알고리즘들의 경우 이웃 값의 참조가 빈번하게 발생되므로 공유 메모리를 사용할 경우 성능이 향상되었다. 그러나 공유 메모리를 사용하기 위해서는 기존 코드를 재 구현해야만 하고 이는 코드의 복잡도를 증가시키는 원인이 된다. 최근 GPU 시스템에서는 공유 메모리 뿐 아니라 L1과 L2 캐시 메모리를 지원하도록 하였다. L1 캐시 메모리는 공유 메모리와 동일한 하드웨어에 위치하여 캐시의 사용이 성능향상을 도와줄 것으로 예측된다. 따라서 본 논문에서는 캐시 메모리와 공유 메모리의 성능을 비교하였다. 연구결과 성능 면에서 캐시 메모리를 사용한 알고리즘과 공유메모리를 사용한 알고리즘은 유사하였다. 특히 캐시 메모리를 사용하는 경우 공유메모리 사용 프로그래밍에서 나타나는 코드 복잡도의 증가 문제도 동시에 해결할 수 있었다.