• 제목/요약/키워드: Cache-miss

검색결과 99건 처리시간 0.022초

혼합 지연 모델에 기반한 비동기 명령어 캐시 설계 (Design of an Asynchronous Instruction Cache based on a Mixed Delay Model)

  • 전광배;김석만;이제훈;오명훈;조경록
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.64-71
    • /
    • 2010
  • 최근에는 프로세서의 고성능화에 따라 명령어 캐시와 데이타 캐시를 분리하는 구조의 설계가 일반적이다. 본 논문에서는 혼합 지연모델을 갖는 비동기식 명령어 캐쉬구조를 제안하며, 데이타 패스에는 지연무관인 회로모델을 적용하고 메모리 에는 번들지연모델을 도입하였다. 요소기술로는 명령어 캐시는 CPU, 프로그램 메모리와 4-상 핸드쉐이크(hand-shake) 프로토콜로 데이터를 전달하고, 8-K바이트, 4상 연관의 맵핑 구조를 가지며 Pseudo-LRU 엔트리 교체알고리즘을 채택하였다. 성능분석을 위하여 제안된 명령어 캐시를 게이트레벨로 합성하고 32비트 임베디드 프로세서와 연동하는 플랫폼을 구축하였다. 구축한 플랫폼에서 MI벤치마크 프로그램을 테스트하여 99%의 캐시히트율과 레이턴시가 68% 감소하는 결과를 얻었다.

KDBcs-트리 : 캐시를 고려한 효율적인 KDB-트리 (KDBcs-Tree : An Efficient Cache Conscious KDB-Tree for Multidimentional Data)

  • 여명호;민영수;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.328-342
    • /
    • 2007
  • 본 논문에서는 데이타의 갱신이 빈번한 상황에서 데이타의 갱신을 효율적으로 처리하기 위한 색인 기법을 제안한다. 제안하는 색인구조는 대표적인 공간 분할 색인 기법 중 하나인 KDB-트리를 기반으로 하고 있으며, 캐시의 활용도를 높이기 위한 데이타 압축 기법과 포인터 제거 기법을 제안한다. 제안하는 기법의 우수성을 보이기 위해서 기존의 대표적인 캐시를 고려한 색인 구조중 하나인 CR-트리와 실험을 통해 성능을 비교하였으며, 성능평가 결과, 제안하는 색인 구조는 삽입 성능과 갱신 성능, 캐시 활용도 면에서 기존 색인 기법에 비해 각각 85%, 97%, 86% 의 성능이 향상되었다.

이동 컴퓨팅 환경에서 요구 패턴 분석을 기반으로 하는 캐쉬 대체 전략 (A Cache Replacement Strategy based on the Analysis of Request Patterns in Mobile Computing Environments)

  • 이윤장;신동천
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.780-791
    • /
    • 2003
  • 낮은 대여폭을 갖는 이동 컴퓨팅 환경에서 캐슁은 요구 경쟁을 감소시킴으로서 응답시간을 향상시킬수 있는 유용한 방법이다. 전통적인 캐쉬 기반의 시스템에서는 히트율을 향상시키는 것이 일반적으로 빠른 응답시간을 위한 주요한 관심사중의 하나였다. 그렇지만, 이동 컴퓨팅 환경에서는 히트율 뿐만 아니라 미스 비용의 고려도 필요하다. 본 논문에서는 풀 기반의 데이타 분산 시스템에서 새로운 캐쉬 대체 전략을 제시하고 시뮬레이션을 통하여 성능을 평가한다. 제시한 전략은 인기도와 대기 시간을 함께 고려하여 인기도와 대기 시간을 곱한 값 중에서 가장 작은 값을 갖는 페이지를 대체 페이지로 선정한다.

STP-FTL: An Efficient Caching Structure for Demand-based Flash Translation Layer

  • Choi, Hwan-Pil;Kim, Yong-Seok
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권7호
    • /
    • pp.1-7
    • /
    • 2017
  • As the capacity of NAND flash module increases, the amount of RAM increases for caching and maintaining the FTL mapping information. In order to reduce the amount of mapping information managed in the RAM, a demand-based address mapping method stores the entire mapping information in the flash and some valid mapping information in the form of cache in the RAM so that the RAM can be used efficiently. However, when cache miss occurs, it is necessary to read the mapping information recorded in the flash, so overhead occurs to translate the address. If the RAM space is not enough, the cache hit ratio decreases, resulting in greater overhead. In this paper, we propose a method using two tables called TPMT(Translation Page Mapping Table) and SMT(Segmented Translation Page Mapping Table) to utilize both temporal locality and spatial locality more efficiently. A performance evaluation shows that this method can improve the cache hit ratio by up to 30% and reduces the extra translation operations by up to 72%, compared to the TPM scheme.

동적 분기 예측을 지원하는 임베디드 코어 자동 생성 시스템의 설계와 구현 (Design and Implementation of an Automatic Embedded Core Generation System Using Advanced Dynamic Branch Prediction)

  • 이현철;황선영
    • 한국통신학회논문지
    • /
    • 제38B권1호
    • /
    • pp.10-17
    • /
    • 2013
  • 본 논문은 분기 예측을 지원하는 임베디드 코어 자동 생성 시스템을 제안한다. 제안된 시스템은 동적 분기 예측모듈에 히스토리/분기방향 flag가 추가된 BTAC(Branch Target Address Cache)를 포함하여 타겟 어플리케이션의 수행 속도를 향상 시킬 수 있도록 하였다. 시뮬레이션으로부터 해당 어플리케이션의 분기 정보를 추출하고 이를 토대로 BHT(Branch History Table)와 BTAC의 entry를 결정한다. 제안된 분기 예측의 효율성을 검증하기 위해서 동적 분기 예측 모듈을 포함하는 ARM9TDMI 코어를 SMDL로 기술하고 코어를 생성하였다. 실험 결과는 entry의 수에 따라 면적은 60%까지 증가하였고 어플리케이션의 수행 사이클과 BTAC의 miss rate는 평균 1.7%, 9.6%씩 감소하였다.

스트라이드 배열 병합 방법의 데이터 선인출 효과 (Data Prefetching Effect of the Stride Merging-Arrays Method)

  • 정인범;이준원
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권11호
    • /
    • pp.1429-1436
    • /
    • 1999
  • 데이타들에 대한 선인출 효과를 얻기 위하여 캐쉬 메모리의 캐쉬 블록은 다중 워드로 구성된다. 그러나 선인출된 데이타들이 사용되지 않을 경우 캐쉬 메모리가 낭비되고 따라서 캐쉬 실패율이 증가한다. 데이타 배열 병합 방법은 캐쉬 실패 원인의 하나인 캐쉬 충돌 실패를 감소시키기 위하여 사용되고 있다. 그러나 기존의 배열 병합 방법은 유용하지 못한 데이타들을 캐쉬 블록에 선인출하는 현상을 보인다. 본 논문에서는 이러한 현상을 개선한 스트라이드 배열 병합을 제안한다. 모의시험에서 캐쉬 블록이 다중 워드로 구성된 경우 스트라이드 배열 병합은 캐쉬 충돌 실패를 감소시킬 뿐 만 아니라 유용한 데이타 선인출을 증가 시키므로 캐쉬 성능을 향상시킴을 보여준다. 또한 이렇게 향상된 캐쉬 성능은 프로세서 증가에 따른 확장성 있는 프로그램 성능을 나타낸다.Abstract The cache memory is composed of cache lines with multiple words to achieve the effect of data prefetching. However, if the prefetched data are not used, the spaces of the cache memory are wasted and thus the cache miss rate increases. The data merging-arrays method is used for the sake of the reduction of the cache conflict misses. However, the existing merging-arrays method results in the useless data prefetching. In this paper, a stride merging-arrays method is suggested for improving this phenomenon. Simulation results show that when a cache line is composed of multiple words, the stride merging-arrays method increases the cache performance due to not only the reduction of cache conflict misses but also the useful data prefetching. This enhanced cache performance also represents the more scalable performance of parallel applications according to increasing the number of processors.

수퍼스칼라 프로세서의 해석적 모델 및 성능 분석 (Analytical Models and their Performance Analysis of Superscalar Processors)

  • 김학준;김선모;최상방
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권7호
    • /
    • pp.847-862
    • /
    • 1999
  • 본 논문에서는 유한버퍼의(finite-buffered) 동기화된(synchronous) 큐잉모델(queueing model)을 이용하여 명령어들간의 병렬성, 분기명령의 빈도수, 분기예측(branch prediction)의 정확도, 캐쉬미스 등의 파라미터들을 고려하여 프로세서의 명령어 실행율을 예측하며 캐쉬의 성능과 파이프라인 성능간의 관계를 분석할 수 있는 새로운 해석적 모델을 제안하였다. 해석적 모델은 모델의 타당성을 검증하기 위해서 시뮬레이션을 수행하여 얻은 결과와 비교하였다. 해석적 모델과 시뮬레이션을 비교한 결과 대부분 10% 오차 내에서 일치하였다. 본 연구를 통하여 얻은 해석적 모델을 사용하면 시뮬레이션에서는 드러나지 않는 성능제약의 원인에 대한 명확한 규명이 가능하기 때문에 성능향상을 위한 설계자료를 얻을 수 있으며, 시스템 성능 밸런스를 위한 캐쉬와 비순차이슈 파이프라인 성능간의 관계에 대한 정확한 분석이 가능하다.Abstract This research presents a novel analytic model to predict the instruction execution rate of superscalar processors using the queuing model with finite-buffer size and synchronous operation mode. The proposed model is also able to analyze the performance relationship between cache and pipeline. The proposed model takes into account various kinds of architectural parameters such as instruction-level parallelism, branch probability, the accuracy of branch prediction, cache miss, and etc.. To prove the correctness of the model, we performed extensive simulations and compared the results with the analytic model. Simulation results showed that the proposed model can estimate the average execution rate accurately within 10% error compared to simulation results. The proposed model can explain the causes of performance bottleneck which cannot be uncovered by the simulation method only. The model is also able to show the effect of the cache miss on the performance of out-of-order issue superscalar processors, which can provide an valuable information in designing a balanced system.

Dynamic Probabilistic Caching Algorithm with Content Priorities for Content-Centric Networks

  • Sirichotedumrong, Warit;Kumwilaisak, Wuttipong;Tarnoi, Saran;Thatphitthukkul, Nattanun
    • ETRI Journal
    • /
    • 제39권5호
    • /
    • pp.695-706
    • /
    • 2017
  • This paper presents a caching algorithm that offers better reconstructed data quality to the requesters than a probabilistic caching scheme while maintaining comparable network performance. It decides whether an incoming data packet must be cached based on the dynamic caching probability, which is adjusted according to the priorities of content carried by the data packet, the uncertainty of content popularities, and the records of cache events in the router. The adaptation of caching probability depends on the priorities of content, the multiplication factor adaptation, and the addition factor adaptation. The multiplication factor adaptation is computed from an instantaneous cache-hit ratio, whereas the addition factor adaptation relies on a multiplication factor, popularities of requested contents, a cache-hit ratio, and a cache-miss ratio. We evaluate the performance of the caching algorithm by comparing it with previous caching schemes in network simulation. The simulation results indicate that our proposed caching algorithm surpasses previous schemes in terms of data quality and is comparable in terms of network performance.

적응력있는 블록 교체 기법을 위한 효율적인 버퍼 할당 정책 (Efficient Buffer Allocation Policy for the Adaptive Block Replacement Scheme)

  • 최종무;조성제;노삼혁;민상렬;조유근
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권3호
    • /
    • pp.324-336
    • /
    • 2000
  • 본 논문에서는 디스크 입출력 시스템의 성능을 향상시키기 위한 효율적인 버퍼 관리 기법을 제시한다. 본 기법은 사용자 수준의 정보 없이 블록의 속성과 미래 참조 거리간의 관계를 기반으로 각 응용의 블록 참조 패턴을 자동으로 발견하고, 발견된 참조 패턴에 적합한 최적 블록 교체 기법을 적용한다. 또한, 응용이 참조하는 블록이 버퍼 캐쉬에 없어 새로운 버퍼 블록이 요구될 때, 응용별로 블록 참조 패턴에 따라 버퍼 예상 적중률을 분석하여 이를 기반으로 전체 버퍼 캐쉬의 적중률이 극대화되도록 해 주는 버퍼 할당 기법을 제안한다. 이러한 모든 과정은 시스템 수준에서 자동으로 그리고 온라인으로 수행된다. 제시한 기법의 성능을 평가하기 위해 블록 참조 트레이스를 이용해 모의 실험을 수행하였다. 실험 결과 제시한 기법은 적은 오버헤드로 기존의 블록 교체 기법들보다 캐쉬 블록의 적중률을 크게 향상시켜 주었다.

  • PDF

데이터 재구성 기법을 이용한 고성능 FFT (High-Performance FFT Using Data Reorganization)

  • 박능수;최영호
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.215-222
    • /
    • 2005
  • 대규모 신호처리 변환을 신속하게 처리하기 위해서는 캐시 메모리를 효과적으로 이용하는 것이 중요하다. 대규모 DFT 계산에서는 stride 액세스로 인한 캐시 충돌 적중 실패로 인하여 캐시 성능이 상당히 떨어지게 되고 이로 인해 전체적인 성능이 저하하게 된다. 본 논문에서는 메모리 계층 구조를 고려한 동적 데이터 재배열(Dynamic Data Layout) 방법을 개발하였다. 제시된 방법은 stride를 가지는 계산 단계(computation stage) 사이에 데이터를 동적으로 재구성을 하여 캐시 적중 실패를 줄이는 것이다. 또한 트리 구조 FFT 계산 방법에서 FFT 크기와 데이터 stride 액세스를 기초로 하여 가능한 모든 인수분해 트리 중에서 최소 실행시간을 가지는 최적의 인수 분해트리를 찾아내는 탐색 알고리즘을 개발하였다. 성능 향상을 확인하기 위하여 제시된 방법을 기존의 FFT 알고리즘에 적용하여 Pentium 4, Alpha 21264, $Athlon^{TM}$ 64, UltraSPARC III에서 실험하였다. 실험 결과에 따르면 기존의 FFT 패키지들과 비교하여 제시된 방법을 적용한 FFT가 최대 3.37배의 성능 향상을 얻을 수 있었다.