• 제목/요약/키워드: cache miss

검색결과 99건 처리시간 0.027초

고속 정적 RAM 명령어 캐시를 위한 방사선 소프트오류 검출 기법 (Radiation-Induced Soft Error Detection Method for High Speed SRAM Instruction Cache)

  • 권순규;최현석;박종강;김종태
    • 한국통신학회논문지
    • /
    • 제35권6B호
    • /
    • pp.948-953
    • /
    • 2010
  • 본 논문에서는 슈퍼스칼라 구조를 가진 시스템의 명령어 캐시에서 효율적으로 소프트오류를 검출할 수 있는 기법을 제안한다. 명령어 캐시로 주로 사용되는 고속 정적 RAM(Random Access Memory)에 적용할 수 있으며 1D 패리티와 인터리빙을 통해 기존 기법들과 비교하여 더 적은 메모리 오버헤드로 연집오류를 검출할 수 있다. 정적 RAM에서는 소프트오류의 발생만을 확인하고 검출된 소프트오류의 정정은 명령어 캐시의 캐시 미스와 같이 처리하여 하위 메모리로부터 명령어들을 다시 인출하는 방식이다. 이를 통해 명령어 캐시의 성능에 영향을 주지 않으면서 연집오류를 검출하고 정정할 수 있으며 최대 4$\times$4의 윈도우 내에서 발생된 연집오류를 검출 할 수 있다. 제안된 방식을 이용하면 256비트 $\times$ 256비트 크기의 메모리에서 기존의 4-way 인터리빙 기법에서 검출에 필요한 패리티 크기의 25%만으로도 동일한 4비트의 연집오류를 검출 할 수 있다.

Victim BTB를 활용한 히트율 개선과 효율적인 통합 분기 예측 (Improving Hit Ratio and Hybrid Branch Prediction Performance with Victim BTB)

  • 주영상;조경산
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2676-2685
    • /
    • 1998
  • 본 논문에서는 파이프라인 프로세서의 분기 명령어 처리 성능 향상을 목적으로, BTB의 미스율을 줄이고 분기 예측의 정확도를 개선하기 위해 victim cache를 활용한 2-단계 BTB 구조를 제안한다. 2-단계 BTB는 기존의 BTB에 작은 크기의 victim BTB를 추가한 구조로, 적은 비용으로 BTB 미스율을 개선하고, 동적 예측(dynamic prediction)과 정적 예측 (static prediction)이 함께 사용되는 기존의 통합 분기 예측(Hybrid Branch Prediction) 구조의 예측 정확도를 높이도록 운영된다. 본 논문에서 제안된 2-단계 BTB에 의한 성능 개선을 4개 벤치마크 프로그램에 대한 trace-driven 시뮬레이션을 통해 검증한 결과, 기존의 BTB에 비해 2.5∼8.5%의 비용 증가로 BTB 미스율이 26.5% 개선되고, 기존의 gshare에 비해 64%의 비용 증가로 예측 정확도는 26.75% 개선되었다.

  • PDF

무선 클라이언트-서버 환경에서 이동 클라이언트의 캐시 데이타 재사용율 향상기법 (Increasing a Mobile Client's Cache Reusability in Wireless Client - Server Environments)

  • 이송이
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권5호
    • /
    • pp.282-296
    • /
    • 2006
  • 무선 클라이언트-서버 환경에서 데이타 브로드캐스팅은 효율적인 데이타 보급방식이다. 서버가 데이타를 방송하면 그 중 일부를 클라이언트가 캐시에 보관하여, 낮은 통신 대역폭과 한정된 자원을 극복하고 데이타 접근 시간 등을 절약할 수 있다. 서버는 또한 무효화보고서를 방송하여 서버 데이타와 클라이언트가 캐싱한 데이타간의 일관성을 유지할 수 있도록 한다. 기존의 캐시 일관성 문제를 해결하기 위한 대부분의 연구는, 접속 단절 시간이 너무 길어서 수신하지 못한 무효화 보고서의 수가 일정 한도(윈도우 크기)를 넘으면 단순히 캐시 전체를 삭제하는 방법을 사용한다. 이 논문은 이러한 긴 접속 단절 시간의 경우에도 이동 클라이언트의 캐시 재사용율을 높일 수 있는 기법을 제시한다. 캐시의 일관성 여부에 관계없이 무조건 전체 캐시 내용을 지우는 대신, 클라이언트는 모든 데이타를 지우는 비용과 선택적으로 지우는 비용을 추측한다. 만일 모든 데이타를 지우는 비용이 높아지는 경우에는 클라이언트는 캐시를 유지하고 검증 요청을 위해 업링크를 사용하여 유효하지 않은 데이타만을 선택적으로 지운다. 이 방법은 캐시 유지비용을 추측할 때 캐시된 데이타의 갱신 비율과 방송 빈도들을 함께 고려하므로, 효율적으로 캐시 재사용율을 높일 수 있다는 것을 모의 실험 결과를 통해 증명한다.

데이터 병렬 프로그램에서 배리어 대기시간의 분석 (Analysis of Barrier Waiting Times in Data Parallel Programs)

  • 정인범
    • 산업기술연구
    • /
    • 제21권A호
    • /
    • pp.73-80
    • /
    • 2001
  • Barrier is widely used for synchronization in parallel programs. Since the process arrived earlier than others should wait at the barrier, the total processor utilization decreases. In this paper, to find the sources of the barrier waiting time, parallel programs are executed on the various grain sizes through execution-driven simulations. In simulation studies, we found that even if approximately equal amounts of work are distributed to each processor, all processes may not arrive at a barrier at the same time. The reasons are that the different numbers of cache misses and instructions within partitioned grains result in the difference in arrival time of processors at the barrier.

  • PDF

ROLAP 환경에서 집단함수 질의처리를 위한 효율적인 알고리즘 (Efficient Algorithm for Query Processing of Aggregate functions in ROLAP Environment)

  • 김인식;김종겸;정순기
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.40-46
    • /
    • 2003
  • 최근 하드웨어 기술의 발달로 다양하고 복잡한 기능들을 가지는 고성능 프로세서들이 일반화되어 사용되고 있다. 데이터베이스 시스템의 질의 처리 과정에서도 이러한 하드웨어적 특성들을 고려한 알고리즘들이 중요한 연구대상으로 부각되고 있다. 최근 연구 결과에 의하면 캐시 미스의 증가로 발생하는 미스 패널티가 메모리와 CPU간에 새로운 병목 현상이 되고 있으며, 분기 오 예측으로 인한 프로세서 자원 손실도 상당한 비중을 갖는다는 것을 보여준다. 본 논문에서는 이러한 하드웨어적 특성들을 효율적으로 사용할 수 있는 기법들에 대한 연구를 통해 질의처리 알고리즘 가운데 집단함수를 최적으로 구현할 수 있는 알고리즘을 제안하였다.

  • PDF

David II: 효과적인 메모리 시스템을 가지는 병렬 렌더링 프로세서 (David II: A new architecture for parallel rendering processors with effective memory system)

  • 이길환;박우찬;김일산;한탁돈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.1655-1658
    • /
    • 2004
  • Current rendering processors are organized mainly to process a triangle as fast as possible and recently parallel 3D rendering processors, which can process multiple triangles in parallel with multiple rasterizers, begin to appear. For high performance in processing triangles, it is desirable for each rasterizer have its own local pixel cache. However, the consistency problem may occur in accessing the data at the same address simultaneously by more than one rasterizer. In this paper, we propose a parallel rendering processor architecture, called DAVID II, resolving such consistency problem effectively. Moreover, the proposed architecture reduces the latency due to a pixel cache miss significantly. The experimental results show that DAVID II achieves almost linear speedup at best case even in sixteen rasterizers.

  • PDF

ARM-SMI용 Load/store Unit(LSU) 설계 (Design of a Load/store Unit for ARM-SMI Microprocessors)

  • 김재억;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1387-1390
    • /
    • 2003
  • The superscalar architecture shows limit in performance improvement recently. While, SMT(Simultaneous Multi-Threading) architecture is receiving remark. The purpose of SMT architecture is to improve the performance of superscalar microprocessors by executing multi threads at the same time. In this paper, a load/store unit(LSU) suitable for ARM-compatible SMT microprocessors is presented. This LSU supports load instructions and store instructions of ARM ISA. This LSU keeps away the degradation of SMT by cache miss.

  • PDF

고성능 프로세서를 위한 카운터 기반의 캐시 교체 알고리즘 (Cache Replacement Policy Based on Dynamic Counter for High Performance Processor)

  • 정도영;이용석
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.52-58
    • /
    • 2013
  • 캐시 메모리의 성능에 큰 영향을 미치는 요소 중 하나인 캐시 교체 알고리즘 중에서 가장 최적의 성능을 가지는 알고리즘은 LRU알고리즘이다. LRU알고리즘은 데이터의 temporal locality특성이 강한 프로그램에서 좋은 성능을 보여주지만, 그렇지 않은 프로그램에서는 많은 캐시 미스를 발생시킨다. 본 논문에서는 LRU알고리즘의 이러한 단점을 개선하기 위한 새로운 카운터 기반 교체 알고리즘인 DCR(Dynamic Counter based Replacement) 알고리즘을 제안한다. 본 논문에서는 캐시에 저장된 이후로 교체되기 전까지 다시 사용되지 않는 데이터인 zero reuse line의 발생 추이를 관찰함으로써 프로그램의 temporal locality 특성이 시간에 따라 동적으로 변화함을 보였다. 그리고 이에 착안하여 제안하는 DCR 알고리즘은 주기적으로 zero reuse line의 수를 카운트하여 프로그램의 temporal locality 변화에 대응할 수 있도록 하였다. DCR 알고리즘은 기존의 LRU알고리즘과 비교하여 최대 2.7%, 평균 0.47%의 미스율 감소를 보였다.

SVLIW 프로세서와 VLIW 프로세서의 명령어 캐싱에 따른 성능 분석 (Performance Analysis of Caching Instructions on SVLIW Processor and VLIW Processor)

  • 지승현;박노광;김석일
    • 전기전자학회논문지
    • /
    • 제1권1호
    • /
    • pp.101-110
    • /
    • 1997
  • 실시간에 VLIW 명령어를 스케줄링하는 SVLIW 프로세서 구조는 실행 중 LNOP(긴 NOP 명령어)를 삽입하여 자원 충돌이나 자료 종속 문제를 스스로 해결할 수 있다. 따라서 SVLIW 프로세서에서는 메모리나 캐시에 적재되는 목적 코드로부터 LNOP 명령어를 제거할 수 있다. 그러므로 SVLIW 프로세서에서는 같은 크기의 캐시를 가진 VLIW 프로세서에 비하여 프로그램의 실행 도중에 발생하는 캐시 미스의 발생 빈도가 적어진다. 캐시 미스가 적게 발생하면 결국 평균 메모리 참조 시간이 짧아지므로 프로그램을 수행하는데 걸리는 실행 사이클의 수가 적어지게 된다. 이러한 특징은 한편 명령어 파이프라인 단계를 늘림으로 인한 영향을 상쇄할 수 있기 때문에 전체적으로 성능을 향상시킬 수 있다. 본 논문에서는 두 가지 프로세서 구조에서 어떤 응용 프로그램을 수행할 때 소요되는 실행 사이클을 예측하는 모델을 확립하고 이를 비교하였다. 또한, 시뮬레이션 결과로부터 캐시 미스가 발생하였을 때 메모리를 참조하는데 걸리는 시간이 길어질수록 SVLIW 프로세서에서의 실행 사이클이 VLIW 프로세서의 경우에 비하여 짧아지는 것을 확인할 수 있었다.

  • PDF

멀티미디어 응용을 위한 저전력 데이터 캐쉬 구조 및 마이크로 아키텍쳐 수준 관리기법 (Low-Power Data Cache Architecture and Microarchitecture-level Management Policy for Multimedia Application)

  • 양훈모;김정길;박기호;김신덕
    • 정보처리학회논문지A
    • /
    • 제13A권3호
    • /
    • pp.191-198
    • /
    • 2006
  • 최근 디지털 멀티미디어 응용기기는 휴대 편의성은 물론 하나의 기기에서 다양한 멀티미디어 데이터 처리를 가능하게 하는 기능적 집적이 이루어지고 있다. 이와 같은 추세는 기기가 처리해야 하는 데이터 양의 증가와 이를 수행하기 위하여 요구되는 온칩 메모리의 크기 및 연산 유닛의 고성능화를 요구하여 전력 소비량의 증가를 유발시킨다. 연산 엔진에서 사용되는 대표적인 온칩 메모리인 캐쉬는 전력 사용에 있어서 중요한 비율을 차지하는 구조로 저전력 설계를 위한 구조적 개선의 주요 대상이다. 본 논문에서는 멀티미디어 응용을 수행하는 연산 엔진의 데이터 캐쉬에서 소비되는 전력을 감소시키기 위하여 멀티미디어 응용의 데이터 사용 특성을 파악하여 이 특성을 전력소비를 감소시키는 목적으로 활용 가능한 분할된 캐쉬구조를 제안한다. 그리고 각각의 분할된 캐쉬에 대하여 특정 주소 영역의 데이터 참조를 고정시킴으로써 얻을 수 있는 전력 소비면의 성능 향상을 평가한다. 시뮬레이션 결과 제안하는 캐쉬 구조는 같은 크기의 직접사상 캐쉬, 2중연관 캐쉬, 4중연관 캐쉬에 대해 유사한 성능을 나타내면서, 각각의 기존 캐쉬 구조와 비교하였을 경우 33.2%, 53.3% 및 70.4%만큼 감소된 전력으로 동작 가능하다.