• 제목/요약/키워드: prefetcher

검색결과 8건 처리시간 0.02초

그래프 프로세싱을 위한 GRU 기반 프리페칭 (Gated Recurrent Unit based Prefetching for Graph Processing)

  • 시바니 자드하브;파만 울라;나정은;윤수경
    • 반도체디스플레이기술학회지
    • /
    • 제22권2호
    • /
    • pp.6-10
    • /
    • 2023
  • High-potential data can be predicted and stored in the cache to prevent cache misses, thus reducing the processor's request and wait times. As a result, the processor can work non-stop, hiding memory latency. By utilizing the temporal/spatial locality of memory access, the prefetcher introduced to improve the performance of these computers predicts the following memory address will be accessed. We propose a prefetcher that applies the GRU model, which is advantageous for handling time series data. Display the currently accessed address in binary and use it as training data to train the Gated Recurrent Unit model based on the difference (delta) between consecutive memory accesses. Finally, using a GRU model with learned memory access patterns, the proposed data prefetcher predicts the memory address to be accessed next. We have compared the model with the multi-layer perceptron, but our prefetcher showed better results than the Multi-Layer Perceptron.

  • PDF

계층적 메모리 구조의 효과를 극대화하는 캐시 제어기 (A Cache Controller to Maximize Effectiveness of Hierarchical Memory Architecture)

  • 어봉용;주영관;전중남;김석일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.608-616
    • /
    • 2005
  • 이 논문에서는 계층적 캐시 구조에서 기존의 레벨 2 캐시 미스 시에만 선인출 하도록 되어있는 구조를 레벨 1 캐시 미스 시에도 선인출 하도록 하는 캐시구조를 제안하였다. 즉, 레벨 1 캐시 미스가 발생하면 레벨 2 캐시로부터 요구블록과 선인출 블록을 선택하여 레벨 1 캐시와 선인출 캐시에 각각 적재한다. 11개의 벤치마크 프로그램에 대한 실험결과, 레벨 1 캐시 선인출기와 레벨 2 캐시 선인출기로 구성한 계층적 캐시구조가 레벨 2 캐시 선인출기만 채용한 기존의 캐시구조에 비하여 최대 $19\%$의 성능향상을 얻을 수 있었다.

공격적인 선인출 및 직접 사상 필터링을 이용한 L1 캐시 선인출 기법 (An L1 Cache Prefetching Scheme using Excessively Aggressive Prefetchering and a Small Direct-mapped Filtering Cache)

  • 전영숙
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권11호
    • /
    • pp.836-852
    • /
    • 2006
  • 본 논문에서는 공격적인 선인출 및 직접 사상 필터링을 이용한 L1 캐시 선인출 기법을 제안한다. 이를 위하여 캐시 선인출의 역효과에 대한 정량적 분석 방법을 제안하였고 이를 이용하여 다양한 벤치마크에서의 공격적 선인출 효과를 분석하였다. 분석 결과를 바탕으로 최적 선인출 필터 구조 및 알고리즘을 도출하였고 독자적으로 개발된 타이밍 기반 캐시 시뮬레이터를 사용하여 전체 시스템 성능을 추출하였다. 실험 결과는 제안된 L1 선인출 기법을 사용하여 다양한 벤치마크에 대하여 시스템 성능을 평균적으로 18% 향상시킬 수 있음을 보인다.

내장형 32비트 RISC 콘트롤러의 VLSI 구현 (A VLSI implementation of 32-bit RISC embedded controller)

  • 이문기;최병윤;이승호
    • 전자공학회논문지A
    • /
    • 제31A권10호
    • /
    • pp.141-151
    • /
    • 1994
  • this paper describes the design and implementation of a RISC processor for embedded control systems. This RISC processor integrates a register file, a pipelined execution unit, a FPU interface, a memory interface, and an instruction prefetcher. Its characteristics include both single cycle executions of most instructions in a 2 phase 20 MHz frequency and the worst case interrupt latency of 7 cycles with the vectored interrupt handling that makes it possible to be applicable to the real time processing system. For efficient handling of multi-cycle instructions, data stationary hardwired control scheme equippedwith cycle counter was used. This chip integrates about 139K transistors and occupies 9.1mm$\times$9.1mm in a 1.0um DLM CMOS technology. The power dissipation is 0.8 Watts from a 5V supply at 20 MHz operation.

  • PDF

DRAM-PCM 하이브리드 메인 메모리에 대한 동적 다항식 회귀 프리페처 (Dynamical Polynomial Regression Prefetcher for DRAM-PCM Hybrid Main Memory)

  • ;김정근;김신덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.20-23
    • /
    • 2020
  • This research is to design an effective prefetching method required for DRAM-PCM hybrid main memory systems especially used for big data applications and massive-scale computing environment. Conventional prefetchers perform well with regular memory access patterns. However, workloads such as graph processing show extremely irregular memory access characteristics and thus could not be prefetched accurately. Therefore, this research proposes an efficient dynamical prefetching algorithm based on the regression method. We have designed an intelligent prefetch engine that can identify the characteristics of the memory access sequences. It can perform regular, linear regression or polynomial regression predictive analysis based on the memory access sequences' characteristics, and dynamically determine the number of pages required for prefetching. Besides, we also present a DRAM-PCM hybrid memory structure, which can reduce the energy cost and solve the conventional DRAM memory system's thermal problem. Experiment result shows that the performance has increased by 40%, compared with the conventional DRAM memory structure.

브레이크포인트를 이용한 범용 워크로드 프리페칭 프레임워크 (Prefetching Framework for General Workloads Using Breakpoint)

  • 고광진;유준희;강경태;신현식
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.832-837
    • /
    • 2014
  • 프로그램의 로딩 속도는 프로그램이 요청하는 디스크 블록을 미리 읽어 들임으로써(프리페칭) 향상시킬 수 있다. 그러나 기존의 프리페칭 관련 기법들은 특정 프로그램에 최적화된 경우를 제외하면 상당한 오버헤드를 보여주었다. 특히 요청블록을 정확히 추적하는데 어려움이 있었다. 어떤 블록들은 여러 시퀀스(단위시간 내에 추적된 블록들)에 나타날 수 있고 두 접근 시퀀스가 동일 하더라도 버퍼 캐시에 의해서 접근 시간과 수집되는 블록 정보가 다를 수 있기 때문에 분석이 까다롭다. 본 논문에서는 소프트웨어적 접근 방법으로 새로운 범용 워크로드 프리페칭 기법을 제안한다. 제안하는 프리페칭 기법은 브레이크 포인트를 프로그램의 적재 적소에 배치함으로써 요청 블록의 상관관계 정보를 수집하고, 이를 바탕으로 프리페칭을 수행한다. 상용 하드디스크를 이용한 실험 결과, 불필요한 오버헤드가 감소되었으며 기동 시간은 평균 30%, 로딩은 평균 15% 단축되었음을 확인하였다.

변위 히스토리 버퍼를 이용한 명령어 및 데이터 프리페치 기법 (Instructions and Data Prefetch Mechanism using Displacement History Buffer)

  • 정용수;김진혁;조태환;최상방
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.82-94
    • /
    • 2015
  • 본 논문에서는 변위 필드를 이용해 히스토리 레코드를 생성하는 방법과 히스토리 레코드의 기준이 되는 트리거 블록에 우선 순위를 부여하여 효율적인 캐시 교체를 가능하게 하는 하드웨어 프리페치 기법을 제안한다. 히스토리 레코드의 트리거 블록을 기준으로 히스토리를 생성하기 때문에 프로그램의 시퀀스를 고려할 수 있으며, 히스토리를 변위 값으로 저장하기 때문에 트리거 주소와 변위필드에 저장된 값을 더해 빠르게 명령어 또는 데이터 주소를 프리페치 할 수 있다. 또한, 트리거 블록에 우선순위를 부여하고 캐시 교체 정책으로 랜덤 교체 방법을 사용해 캐시 공간이 가득 찼을 때 우선순위가 낮은 블록부터 랜덤하게 교체하는 방법을 제안한다. 제안하는 하드웨어 프리페처의 성능을 평가하기 위해 메모리 분석 시뮬레이터인 gem5와 PARSEC 벤치마크 프로그램을 사용하였다. 그 결과 비트벡터를 이용해 공간영역을 생성하는 기존의 하드웨어 프리페처와 비교해 L1 데이터 캐시의 미스율은 평균 약 44.5% 감소하였고 L1 명령어 캐시의 미스율은 평균 약 31% 감소하였다. 또한 IPC (Instruction Per Cycle)는 평균 약 23.7% 향상을 보였다.

다양한 최신 워크로드에 적용 가능한 하드웨어 데이터 프리페처 구현 (Implementation of Hardware Data Prefetcher Adaptable for Various State-of-the-Art Workload)

  • 김강희;박태신;송경환;윤동성;최상방
    • 전자공학회논문지
    • /
    • 제53권12호
    • /
    • pp.20-35
    • /
    • 2016
  • 본 논문에선 병렬 십진 곱셈기의 축약 단계의 면적과 지연시간을 감소시켜 성능을 향상시키기 위해 다중 피연산자 십진 CSA과 개선된 십진 CLA를 이용한 트리 구조를 제안한다. 제안한 부분곱 축약 트리는 십진수 부분곱에 대해 다중 피연산자 십진 CSA를 사용하여 빠르게 부분곱을 축약한다. 각 CSA에서는 리코딩에 입력의 범위를 제한함으로써 가장 간단한 리코더 로직을 얻는다. 그리고 각 CSA는 특정한 아키텍처 트리의 특정한 위치에서 범위가 제한된 십진수를 더하기 때문에 부분곱 축약 단계의 연산을 효율적으로 수행할 수 있다. 또한, 사용되는 십진 CLA의 로직을 개선하여 BCD 결과를 빠르게 얻을 수 있다. 제안한 십진 부분곱 축약 단계의 성능의 평가를 위해 Design Compiler를 통해 SMIC사의 180nm CMOS 공정 라이브러리를 이용하여 합성하였다. 일반 방법을 이용하는 축약 단계에 비해 제안한 부분곱 축약 단계의 지연시간은 약 15.6% 감소하였고 면적은 약 16.2% 감소하였다. 또한 십진 CLA의 지연시간과 면적이 증가가 있음에도 불구하고 전체 지연시간과 전체 면적이 감소함을 확인하였다.