• 제목/요약/키워드: 프리페치

검색결과 10건 처리시간 0.034초

인접 영역 테이블을 이용한 다중 간격 프리페치 기법 (Multi-Strided Prefetching Using Adjacent Region Table)

  • 심재성;전호윤;이용석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.37-40
    • /
    • 2014
  • 프로세서와 메모리 간의 속도 차이로 인해 메모리 시스템의 성능 향상이 프로세서의 성능을 높이기 위한 중요한 요인이 되었고, 이를 위해 캐시 미스율을 감소시키는 방법이 연구되고 있다. 데이터 프리페치는 캐시의 미스율을 감소시키는 기법 중 하나이며 실제로 최근 프로세서에서 메모리 시스템의 성능을 향상시키기 위해 사용된다. 데이터 프리페치를 효과적으로 수행하기 위해서 메모리 주소의 접근 패턴을 파악하는 것이 중요하며, 이를 위해 순차적으로 접근하는 경우, 한 종류의 1 보다 크거나 같은 간격(stride)으로 뛰면서 접근하는 경우, 다수의 간격이 규칙적으로 반복되며 접근하는 경우 등의 다양한 패턴을 찾는 프리페치 기법들이 등장했다. 본 논문에서 소개하는 다중 간격 프리페치의 경우, 메모리 공간을 메모리 주소의 일부 상위 비트를 통해 여러 개의 영역으로 나누고, 하나의 패턴을 하나의 영역 안에서만 학습하여, 다른 영역에 속한 메모리 주소 접근 시 현재 학습하는 패턴에 어긋나는 주소라고 여기기 때문에 학습을 방해하지 않도록 하였다. 그러나 이 방법은 영역의 크기보다 같은 패턴을 갖는 메모리 주소 스트림의 크기가 더 클 때, 접근 주소의 영역이 바뀜으로 인해 불필요한 학습을 추가적으로 해야 하는 문제점이 있다. 이에 본 논문에서 인접 영역 테이블(ART: Adjacent Region Table)을 이용하여 같은 패턴을 갖는 메모리 접근 스트림의 크기가 영역의 크기보다 클 경우, 기존의 학습된 패턴대로 프리페치를 수행할 수 있도록 하였다. 본 논문에서 제안한 알고리즘으로 실험한 결과, 기존의 다중 간격 프리페치보다 캐시 미스율을 약 6.7% 낮췄고, 시스템 전체의 성능의 지표인 IPC의 경우, 약 5.78% 높아지는 성능 향상의 결과를 얻었다.

64비트 4-way 수퍼스칼라 마이크로프로세서의 효율적인 분기 예측을 수행하는 프리페치 구조 (A Prefetch Architecture with Efficient Branch Prediction for a 64-bit 4-way Superscalar Microprocessor)

  • 문상국;문병인;이용환;이용석
    • 한국통신학회논문지
    • /
    • 제25권11B호
    • /
    • pp.1939-1947
    • /
    • 2000
  • 본 논문에서는 명령어의 효율적인 페치를 위해 분기 타겟 주소 전체를 사용하지 않고 캐쉬 메모리(cache memory) 내의 적은 비트 수로 인덱싱 하여 한 클럭 사이클 안에 최대 4개의 명령어를 다음 파이프라인으로 보내줄 수 있는 방법을 제시한다. 본 프리페치 유닛은 크게 나누어 3개의 영역으로 나눌 수 있는데, 분기에 관련하여 미리 부분적으로 명령어를 디코드 하는 프리디코드(predecode) 블록, 타겟 주소(NTA : Next Target Address) 테이블 영역을 추가시킨 명령어 캐쉬(instruction cache) 블록, 전체 유닛을 제어하고 가상 주소를 관리하는 프리페치(prefetch) 블록으로 나누어진다. 사용된 명령어들은 SPARC(Scalable Processor ARChitecture) V9에 기준 하였고 구현은 Verilog-HDL(Hardwave Description Language)을 사용하여 기능 수준으로 기술되고 검증되었다. 구현된 프리페치 유닛은 명령어 흐름에 분기가 존재하더라도 단일 사이클 안에 4개까지의 명령어들을 정확한 예측 하에 다음 파이프라인으로 보내줄 수 있다. 또한 NTA를 사용한 방법은 같은 수의 레지스터 비트를 사용하였을 때 BTB(Branch Target Buffer)를 사용하는 방법과 비교하여 2배정도 많은 개수의 분기 명령 주소를 저장할 수 있는 장점이 있다.

  • PDF

분산환경에서 대용량 공간데이타의 선인출 전략 (A Prefetch Policy for Large Spatial Data in Distributed Environment)

  • 박동주;이석호;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권12호
    • /
    • pp.1404-1417
    • /
    • 1999
  • 웹과 같은 분산 환경에서는, 웹 브라우저 상에서 SQL 형식의 공간 질의를 수행시키는 것과 또한 서버로부터 그 질의 결과를 보는 것이 가능하다. 그러나, 격자 이미지(raster image)와 같은 대용량 공간 데이타를 포함하는 질의 결과를 웹 브라우징할 때 발생하는 많은 문제점들 중에서, 사용자 응답 시간의 지연은 매우 중요한 문제이다. 본 논문에서는 사용자의 재요청(callback) 접근 패턴이 공간적 근접성(spatial locality)을 따른다는 가정하에서의, 사용자 응답 시간을 최소화하기 위한 새로운 프리페치(prefetch) 전략에 대해서 서술한다. 본 논문의 프리페치 전략은 다음과 같이 요약될 수 있다. 첫째, 프리페치 알고리즘은 사용자의 접근 패턴을 잘 반영하는 힐버트 곡선(Hilbert-curve) 모델을 바탕으로 한다. 둘째, 프리페치 전송 비용을 줄이기 위해서 사용자의 재요청 시간 간격(think time)을 이용한다. 본 논문에서는, 힐버트 곡선을 이용한 프리페치 전략의 성능 평가를 위해서 다양한 실험을 하였으며, 그 결과로 프리페치를 하지 않는 방식보다 높은 성능 향상이 있음을 보인다.Abstract In distributed environment(e.g., WWW), it would be possible for the users to submit SQL-like spatial queries and to see their query results from the server on the Web browser. However, of many obstacles which result from browsing query results including large spatial data such as raster image, the delay of user response time is very critical. In this paper we present a new prefetch policy which can alleviate user response time on the assumption that user's callback access pattern has spatial locality. Our prefetch policy can be summerized as follows: 1) our prefetch algorithm is based on the Hibert-curve model which well replects user's access pattern, and 2) it utilizes user's callback interval to reduce prefetch network transmission cost. In this paper we conducted diverse experiments to show that our prefetch policy achieves higher performance improvement compared to other non-prefetch methods.

차량 네트워크 게이트웨이에서의 프리페치 성능 평가 시뮬레이터 구현 (Implementation of a performance evaluation simulator for the prefetch scheme in vehicular networks)

  • 이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.425-426
    • /
    • 2009
  • 본 논문은 차량형 네트워크에서 고급화된 루트 조회 요청의 응답시간을 측정하는 시뮬레이터를 구현하고 그 측정된 결과를 도시한다. 이산 이벤트 시뮬레이터에 기반하여 서버의 주기적 업데이트, 게이트웨이에서의 레코드당 리프레쉬, 차량으로부터의 조회 요청 발생 등의 사건들을 정의하고 이에 대한 동작을 구현한다. 시간 지역성을 대표하는 LRU 방식과 공간 지역성을 대표하는 FAR 방식의 성능을 측정하기 위해 참조시간을 기록하는 자료구조와 경위도 좌표를 거리로 변환하는 모듈을 작성하였으며 기존의 위치 이력 데이터로부터 조회 요청을 생성한다. 응답시간을 측정한 결과는 공간 지역성이 시간 지역성보다 응답시간에 더 많은 영향을 미치는 것으로 나타났으며 낮은 프리페치 부하에서 최대 4배 가량의 응답시간 차이를 보인다.

PCI 2.2에서 프리페치 요구를 이용해서 데이터 전송 효율을 향상시키는 효과적인 방법 (Method to improve the Data Transfer Efficiency in the PCI 2.2 using Prefetch Request)

  • 현유진;성광수
    • 전자공학회논문지CI
    • /
    • 제41권4호
    • /
    • pp.1-8
    • /
    • 2004
  • PCI 2.2 버스 마스터가 메모리 읽기 명령으로 타겟 장치에 데이터 전송을 요구하면 타겟 장치는 내부적으로 데이터 준비하는데 시간이 필요하므로 데이터 전송 없이 장시간 PCI 버스를 점유하는 상황이 발생할 수 있다. 이는 PCI 버스 사용 효율 및 데이터 전송 효율을 떨어뜨리게 되며 이를 해결하기 위해 PCI 2.2에서는 지연 트랜잭션 메커니즘을 이용한다. 그러나 이 방법은 타겟 장치가 프리페치해야 할 정확한 데이터의 양을 알 수 없기 때문에 데이터 전송 효율이 떨어진다. 본 논문에서는 메모리 읽기 명령을 수행하고자 하는 버스 마스터가 메모리 쓰기 명령어를 이용하여 타겟 장치에게 읽어올 데이터의 양을 미리 알려주는 프리페치 요구를 이용해 보다 효율적으로 데이터를 전송하는 방법을 제안한다. 모의실험 결과 제안된 방법이 지연 트랜잭션에 비해 데이터 전송 효율이 평균 10 % 향상되었다.

프리페치 요구를 지원하는 PCI 2.2 타겟 컨트롤러 설계 및 검증 (Design and Verification of PCI 2.2 Target Controller to support Prefetch Request)

  • 현유진;성광수
    • 정보처리학회논문지A
    • /
    • 제12A권6호
    • /
    • pp.523-530
    • /
    • 2005
  • PCI 2.2 마스터 디바이스가 타겟 디바이스로부터 데이터를 읽어 오고자 할 때 타겟 디바이스는 내부적으로 데이터를 준비해야 함으로 인해 PCI 버스가 데이터 전송 없이 점유되는 상황이 발생한다. 이를 위해 PCI 2.2 사양에서는 지연전송을 제안하여 전송 효율을 향상시켰지만 이 역시 타겟 디바이스가 얼마의 데이터를 미리 준비 해둘지를 알 수 없어 버스 사용 및 데이터 전송 효율을 떨어뜨리는 원인을 제공한다. 이에 앞선 연구에서는 이를 해결하기 위한 프리페치 요구를 이용하는 새로운 방법을 제안하였다. 본 논문에서는 이 방법을 지원하는 PCI 타겟 컨트롤러와 로컬 디바이스를 설계하였다. 설계된 PCI 타겟 컨트롤러는 간단한 로컬 인터페이스를 가질 뿐 아니라 PCI 2.2를 전혀 모르는 사용자도 쉽게 PCI 인터페이스를 지원할 수 있도록 설계되었다. 또한 설계된 하드웨어를 효과적으로 검증하기 위한 방법으로 기본 동작 검증, 설계 기반검증, 그리고 랜덤 테스트 검증을 제안하였다 이러한 검증을 위해 테스트 벤치와 테스트 벤치를 동작시키는 위한 명령어를 제안하였다. 그리고 랜덤 테스트를 위해 참조 모델, 랜덤 발생기, 비교 엔진으로 구성된 테스트 환경을 구축하였으며 이를 이용해 코너 케이스를 효과적으로 검증할 수 있다. 또한 제안된 테스트 환경을 통해 시뮬레이션 한 결과, 프리페치 요구를 이용한 제안된 방법이 지연 전송에 비해 데이터 전송 효율이 평균 $9\%$ 향상되었다.

변위 히스토리 버퍼를 이용한 명령어 및 데이터 프리페치 기법 (Instructions and Data Prefetch Mechanism using Displacement History Buffer)

  • 정용수;김진혁;조태환;최상방
    • 전자공학회논문지
    • /
    • 제52권10호
    • /
    • pp.82-94
    • /
    • 2015
  • 본 논문에서는 변위 필드를 이용해 히스토리 레코드를 생성하는 방법과 히스토리 레코드의 기준이 되는 트리거 블록에 우선 순위를 부여하여 효율적인 캐시 교체를 가능하게 하는 하드웨어 프리페치 기법을 제안한다. 히스토리 레코드의 트리거 블록을 기준으로 히스토리를 생성하기 때문에 프로그램의 시퀀스를 고려할 수 있으며, 히스토리를 변위 값으로 저장하기 때문에 트리거 주소와 변위필드에 저장된 값을 더해 빠르게 명령어 또는 데이터 주소를 프리페치 할 수 있다. 또한, 트리거 블록에 우선순위를 부여하고 캐시 교체 정책으로 랜덤 교체 방법을 사용해 캐시 공간이 가득 찼을 때 우선순위가 낮은 블록부터 랜덤하게 교체하는 방법을 제안한다. 제안하는 하드웨어 프리페처의 성능을 평가하기 위해 메모리 분석 시뮬레이터인 gem5와 PARSEC 벤치마크 프로그램을 사용하였다. 그 결과 비트벡터를 이용해 공간영역을 생성하는 기존의 하드웨어 프리페처와 비교해 L1 데이터 캐시의 미스율은 평균 약 44.5% 감소하였고 L1 명령어 캐시의 미스율은 평균 약 31% 감소하였다. 또한 IPC (Instruction Per Cycle)는 평균 약 23.7% 향상을 보였다.

하이브리드 메모리 시스템의 지역 가중 선형회귀 프리페치 방법 (Locally weighted linear regression prefetching method for hybrid memory system)

  • 당천;김정근;김신덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.12-15
    • /
    • 2020
  • Data access characteristics can directly affect the efficiency of the system execution. This research is to design an accurate predictor by using historical memory access information, where highly accessible data can be migrated from low-speed storage (SSD/HHD) to high-speed memory (Memory/CPU Cache) in advance, thereby reducing data access latency and further improving overall performance. For this goal, we design a locally weighted linear regression prefetch scheme to cope with irregular access patterns in large graph processing applications for a DARM-PCM hybrid memory structure. By analyzing the testing result, the appropriate structural parameters can be selected, which greatly improves the cache prefetching performance, resulting in overall performance improvement.

컴파일 시간 명령어 디코딩을 통한 가상화 민감 명령어 에뮬레이션 성능 개선 (Performance Improvement of Virtualization Sensitive Instruction Emulation by Instruction Decoding at Compile Time)

  • 신동하;윤경언
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.1-11
    • /
    • 2012
  • 최근 들어 ARM 구조에서 가상화를 구현하기 위해 다양한 연구들이 진행되었다. 현재의 ARM 구조는 전통적인 에뮬레이션 방법인 "trap-and-emulation"으로 가상화 할 수 없기 때문에, 게스트 커널 수행 시간에 가상화 민감 명령어를 탐지하여, 이를 직접 수행하는 대신 가상화 에뮬레이션 한다. 일반적으로 가상화 에뮬레이션은 이진 변환 또는 인터프리테이션 방법으로 구현한다. 본 연구는 인터프리테이션 방법을 기반으로 하는 가상화 에뮬레이션의 성능 향상에 관한 것이다. 인터프리테이션은 명령어 페치, 명령어 디코딩, 그리고 명령어 수행의 단계로 이루어진다. 본 논문에서는 게스트 커널의 컴파일 시간에 모든 가상화 민감 명령어를 디코딩하여, 게스트 커널의 수행 시간에 인터프리테이션 시간을 줄이는 방법을 제안한다. 본 연구의 방법은 인터프리테이션 기반의 가상화 방법에서 에뮬레이션 코드를 간단하게 하고, 에뮬레이션 성능을 향상시킨다.

딥뉴럴네트워크를 위한 기능성 기반의 핌 가속기 (Functionality-based Processing-In-Memory Accelerator for Deep Neural Networks)

  • 김민재;김신덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.8-11
    • /
    • 2020
  • 4 차 산업혁명 시대의 도래와 함께 AI, ICT 기술의 융합이 진행됨에 따라, 유저 레벨의 디바이스에서도 AI 서비스의 요청이 실현되었다. 이미지 처리와 관련된 AI 서비스는 피사체 판별, 불량품 검사, 자율주행 등에 이용되고 있으며, 특히 Deep Convolutional Neural Network (DCNN)은 이미지의 특색을 파악하는 데 뛰어난 성능을 보여준다. 하지만, 이미지의 크기가 커지고, 신경망이 깊어짐에 따라 연산 처리에 있어 낮은 데이터 지역성과 빈번한 메모리 참조를 야기했다. 이에 따라, 기존의 계층적 시스템 구조는 DCNN 을 scalable 하고 빠르게 처리하는 데 한계를 보인다. 본 연구에서는 DCNN 의 scalable 하고 빠른 처리를 위해 3 차원 메모리 구조의 Processing-In-Memory (PIM) 가속기를 제안한다. 이를 위해 기존 3 차원 메모리인 Hybrid Memory Cube (HMC)에 하드웨어 및 소프트웨어 모듈을 추가로 구성하였다. 구체적으로, Processing Element (PE)간 데이터를 공유할 수 있는 공유 캐시 및 소프트웨어 스택, 파이프라인화된 곱셈기 및 듀얼 프리페치 버퍼를 구성하였다. 이를 유명 DCNN 알고리즘 LeNet, AlexNet, ZFNet, VGGNet, GoogleNet, RestNet 에 대해 성능 평가를 진행한 결과 기존 HMC 대비 40.3%의 속도 향상을 29.4%의 대역폭 향상을 보였다.