• 제목/요약/키워드: Dynamic branch prediction

검색결과 16건 처리시간 0.021초

슈퍼스칼라 프로세서를 위한 고성능 하이브리드 동적 분기 예측 (Hybrid Dynamic Branch Prediction to Reduce Destructive Aliasing)

  • Park, Jongsu
    • 한국정보통신학회논문지
    • /
    • 제23권12호
    • /
    • pp.1734-1737
    • /
    • 2019
  • This paper presents a prediction structure with a Hybrid Dynamic Branch Prediction (HDBP) scheme which decreases the number of stalls. In the application, a branch history register is dynamically adjusted to produce more unique index values of pattern history table (PHT). The number of stalls is also reduced by using the modified gshare predictor with a long history register folding scheme. The aliasing rate decreased to 44.1% and the miss prediction rate decreased to 19.06% on average compared with the gshare branch predictor, one of the most popular two-level branch predictors. Moreover, Compared with the gshare, an average improvement of 1.28% instructions per cycle (IPC) was achieved. Thus, with regard to the accuracy of branch prediction, the HDBP is remarkably useful in boosting the overall performance of the superscalar processor.

동적 분기 예측을 지원하는 임베디드 코어 자동 생성 시스템의 설계와 구현 (Design and Implementation of an Automatic Embedded Core Generation System Using Advanced Dynamic Branch Prediction)

  • 이현철;황선영
    • 한국통신학회논문지
    • /
    • 제38B권1호
    • /
    • pp.10-17
    • /
    • 2013
  • 본 논문은 분기 예측을 지원하는 임베디드 코어 자동 생성 시스템을 제안한다. 제안된 시스템은 동적 분기 예측모듈에 히스토리/분기방향 flag가 추가된 BTAC(Branch Target Address Cache)를 포함하여 타겟 어플리케이션의 수행 속도를 향상 시킬 수 있도록 하였다. 시뮬레이션으로부터 해당 어플리케이션의 분기 정보를 추출하고 이를 토대로 BHT(Branch History Table)와 BTAC의 entry를 결정한다. 제안된 분기 예측의 효율성을 검증하기 위해서 동적 분기 예측 모듈을 포함하는 ARM9TDMI 코어를 SMDL로 기술하고 코어를 생성하였다. 실험 결과는 entry의 수에 따라 면적은 60%까지 증가하였고 어플리케이션의 수행 사이클과 BTAC의 miss rate는 평균 1.7%, 9.6%씩 감소하였다.

Performance Improvement and Power Consumption Reduction of an Embedded RISC Core

  • Jung, Hong-Kyun;Jin, Xianzhe;Ryoo, Kwang-Ki
    • Journal of information and communication convergence engineering
    • /
    • 제10권1호
    • /
    • pp.78-84
    • /
    • 2012
  • This paper presents a branch prediction algorithm and a 4-way set-associative cache for performance improvement of an embedded RISC core and a clock-gating algorithm with observability don’t care (ODC) operation to reduce the power consumption of the core. The branch prediction algorithm has a structure using a branch target buffer (BTB) and 4-way set associative cache that has a lower miss rate than a direct-mapped cache. Pseudo-least recently used (LRU) policy is used for reducing the number of LRU bits. The clock-gating algorithm reduces dynamic power consumption. As a result of estimation of the performance and the dynamic power, the performance of the OpenRISC core applied to the proposed architecture is improved about 29% and the dynamic power of the core with the Chartered 0.18 ${\mu}m$ technology library is reduced by 16%.

Victim BTB를 활용한 히트율 개선과 효율적인 통합 분기 예측 (Improving Hit Ratio and Hybrid Branch Prediction Performance with Victim BTB)

  • 주영상;조경산
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2676-2685
    • /
    • 1998
  • 본 논문에서는 파이프라인 프로세서의 분기 명령어 처리 성능 향상을 목적으로, BTB의 미스율을 줄이고 분기 예측의 정확도를 개선하기 위해 victim cache를 활용한 2-단계 BTB 구조를 제안한다. 2-단계 BTB는 기존의 BTB에 작은 크기의 victim BTB를 추가한 구조로, 적은 비용으로 BTB 미스율을 개선하고, 동적 예측(dynamic prediction)과 정적 예측 (static prediction)이 함께 사용되는 기존의 통합 분기 예측(Hybrid Branch Prediction) 구조의 예측 정확도를 높이도록 운영된다. 본 논문에서 제안된 2-단계 BTB에 의한 성능 개선을 4개 벤치마크 프로그램에 대한 trace-driven 시뮬레이션을 통해 검증한 결과, 기존의 BTB에 비해 2.5∼8.5%의 비용 증가로 BTB 미스율이 26.5% 개선되고, 기존의 gshare에 비해 64%의 비용 증가로 예측 정확도는 26.75% 개선되었다.

  • PDF

세트 연관 캐쉬를 사용한 2단계 적응적 분기 예측 (2-Level Adaptive Branch Prediction Based on Set-Associative Cache)

  • 심원
    • 정보처리학회논문지A
    • /
    • 제9A권4호
    • /
    • pp.497-502
    • /
    • 2002
  • 조건부 분기 명령어는 분기 벌칙을 야기함으로써 명령어 수준의 병렬도 향상에 제약을 가한다. 고성능 슈퍼스칼라 프로세서의 등장으로 인해, 정확한 분기 예측의 중요성은 더욱 높아지고, 이를 위해 동적 분기 예측의 일종인 2단계 적응적 분기 예측(2-level adaptive branch prediction) 방식이 개발되었다. 그러나 2단계 적응적 분기 예측이 상당히 높은 예측 정확도를 보여주고 있음에도 불구하고, 정확도에 따른 비용이 기하급수적으로 증가하는 등의 문제점을 가지고 있다. 본 논문에서는 2단계 적응적 분기 예측의 이러한 문제점을 개선하기 위하여 세트 연관 캐쉬를 이용한 캐쉬 상관 분기 예측기(cached correlated branch predictor)를 제안하고, 기존의 방식에 비해 예측의 정확도는 증가하고, 비용은 줄어든 것을 시뮬레이션을 통하여 확인한다. 세트 연관 예측기의 경우 전역과 지역 방식의 가장 좋은 예측 실패율은 각각 5.99%, 6.28%이며, 이는 종래의 2단계 적응적 분기 예측 방식에서의 가장 좋은 결과인 9.23%, 7.35%에 비해 각각 54%, 17% 향상된 결과이다.

ILP 프로세서를 위한 부정적 간섭을 감소시키는 동적 분기예상 기법 (An Dynamic Branch Prediction Scheme to Reduce Negative Interferences for ILP Processors)

  • 박홍준;조영일
    • 인터넷정보학회논문지
    • /
    • 제2권1호
    • /
    • pp.23-30
    • /
    • 2001
  • ILP 프로세서는 고성능을 유지하기 위해 정확한 분기예상 방법을 요구한다. Two-Level 분기예상 방법은 높은 분기예상 정확성을 갖는 것으로 알려져 있다. 그러나, 한 분기 명령이 다른 분기 명령에 의해 갱신된 PHT 엔트리를 사용할 때 간섭이 발생하며, 간섭 중 부정적 간섭은 잘못된 예상(misprediction)을 유발하여 성능에 부정적 영향을 주게 된다. Agree분기예상 방법에서는 BTB에 bias 비트를 추가하여 부정적 간섭을 긍정적 간섭으로 변환하여 예상 정확도를 높였으나, bios 비트를 잘못 설정하는 경우에는 오히려 부정적 간섭이 증가하게 된다. 본 논문에서는 이러한 부정적 간섭을 감소시키는 새로운 동적 분기예상 방법을 제안한다. 제안한 분기예상 방법은 수행시간에 bias 비트를 동적으로 변경시키기 위해 BTB의 엔트리에 hit 비트를 추가하였다. 그 결과 부정적 간섭을 효과적으로 감소시켜 예상 정확도를 향상시켰다. 제안된 방법의 효율성을 보여주기 위해, SPEC92int 벤치마크를 사용하여 성능을 평가한 결과, 제안된 방법이 기존의 방법보다 성능이 우수함을 확인하였다.

  • PDF

4-Way 캐쉬의 선택된 Element를 이용한 향상된 동적 분기 예측기 구현 (An Improved Dynamic Branch Predictor by Selective Access of a Specific Element in 4-Way Cache)

  • 황인성;황선영
    • 한국통신학회논문지
    • /
    • 제38A권12호
    • /
    • pp.1094-1101
    • /
    • 2013
  • 본 논문은 4-Way 캐쉬의 선택된 element만을 사용하여 어플리케이션 수행 사이클을 줄인 향상된 동적 분기 예측기를 제안한다. 제안된 동적 분기 예측기는 분기명령어가 페치되면 MRU 버퍼를 참조하여 4-Way 캐쉬의 선택된 element에서 타깃 주소를 얻으므로, 모든 element에 접근하는 기존의 동적 분기 예측기보다 제한된 전력하에서 BTAC entry 수를 증가시킬 수 있어 분기 예측 성공률과 어플리케이션의 수행속도가 상당히 향상된다. 제안된 동적 분기 예측기의 효율성을 SMDL 시스템에 의해 생성된 코어가 벤치마크 어플리케이션을 수행하여 검증한다. 실험결과 동적 분기 예측기가 없는 코어에 비해 생성된 코어의 어플리케이션 수행 사이클은 평균 10.1% 감소하고 어플리케이션의 전력소모는 7.4% 증가한다. 기존 동적 분기 예측기를 사용하는 코어에 비해 수행 사이클은 평균 4.1% 줄어든다.

임베디드 RISC 코어의 성능 및 전력 개선 (Performance and Power Consumption Improvement of Embedded RISC Core)

  • 정홍균;류광기
    • 한국정보통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.453-461
    • /
    • 2010
  • 본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다.

고성능 프로세서를 위한 분기 명령어의 동적 History 길이 조절 기법 (Dynamic Per-Branch History Length Fitting for High-Performance Processor)

  • 곽종욱;장성태;전주식
    • 전자공학회논문지CI
    • /
    • 제44권2호
    • /
    • pp.1-10
    • /
    • 2007
  • 분기 명령어에 대한 분기 예측 정확도는 시스템 전체의 성능 향상에 중대한 영향을 미친다. 본 논문에서는 분기 예측의 정확도를 높이기 위한 방법의 하나로, 각 분기 명령어 별로 사용되는 History 길이를 동적으로 조절할 수 있는 "각 분기별 동적 History 길이 조절 기법"을 소개한다. 제안된 기법은, 분기 예측에 있어서 관련된 레지스터들 사이의 데이터 종속성을 추적하여, 최종적으로 관련이 있는 레지스터를 포함하도록 유도하는 분기를 파악한 후, 관련 분기의 History만을 사용하게 해 주는 방식이다. 이를 위해 본 논문에서는, 데이터 종속성을 추적할 수 있는 알고리즘과 관련 하드웨어 모듈을 소개하였다. 실험 결과 제안된 기법은, 기존의 고정 길이 History를 사용하는 방식에 비하여 최대 5.96% 분기 예측 정확도의 향상을 가져 왔으며, 프로파일링을 통해 확인된 각 응용 프로그램 별 Optimal History 길이와 비교해서도 성능 향상을 보였다.

3차원 구조 멀티코어 프로세서의 분기 예측 기법에 관한 온도 효율성 분석 (Analysis on the Thermal Efficiency of Branch Prediction Techniques in 3D Multicore Processors)

  • 안진우;최홍준;김종면;김철홍
    • 정보처리학회논문지A
    • /
    • 제19A권2호
    • /
    • pp.77-84
    • /
    • 2012
  • 프로세서의 성능을 효율적으로 증가시키기 위한 기법 중 하나로 명령어 수준의 병렬성을 높이는 추론적 수행(Speculative execution)이 사용되고 있다. 추론적 수행 기법의 효율성을 결정하는 가장 중요한 핵심 요소는 분기 예측기의 정확도이다. 하지만, 높은 예측율을 보장하는 복잡한 구조의 분기 예측기를 최근 주목 받고 있는 3차원 구조 멀티코어 프로세서에 적용하는데 있어서는 발열 현상이 큰 장애요소가 될 것으로 예측된다. 본 논문에서는 3차원 구조 멀티코어 프로세서에서 발생할 수 있는 분기 예측기의 높은 발열 문제를 해결하기 위해 두 가지 기법을 제시하고, 이에 대한 효율성을 상세하게 분석하고자 한다. 첫번째 기법은 분기 예측기의 온도가 임계 온도 이상으로 올라가는 경우 분기 예측기의 동작을 일시적으로 정지시키는 동적 온도 관리 기법이고, 두번째 기법은 3차원 구조 멀티코어 프로세서의 각 층 별로 온도를 고려하여 서로 다른 복잡도를 지닌 분기 예측기를 차등 배치하는 기법이다. 두 가지 기법 중에서 복잡도를 고려한 차등 배치 기법은 평균 $87.69^{\circ}C$의 온도를 나타내는 반면, 동적 온도 관리 기법은 평균 $89.64^{\circ}C$의 온도를 나타내었다. 그리고, 각 층에서 발생하는 온도 변화율을 각 기법에 대하여 비교한 결과, 동적 온도 관리 기법의 온도 변화율은 평균 $17.62^{\circ}C$을 나타내었고 복잡도 차등 배치 기법의 온도 변화율은 평균 $11.17^{\circ}C$을 나타내었다. 이러한 온도 분석을 통하여 3차원 멀티코어 프로세서에서 분기 예측기의 온도를 제어하였을 경우, 복잡도 차등 배치 기법을 적용하는 것이 더 효율적임을 알 수 있다. 성능적인 측면을 분석한 결과, 동적 온도 관리 기법은 해당 기법을 적용하지 않았을 경우보다 평균 27.66%의 성능하락을 나타내었지만, 복잡도 차등 배치 기법은 평균 3.61%의 성능 하락만을 나타내었다.