통합 검색 | Korea Science

Victim BTB를 활용한 히트율 개선과 효율적인 통합 분기 예측 (Improving Hit Ratio and Hybrid Branch Prediction Performance with Victim BTB)

주영상;조경산
- 한국정보처리학회논문지
- /
- 제5권10호
- /
- pp.2676-2685
- /
- 1998
본 논문에서는 파이프라인 프로세서의 분기 명령어 처리 성능 향상을 목적으로, BTB의 미스율을 줄이고 분기 예측의 정확도를 개선하기 위해 victim cache를 활용한 2-단계 BTB 구조를 제안한다. 2-단계 BTB는 기존의 BTB에 작은 크기의 victim BTB를 추가한 구조로, 적은 비용으로 BTB 미스율을 개선하고, 동적 예측(dynamic prediction)과 정적 예측 (static prediction)이 함께 사용되는 기존의 통합 분기 예측(Hybrid Branch Prediction) 구조의 예측 정확도를 높이도록 운영된다. 본 논문에서 제안된 2-단계 BTB에 의한 성능 개선을 4개 벤치마크 프로그램에 대한 trace-driven 시뮬레이션을 통해 검증한 결과, 기존의 BTB에 비해 2.5∼8.5%의 비용 증가로 BTB 미스율이 26.5% 개선되고, 기존의 gshare에 비해 64%의 비용 증가로 예측 정확도는 26.75% 개선되었다.
PDF

간접 분기의 타형태 타겟 주소의 정확한 예측 (Accurate Prediction of Polymorphic Indirect Branch Target)

백경호;김은성
- 전자공학회논문지CI
- /
- 제41권6호
- /
- pp.1-11
- /
- 2004
현대적인 프로세서들은 그 성능을 높이기 위해서 분기 예측과 같은 투기적인 방식으로 가용한 ILP 즉 명령어 수준의 병렬성을 추구한다. 전통적으로, 분기 방향은 2-단계 예측기를 사용하여 아주 높은 비율의 정확도로 예측이 가능하고, 분기 타겟 주소는 BTB를 사용하여 예측한다. 간접 분기를 제외한 모든 분기들은 그 자신의 타겟 주소가 유일하기 때문에 BTB로 거의 정확하게 예측되지만, 간접 분기는 그 타겟 주소가 동적으로 수시로 달라지기 때문에 예측하기가 매우 어렵다. 일반적으로, 분기 방향을 예측하는 기술을 간접 분기의 타겟 주소를 예측하는데 적용하여 전통적인 BTB 보다 훨씬 좋은 정확도를 얻고 있다. 본 논문에서는 간접 분기 명령과 이와 데이터 종속적인 관계를 갖고 있는 이 간접 분기 명령 보다 훨씬 앞서 수행되는 명령어의 레지스터 내용을 결합하여 간접 분기의 타겟을 예측하는 전혀 새로운 방법을 제안한다. 제안된 방식의 효율성을 검증하기 위해 심플스칼라 시뮬레이터 상에서 제안된 예측기를 구현하고 SPEC 벤치마크를 시뮬레이션하여, 수시로 바뀌는 간접분기의 타겟을 거의 완벽하게 예측할 수 있음을 보이고, 기존의 다른 어떤 방법보다도 우수한 결과임을 보인다.
PDF KSCI

내장형 프로세서를 위한 저전력 분기 예측기 설계 기법 (A Power-aware Branch Predictor for Embedded Processors)

김철홍;송성근
- 정보처리학회논문지A
- /
- 제14A권6호
- /
- pp.347-356
- /
- 2007
프로세서의 파이프라인 길이가 점차 길어지고 한 사이클에 이슈되는 명령어의 수가 증가함에 따라, 분기 예측기의 정확도는 프로세서의 성능에 상당한 영향을 미치게 되었다. 또한, 내장형 프로세서를 설계하는데 있어서는 전력 효율성이 가장 중요한 설계 고려 사항 중 하나가 되었다. 그러므로, 내장형 프로세서의 분기 예측기를 설계할 때에는 성능과 전력 효율성이 함께 고려되어야 한다. 본 논문에서는 gshare 분기 예측기가 적용된 내장형 프로세서에서 선택적인 BTB (Branch Target Buffer) 접근을 가능하게 하는 저전력 분기 예측기를 제안하고자 한다. 제안하는 분기 예측기 내에서 BTB는 직전 명령어가 테이큰 (Taken) 분기로 예측되지 않는 경우에는, PHT (Pattern History Table)의 예측 결과가 테이큰인 경우에만 접근된다. PHT의 예측 결과가 테이큰인 분기 명령어의 경우에만 다음에 인출될 명령어의 주소를 BTB 접근을 통해 얻은 주소로 결정하기 때문이다. 물론, 이와 같은 선택적인 BTB 접근으로 인하여 성능 저하가 발생하는 것을 방지하기 위해 직전 명령어가 테이큰분기로 예측된 경우에는 PHT의 예측 결과에 관계없이 BTB는 항상 접근된다. 선택적인 BTB 접근을 하기 위해, 제안하는 분기 예측기 내의 PHT는 기존 분기 예측기의 PHT와 비교하여 1 사이클 일찍 접근되도록 구현한다. 1 사이클 빠른 접근을 위해 제안하는 PHT는 한 번의 접근을 통해 두 개의 예측 결과를 동시에 얻어오게 구현하고, 이를 통해 PHT의 접근 횟수도 줄임으로써 분기 예측기의 전력 소모를 줄이는 효과 또한 얻게 된다. 제안하는 분기 예측기는 하드웨어 오버헤드나 예측 정확도의 감소 없이 전력 소모를 줄일 수 있다는 장점을 가진다. 실험 결과에 따르면, 제안하는 분기 예측기는 기존의 분기 예측기와 비교하여 $35{\sim}48%$의 전력 소모를 줄이는 결과를 보인다.
https://doi.org/10.3745/KIPSTA.2007.14-A.6.347 인용 PDF KSCI

고성능 슈퍼스칼라 프로세서를 위한 분기예측기의 설계 및 구현 (A Design and Implementation of Branch Predictor for High Performance Superscalar Processors)

서정민;김귀우;이상정
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
- /
- pp.22-24
- /
- 2001
슈퍼스칼라 프로세서에서는 분기 명령의 결과 지연으로 명령의 공급이 중단되는 것을 방지하고 지속적인 파이프라인 처리를 위해서 분기의 결과를 미리 예측하여 명령을 폐치하고 있다. 본 논문에서는 심플스칼라 툴 셋을 사용하여 슈퍼스칼라 프로세서에서 사용되는 대표적인 동적 분기예측 방법 시뮬레이션 환경을 구축한다. 동적 분기예측 방법으로 분기 타겟버퍼(Branch Target Buffer, BTB) 상에서 분기명령의 자기 히스토리에 근거한 BTB 방식과 이전 분기명령의 히스토리와의 상관관계를 고려한 Gshare 분기예측기를 적용 구현한다. 심플스칼라 시뮬레이터에 SPEC95 벤치마크 프로그램을 실행시켜 디자인 파라미터 변화에 따른 분기 예측기의 예측정확도를 실험한다. 또한 BTB와 Gshare 분기예측기를 VHDL로 구현하고 Synopsys 툴을 이용하여 시뮬레이션 및 합성 과정을 거쳐 게이트 크기와 파워 소모량을 측정한다.

AE32000에서의 효율적인 분기 예측 기법 (Effective Branch Prediction Schemes in AE32000)

정주영;김현규;오형철
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (3)
- /
- pp.25-27
- /
- 2001
본 논문에서는 AE32000 프로세서에 적응 가능한 효율적인 분기 예측 기법에 관하여 연구하였다. 실험결과, 내장형 응용분야에서의 비용 효율성이란 측면에, AE32000 프로세서에서는 1비트의 분기 예측기와 한 개의 엔트리를 갖는 BTB(Branch Target Buffer)를 사용하는 것이 가장 적합함을 관찰하였다. 또한, 분기 목적 주소에서 나타나는 LERI 명령을 폴딩하여 분기 손실을 줄이는 방안은, BTB와 LERI 폴딩 유닛을 사용하는 설계에서, 가져오는 성능 향상이 미미함을 확인하였다.
PDF

분기 선예측과 개선된 BTB 구조를 사용한 분기 예측 지연시간 은폐 기법 (Branch Prediction Latency Hiding Scheme using Branch Pre-Prediction and Modified BTB)

김주환;곽종욱;전주식
- 한국컴퓨터정보학회논문지
- /
- 제14권10호
- /
- pp.1-10
- /
- 2009
현대의 프로세서 아키텍처에서 정확한 분기 예측은 시스템의 성능에 지대한 영향을 끼친다. 최근의 연구들은 예측 정확도뿐만 아니라, 예측 지연시간 또한 성능에 막대한 영향을 끼친다는 것을 보여준다. 하지만, 예측 지연시간은 간과되는 경향이 있다. 본 논문에서는 분기 예측지연시간을 극복하기 위한 분기 선예측 기법을 제안한다. 이 기법은 분기장치를 인출 단계에서 분리함으로써, 분기 예측기가 명령어 인출 장치로부터의 아무런 정보도 없이 스스로 분기 예측을 진행 가능하게 한다. 또한, 제안된 기법을 지원하기 위해, BTB의 구조를 새롭게 개선하였다. 실험 결과는 제안된 기법이 동일한수준의 분기 예측정확도를 유지하면서, 대부분의 예측지연시간을 은폐한다는 것을 보여준다. 더욱이 제안된 기법은 항상 1 싸이클의 예측 지연시간을 가지는 이상적인 분기 예측기를 사용한 경우보다도 더 나은 성능을 보여준다. 본 논문의 실험 결과에 따르면, 기존의 방식과 비교했을 때, 최대 11.92% 평균 5.15%의 IPC 향상을 가져온다.
https://doi.org/10.9708/jksci.2009.14.10.001 인용 PDF

분기예측기법을 적용한 임베디드 RISC 프로세서 기반 SoC 플랫폼의 ASIC 설계 (A ASIC Design of SoC Platform with Embedded RISC Processor using BTB Branch Prediction)

이병엽;정윤진;류광기
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2009년도 추계학술발표대회
- /
- pp.55-56
- /
- 2009
내장형 프로세서에 대한 기능요구사항이 날로 증가함에 따라 데이터 처리량을 늘리기 위한 많은 연구들이 지속되어 왔으며, 그중 파이프라인의 컨트롤 해저드로 인한 성능저하를 최소화하기 위한 분기 예측 기법이 다양한 방식으로 제안되어 왔다. 본 논문에서는 분기예측 방법으로서 구현이 간단하고 분기 예측률이 높은 BTB 방식을 32비트 프로세서에 적용하고, 해당 프로세서를 사용하는 SoC 플랫폼을 구성하여 분기예측기법 사용으로 인한 성능향상을 측정하고, 0.18um ASIC 공정을 적용하여 SoC 플랫폼을 구현한 결과를 제시한다.
https://doi.org/10.3745/PKIPS.y2009m11a.55 인용 PDF

임베디드 프로세서의 캐시와 파이프라인 구조개선 및 저전력 설계 (Cache and Pipeline Architecture Improvement and Low Power Design of Embedded Processor)

정홍균;류광기
- 한국정보통신학회:학술대회논문집
- /
- 한국해양정보통신학회 2008년도 추계종합학술대회 B
- /
- pp.289-292
- /
- 2008
본 논문에서는 OpenRISC 프로세서의 성능 및 전력 소모 개선을 위해 동적 분기예측 기법, 사원 집합연관 캐시 구조, ODC를 이용한 클럭 게이팅 기법을 제안한다. 동적 분기 예측 기법은 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB를 사용하였다. 사원 집합연관 캐시는 네 개의 메모리 블록을 한 개의 캐시 블록에 사상되는 구조로 되어있어 직접사상 캐시에 비해 접근 실패율이 낮다. ODC를 이용한 클럭게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC조건을 찾아 클럭 게이팅 로직을 삽입함으로써 동적 소비전력을 줄일 수 있다. 테스트 프로그램을 이용하여 제안한 기법들을 적용한 OpenRISC 프로세서의 성능을 측정한 결과, 기존 프로세서 대비실행시간이 8.9% 향상 되었고, 삼성 $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 프로세서 대비 소비전력을 13.9% 이상 감소하였다.
PDF

임베디드 RISC 코어의 성능 및 전력 개선 (Performance and Power Consumption Improvement of Embedded RISC Core)

정홍균;류광기
- 한국정보통신학회논문지
- /
- 제14권2호
- /
- pp.453-461
- /
- 2010
본 논문에서는 임베디드 RISC 코어의 성능 및 전력 소모 개선을 위해 동적 분기예측 구조, 4원 집합연관 캐쉬 구조, ODC 연산을 이용한 클록 게이팅 기법을 제시한다. 동적 분기 예측 구조는 분기 명령에 대해 다음에 실행될 명령에 대한 예측 주소를 저장하는 BTB (Branch Target Buffer)를 사용한다. 4원 집합연관 캐쉬는 네 개의 메모리 블록을 한 개의 캐쉬 블록에 사상되는 구조로서 직접사상 캐쉬에 비해 접근 실패율이 낮고 라인 교체 방식으로 Pseudo-LRU 방식을 채택하여 LRU 정보를 저장하는 비트 수를 감소시킨다. ODC를 이용한 클록게이팅 기법은 논리합성 개념인 무관조건의 입출력 ODC 조건을 찾아 클록 게이팅 로직을 삽입함으로써 동적 소비전력을 줄인다. 제시한 구조들을 임베디드 RISC 코어인 OpenRISC 코어에 적용하여 성능을 측정한 결과, 기존 OpenRISC 코어 대비 실행시간이 약 29% 향상 되었고, Chartered $0.18{\mu}m$ 라이브러리를 이용하여 동적 전력을 측정한 결과, 기존 OpenRISC 코어 대비 소비전력이 16% 이상 감소하였다.
https://doi.org/10.6109/jkiice.2010.14.2.453 인용 PDF KSCI

효율적인 분기 예측을 위한 공유 구조의 BTB (A Combined BTB Architecture for effective branch prediction)

이용환
- 한국정보통신학회논문지
- /
- 제9권7호
- /
- pp.1497-1501
- /
- 2005
프로그램의 순차적인 실행 순서를 바꾸는 명령어를 분기 명령어라 하며, 분기는 마이크로프로세서의 파이프라인 정지를 일으켜 성능을 저하시키는 가장 큰 원인이 된다. 이에 따라 분기를 정확히 예측하여 다음 실행될 명령어를 제공한다면 마이크로프로세서의 자연스런 명령어의 실행 흐름은 끊어지지 않게 되고 이로써 논은 성능의 향상을 기대할 수 있게 된다. 분기 예측을 위해서는 분기 타겟 버퍼가 필수적이며, 분기 타겟 버퍼는 분기 예측 결과에 따라 다음에 실행할 명령어의 주소를 제공한다. 본 논문에서는 가상주소를 실제주소로 바꾸어 주는 TLB와 분기 타겟 버퍼가 각각 가지고 있는 태그 메모리를 함께 사용하는 구조를 제안한다. 이러한 공유 태그 구조의 이점은 2재의 태그 메모리를 하나로 공유함으로써 칩 면적의 감소를 꾀하고 더불어 분기 예측 속도를 향상시킬 수 있다는 점이다. 또한, 본 논문에서 제안된 구조는 주소로 사용되는 비트 수가 커지거나 여러 개의 명령어를 동시에 실행할 수 있는 구조에서 그 이점이 더욱 커지기 때문에 향후 개발되는 마이크로프로세서에서 유용하게 사용될 수 있을 것으로 기대된다.
PDF KSCI

검색결과 14건 처리시간 0.028초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)