• 제목/요약/키워드: Instruction-level parallelism

검색결과 49건 처리시간 0.019초

슈퍼스칼라 프로세서에서 데이터 값 예측기의 성능효과 (Efficient of The Data Value Predictor in Superscalar Processors)

  • 박희룡;전병찬;이상정
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(3)
    • /
    • pp.55-58
    • /
    • 2000
  • To achieve high performance by exploiting instruction level parallelism(ILP) aggressively in superscalar processors, value prediction is used. Value prediction is a technique that breaks data dependences by predicting the outcome of an instruction and executes speculatively it's data dependent instruction based on the predicted outcome. In this paper, the performance of a hybrid value prediction scheme with dynamic classification mechanism is measured and analyzed by using execution-driven simulator for SPECint95 benchmark set.

  • PDF

다중스트리밍을 이용한 3차원 그래픽 프로세서 구조 (3D graphics processor architecture based on multistreaming)

  • 박용진;이동호
    • 전자공학회논문지C
    • /
    • 제34C권9호
    • /
    • pp.10-21
    • /
    • 1997
  • In this paper, we propose multiple instruction issuable multi-streaming as a processor architecture for 3D graphics processor. Multistreaming can eliminate inteferences within concurrently executing instructions inthe pipelined processor to allow enough parallelism for parallel processing. Through cycle level simulation study, we show that the proposed architecture outperforms a conventional RISC processor, MIPS R3000 by three times with reasonable resource overheads. Multiple instruction issuable multistreaming processor will be a bood architecture for instruction processor when a large number of threads are guaranteed.

  • PDF

ILP 프로세서를 위한 조건실행 지원 스케쥴링 알고리즘 (A Predicate-Sensitive Scheduling Algorithm in Instruction-Level Parallelism Processors)

  • 유병강;이상정
    • 한국정보처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.202-214
    • /
    • 1998
  • 명령어 수준에서 병렬성(Instruction-Level Parallelism, ILP)을 추출하는 것은 슈퍼스칼라 및 VLIW프로세서들의 성능 개선을 위한 효과적인 메커니즘이다. 이를 위하여 여러 가지 소프트웨어 기법들이 응용될 수 있다. 이들 기법 중 조건실행(predicated execution)은 명령어의 조건으로 참조되는 부울 소스 오퍼랜드의 값을 기본으로 명령어 조건적 실행 여부를 참조하여 분기명령을 제거함으로서 여러 기본 블록의 명령들을 하나의 기본블록으로 구성하여 ILP를 증가시키는 기법이다. 본 논문은 조건실행을 지원하는 ILP프로세서들의 성능개선을 위하여 기본 블록을 넘어선 광역 조건실행 지원 스케쥴링 알고리듬(global predicate-sensitive scheduling algorithm)을 제안한다. 또한 C 컴파일러와 시뮬레이터를 개발하고 다양한 벤치마크 프로그램에 대하여 제안된 알고리듬의 성능을 측정하고 타당성을 확인한다. 1, 2, 4이슈실행에 대한 성능 측정 결과, 평균 20%의 성능 개선이 확인되었다.

  • PDF

정적 포워딩에 의한 VLIW 프로세서의 데이터 hazard 처리 (Static forwardin: an approach to reduce data hazards in VLIW processor)

  • 박형준;김이섭
    • 전자공학회논문지C
    • /
    • 제35C권2호
    • /
    • pp.1-9
    • /
    • 1998
  • To achieve high performance in VLIW processors, they must exploit the parallelism on application programs. Data dependency makes it difficult to find the instruction-level parallelism. Among the three kinds of data dependency, true dependency causes RAW(Read After Wirte) hazards that occur most frequently in VILW processors. Forwarding is a widely used technique to reduce the performance degradation caused by RAW hazards. However, forwarding requires too much area of the chip when it is applied to VLIW processors. In this paper, static forwarding is proposed to reduce the hardware cost of forwarding circuits. It needs an extended compiler to detect RAW hazards and control the proposed forwarding scheme via instruction. And it uses the modified register file to shrink the area of forwarding path. VLIW Processor Model is also designed to verify static forwarding. This paper describes the operation of static forwarding and the comparison with the conventional forwarding.

  • PDF

간접 분기의 타형태 타겟 주소의 정확한 예측 (Accurate Prediction of Polymorphic Indirect Branch Target)

  • 백경호;김은성
    • 전자공학회논문지CI
    • /
    • 제41권6호
    • /
    • pp.1-11
    • /
    • 2004
  • 현대적인 프로세서들은 그 성능을 높이기 위해서 분기 예측과 같은 투기적인 방식으로 가용한 ILP 즉 명령어 수준의 병렬성을 추구한다. 전통적으로, 분기 방향은 2-단계 예측기를 사용하여 아주 높은 비율의 정확도로 예측이 가능하고, 분기 타겟 주소는 BTB를 사용하여 예측한다. 간접 분기를 제외한 모든 분기들은 그 자신의 타겟 주소가 유일하기 때문에 BTB로 거의 정확하게 예측되지만, 간접 분기는 그 타겟 주소가 동적으로 수시로 달라지기 때문에 예측하기가 매우 어렵다. 일반적으로, 분기 방향을 예측하는 기술을 간접 분기의 타겟 주소를 예측하는데 적용하여 전통적인 BTB 보다 훨씬 좋은 정확도를 얻고 있다. 본 논문에서는 간접 분기 명령과 이와 데이터 종속적인 관계를 갖고 있는 이 간접 분기 명령 보다 훨씬 앞서 수행되는 명령어의 레지스터 내용을 결합하여 간접 분기의 타겟을 예측하는 전혀 새로운 방법을 제안한다. 제안된 방식의 효율성을 검증하기 위해 심플스칼라 시뮬레이터 상에서 제안된 예측기를 구현하고 SPEC 벤치마크를 시뮬레이션하여, 수시로 바뀌는 간접분기의 타겟을 거의 완벽하게 예측할 수 있음을 보이고, 기존의 다른 어떤 방법보다도 우수한 결과임을 보인다.

코드감소와 성능향상을 위한 이질 레지스터 분할 및 명령어 구조 설계 (Code Size Reduction and Execution performance Improvement with Instruction Set Architecture Design based on Non-homogeneous Register Partition)

  • 권영준;이혁재
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권12호
    • /
    • pp.1575-1579
    • /
    • 1999
  • Embedded processors often accommodate two instruction sets, a standard instruction set and a compressed instruction set. With the compressed instruction set, code size can be reduced while instruction count (and consequently execution time) can be increased. To achieve code size reduction without significant increase of execution time, this paper proposes a new compressed instruction set architecture, called TOE (Two Operations Execution). The proposed instruction set format includes the parallel bit that indicates an instruction can be executed simultaneously with the next instruction. To add the parallel bit, TOE instruction format reduces the destination register field. The reduction of the register field limits the number of registers that are accessible by an instruction. To overcome the limited accessibility of registers, TOE adapts non-homogeneous register partition in which registers are divided into multiple subsets, each of which are accessed by different groups of instructions. With non-homogeneous registers, each instruction can access only a limited number of registers, but an entire program can access all available registers. With efficient non-homogeneous register allocator, all registers can be used in a balanced manner. As a result, the increase of code size due to register spills is negligible. Experimental results show that more than 30% of TOE instructions can be executed in parallel without significant increase of code size when compared to existing Thumb instruction set.

  • PDF

슈퍼스칼라 프로세서에서 모험적 갱신을 사용한 하이브리드 결과값 예측기 (A Hybrid Value Predictor using Speculative Update in Superscalar Processors)

  • 박홍준;신영호;조영일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제28권11호
    • /
    • pp.592-600
    • /
    • 2001
  • 슈퍼스칼라 프로세서는 성능향상을 위해 명령어 반입폭과 이슈율을 증가시키고 있다. 데이터 종속성은 ILP(Instruction-Level Parallelism)를 향상시키는데 주요 장애요소가 되고 있으며, 최근 여러 논문에서 데이터 종속성을 제거하기 위해서 명령어의 결과값을 예상하는 메커니즘이 연구되었다. 그러나 이러한 예측기들은 예상한 명령어의 실제 결과값으로 예상 테이블을 갱신하기 전에 그 명령어를 다시 예상할 때 부적절(stale)한 데이터를 사용함으로써 예상 실패율이 증가하여 프로세서의 성능을 감소시킨다. 본 논문에서는 부적절 데이터 사용을 줄여 높은 성능을 얻을 수 있는 새로운 하이브리드 예측 메커니즘을 제안한다. 제안된 하이브리드 결과값 예측기는 예상 테이블을 모험적으로 갱신할 수 있기 때문에 부적절 데이터로 인해 잘못 예상되는 명령어의 수를 효과적으로 감소시킨다. 16-이슈폭 슈퍼스칼라 프로세서에서 SPECint95 벤치마크 프로그램에 대해 모험적 갱신을 사용함으로써 모험적 갱신을 사용하지 않은 경우의 평균 예상 정확도 59%에 비해 평균 예상 정확도가 72%에 비해 평균 예상 정확도가 72%로 크게 향상되었다.

  • PDF

슈퍼스칼라 프로세서에서 값 예측을 이용한 모험적 실행의 전력소모 측정 및 분석 (Measurement and Analysis of Power Dissipation of Value Speculation in Superscalar Processors)

  • 이상정;이명근;신화정
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.724-735
    • /
    • 2003
  • 최근의 고성능 슈퍼스칼라 프로세서에서는 명령어 수준 병렬성(Instruction-Level Parallelism, ILP)의 장애가 되는 명령어 간의 데이타 종속관계를 극복하기 위해 명령의 결과 값을 미리 예측하여 종속 명령들을 모험적으로 실행한다. 이러한 값 예측을 사용한 모험적 실행으로 성능은 향상되나 값 예측 테이블의 빈번한 참조와 갱신으로 부가적인 전력 소모를 요구한다. 본 논문에서는 값 예측으로 인한 성능향상과 부가적인 전력소모 간의 관계를 측정 분석한다. 또한 확신 카운터(confidence counter)를 사용한 값 예측 시도의 조정으로 모험적 실행의 정도를 조절하고, 예측 성공률이 높은 유용한 명령들만을 선택적으로 예측하여 성능을 유지하면서 부가 전력소모를 줄인다. 제안된 방식의 검증을 위해 사이클 수준 시뮬레이터에 전력소모 모델을 결합하여 프로세서의 기능수준 동작뿐만 아니라 프로세서의 전체 전력소모 및 사이클 당 전력소모도 측정할 수 있는 도구를 개발하여 검증한다.

블록 암호화 알고리즘 RC6 및 Rijndael에서의 병렬성 활용 (Exploiting Parallelism in the Block Encryption Algorithms RC6 and Rijndael)

  • 정용화;정교일;손승원
    • 정보보호학회논문지
    • /
    • 제11권2호
    • /
    • pp.3-12
    • /
    • 2001
  • 현재 대부분의 상용 마이크로프로세서는 슈퍼스칼라 구조를 채택하고 있으나, 반도체 집적도가 증가함에 따라 슈퍼 스칼라 구조를 대신할 새로운 마이크로프로세서 구조가 제안되고 있다. 본 논문에서는 최근 새로운 마이크로프로세서 구조로 급부상하고 있는 다중처리 마이크로프로세서 구조가 차세대 블록 암호화 알고리즘에 적합한지를 분석한다. 즉, 차세대 블록 암호화 알고리즘인 RC6와 Rijndael에서의 병렬성을 분석하기 위하여 프로그램 구동방식의 시뮬레이션을 수행한 결과, 명령어 수준 병렬성만으로는 성능의 한계를 갖지만 쓰레드 수준 병렬성을 동시에 활용함으로써 추가적인 성능 향상을 얻을 수 있음을 확인하였다

병렬 파이프라인 프로세서 아키덱처의 설계 (Design of a Parallel Pipelined Processor Architecture)

  • 이상정;김광준
    • 전자공학회논문지B
    • /
    • 제32B권3호
    • /
    • pp.11-23
    • /
    • 1995
  • In this paper, a parallel pipelined processor model which acts as a small VLIW processor architecture and a scheduling algorithm for extracting instruction-level parallelism on this architecture are proposed. The proposed model has a dual-instruction mode which has maximum 4 basic operations being executed in parallel. By combining these basic operations, variable instruction set can be designed for various applications. The scheduling algorithm schedules basic operations for parallel execution and removes pipeline hazards by examining data dependency and resource conflict relations. In order to examine operation and evaluate the performance,a C compiler and a simulator are developed. By simulating various test programs with the compiler and the simulator, the characteristics and the performance result of the proposed architecture are measured.

  • PDF