• 제목/요약/키워드: Instruction dependencies

검색결과 17건 처리시간 0.017초

루프를 효과적으로 처리하는 PASC 프로세서 구조 (PASC Processor Architecture for Enhanced Loop Execution)

  • 지승현;박노광;전중남;김석일
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1225-1240
    • /
    • 1999
  • This paper proposes PASC(PArtitioned SCHeduler) processor architecture that equips with a number of functional unit and an individual scheduler paris. Every scheduler of the PASC processor can determine whether a unit instruction can be issued to the associated functional unit or it is to be waited until next cycle caused by a resource collision or data dependencies. In the PASC processor, only the functional unit with a resource collision or data dependencies waits by executing a NOP(No OPeration) instruction and the other functional units execute their own instructions. Therefore we can expect the code compaction effect on the PASC processor. Thus, the last instruction of a loop at certain iteration and the very first instruction of the loop at the next iteration can be scheduled simultaneously if the two instructions do not incur any resource collision or data dependencies. Therefore, we can expect that such two instructions without any resource collision and data dependencies are packed into the same very long instruction word and thus, the two instructions are executed concurrently at run time. As a result, we can shorten execution cycles of a loop comparing to the execution of the loop on a traditional VLIW or SVLIW processor architecture. Simulation result also promises faster execution of loops on a PASC processor architecture than those on a VLIW and SVLIW processor architecture.

  • PDF

레지스터 재활용 사슬의 체계적 생성 (A Systematic Generation of Register-Reuse Chains)

  • 이혁재
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권12호
    • /
    • pp.1564-1574
    • /
    • 1999
  • In order to improve the efficiency of optimizing compilers, integration of register allocation and instruction scheduling has been extensively studied. One of the promising integration techniques is register allocation based on register-reuse chains. However, the generation of register-reuse chains in the previous approach was not completely systematic and consequently it creates unnecessarily dependencies that restrict instruction scheduling. This paper proposes a new register allocation technique based on a systematic generation of register-reuse chains. The first phase of the proposed technique is to generate register-reuse chains that are optimal in the sense that no additional dependencies are created. Thus, register allocation can be done without restricting instruction scheduling. For the case when the optimal register-reuse chains require more than available registers, the second phase reduces the number of required registers by merging the register-reuse chains. Chain merging always generates additional dependencies and consequently enforces the execution order of instructions. A heuristic is developed for the second phase in order to reduce additional dependencies created by merging chains. For matrix multiplication program, the number of registers resulting from the first phase is small enough to fit into available registers for most basic blocks. In addition, it is shown that the restriction to instruction scheduling is reduced by the proposed merging heuristic of the second phase.

  • PDF

명령어 버퍼를 이용한 최적화된 수퍼스칼라 명령어 이슈 구조 (An optimized superscalar instruction issue architecture using the instruction buffer)

  • 문병인;이용환;안상준;이용석
    • 전자공학회논문지C
    • /
    • 제34C권9호
    • /
    • pp.43-52
    • /
    • 1997
  • Processors using the superscalar rchitecture can achieve high performance by executing multipel instructions in a clock cycle. It is made possible by having multiple functional units and issuing multiple instructions to functional units simultaneously. But instructions can be dependent on one another and these dependencies prevent some instructions form being issued at the same cycle. In this paper, we designed an issue unit of a superscalar RISC microprocessor that can issue four instructions per cycle. The issue unit receives instructions form a prefetch unit, and issues them in order at a rate of as high as four instructions in one cycle for maximum utilization of functional units. By using an instruction buffer, the unit decouples instruction fetch and issue to improve instruction ussue rate. The issue unit is composed of an instruction buffer and an instruction decoder. The instruction buffer aligns and stores instructions from the prefetch unit, and sends the earliest four available isstructions to the instruction decoder. The instruction decoder decodes instructions, and issues them if they are free form data dependencies and necessary functional units and rgister file prots are available. The issue unit is described with behavioral level HDL (lhardware description language). The result of simulation using C programs shows that instruction issue rate is improved as the instruction buffer size increases, and 12-entry instruction buffer is found to be optimum considering performance and hardware cost of the instruction buffer.

  • PDF

한정된 연산유닛에서 명령어 종속성을 이용하는 수퍼스칼라 프로세서의 이론적 성능 모델 (A Theoretical Superscalar Microprocessor Performance Model with Limited Functional Units Using Instruction Dependencies)

  • 이종복
    • 전기학회논문지
    • /
    • 제59권2호
    • /
    • pp.423-428
    • /
    • 2010
  • In the initial design phase of superscalar microprocessors, a performance model is necessary. A theoretic performance model is very useful since performance for various architecture parameters can be obtained by simply computing equations, without repeating simulations, Previous studies established theoretic performance models using the relation between the instruction window size and the issue width, with the penalties due to branch mispredictions and cache misses. However, the study was intended for unlimited number of functional units, which is insufficient for the real case application. This paper proposes a superscalar microprocessor theoretical performance model which also works for the limited functional units. To enhance the accuracy of our limited functional unit model, instruction dependency rates are employed. By using trace-driven data of SPEC 2000 integer programs as input, this paper shows that the theoretically computed performance of superscalar microprocessor with limited number of functional units is quite similar to the measured performance.

적극적인 명령어 압축을 통한 성능향상 (Performance Improvement Through Aggressive Instruction Packing)

  • 지승현;김석일
    • 정보처리학회논문지A
    • /
    • 제9A권2호
    • /
    • pp.231-240
    • /
    • 2002
  • 본 논문에서는 독립적으로 스케쥴링할 수 있는 VLIW 명령어들을 소개함으로써, 컴파일러와 프로세서에서의 스케줄링 작업을 더욱 균등하게 분배할 수 있는 프로세서 구조를 제안하였다. 제안한 APVLIW(Aggressively Packed VLIW) 프로세서의 목표는 자료종속성을 포함한 VLIW 명령어들을 독립적으로 스케줄링이다. APVLIW 프로세서는 기존의 VLIW 코드로부터 대부분의 NOP(No Operations)과 LNOP(Long NOPs) 명령어들을 제거함으로써 압축된 형태의 긴명령어 그룹을 생성한다. 본 논문에서 제안된 APVLIW 프로세서는 여러 개의 연산처리기와 동적 스케줄러의 쌍들과 자료종속성 정보를 사용하여 긴명령어내의 각 명령어를 독립적으로 스케줄링할 수 있다. 이러한 스케줄링 기법은 특히 루프를 포함한 프로그램을 실행할 때 효과적이다. 실험 결과를 통해서 캐시크기의 변화와 벤치마크 프로그램에 상관없이 APVLIW 프로세서가 VLIM 프로세서에 비하여 성능이 향상됨을 확인하였다.

마이크로프로세서 전력소모 절감을 위한 명령어 큐 구조 (Instruction Queue Architecture for Low Power Microprocessors)

  • 최민;맹승렬
    • 대한전자공학회논문지SD
    • /
    • 제45권11호
    • /
    • pp.56-62
    • /
    • 2008
  • 현대 마이크로프로세서는 적정수준의 전력소모에 고성능의 애플리케이션성능을 요구한다. 전력소모와 성능향상의 상호보정 측면에서 볼때, 명령어 윈도우(Instruction window)는 특별히 중요한 구성요소이다. 이는 명령어 윈도우의 크기를 확장하면 성능향상을 가능하도록 하지만, 기존의 명령어 구조를 그대로 이용하여 크기만 늘리는 것은 전력소모와 복잡도 측면에서 불리하기 때문이다. 본 연구에서는 전력소모를 감소하기 위해서 직접 검색 테이블(Direct table lookup :DTL)을 사용하여 명령어 윈도우에서 발생하는 연관 검색을 최소화한다. 이를 위해 비트 벡터(bit-vector) 기반의 태그 변환 기법을 제안하여 데이터 종속성 및 자원 충돌 현상을 효과적으로 해결한다. 본 논문에서는 SPEC2000 벤치마크를 활용하여 성능평가를 수행하여 제안된 기법이 기존 방법 대비 24.45%의 전력소모 개선 효과를 나타냄을 확인하였다.

목적 코드 레벨에서의 벡터화 기법 (A Vectorization Technique at Object Code Level)

  • 이동호;김기창
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1172-1184
    • /
    • 1998
  • 명령어 재배치는 ILP(Instruction Level Parallelism) 프로세서의 병렬성을 활용하는 주요한 코드 최적화 기법이다. 명령어 재배치 알고리즘을 루프(loop)에 적용하면서 서로 다른 반복(iteration) 사이의 동시 수행 가능한 명령어들이 인접한 위치로 모여지는 소프트웨어 파이프라인(software pipeline)된 루프가 얻어진다. 그러나 루프로부터 병렬성을 추출하는 소프트웨어 파이프라인 방법은 주로 명령어사이의 자료 종속성에 근거하여 스케줄링을 수행하므로 그 자체에 무한한 병렬성을 가지고 있는 벡터 루프의 경우 그 병렬성을 충분히 드러내지 못한다는 문제점을 안고 있다. 본 논문에서는 이러한 벡터루프에 대해 프로그램의 목적 코드 레벨에서 행해질 수 있는 새로운 벡터 스케줄링 방법을 제안한다. 벡터 스케줄링 방법은 프로그램의 목적 코드 레벨에서 루프의 구조나 반복 조건, 그리고 자료 종속성 등에 대한 전체적인 정보에 기반하여 스케줄링을 수행함으로써 소프트웨어 파이프라인 방법보다 프로그램의 수행속도를 향상시킬 수 있다. 본 논문에서는 벡터 스케줄링을 수행한 결과를 전통적인 소프트웨어 파이프라인 방법에 대해 생산된 병렬 루프의 결과와 수행속도 측면에서 비교한다.

  • PDF

슈퍼스칼라 프로세서에서 정적 및 동적 분류를 사용한 혼합형 결과 값 예측기 (A Hybrid Value Predictor using Static and Dynamic Classification in Superscalar Processors)

  • 김주익;박홍준;조영일
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권10호
    • /
    • pp.569-578
    • /
    • 2003
  • 데이타 종속성은 명령어 수준 병렬성을 향상시키는데 중요한 장애요소가 되고 있으며, 최근 여러 논문에서 데이타 종속을 제거하기 위하여 결과 값을 예상하는 방법이 연구되고 있다. 혼합형 결과 값 예측기는 여러 예측기의 장점을 이용하여 높은 예상 정확도를 얻을 수 있지만, 동일한 명령어가 여러 개의 예측기 테이블에 중복 엔트리를 갖게되어 높은 하드웨어의 비용을 필요로 한다는 단점이 있다. 본 논문에서는 정적 및 동적 분류 정보를 이용하여 높은 성능을 얻을 수 있는 새로운 혼합형 결과 값 예측기를 제안한다. 제안된 예측기는 반입 단계 동안 정적 분류 정보를 사용하여 적절한 예측기에 할당함으로써 테이블 크기를 효과적으로 감소시켰고 예상정확도를 향상시켰다. 또한 제안된 예측기는 동적 분류를 사용하여“Unknown”유형의 명령어에 가장 적절한 예측방법을 선택하도록 하여 예상 정확도를 더욱 향상시켰다. SimpleScaiar/PISA 툴셋과 SPECint95 벤치마크 프로그램에서 시뮬레이션 한 결과, 정적 분류 정보를 사용하였을 경우 평균 예상 정확도가 85.1%, 정적 및 동적 분류 정보를 모두 사용하였을 경우 87.6%의 평균 예상 정확도를 얻을 수 있었다.

Implementation of Digital Filters on Pipelined Processor with Multiple Accumulators and Internal Datapaths

  • Hong, Chun-Pyo
    • 한국산업정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.44-50
    • /
    • 1999
  • 본 논문은 순환이동불변 플로우 그래프로 표시된 디지털 필터를 여러 개의 누산기 및 내부 데이터패스를 가진 파이프라인 프로세서에 최적으로 구현할 수 있는 기법에 대하여 기술하였다. 이와 관련하여 본 논문에서는 상용의 DSP 프로세서를 이용하여 다중프로세서를 구성했을 때를 고려한 스케쥴링 기법을 개발하였으며, 연구 결과는 다음의 세 가지로 요약할 수 있다. 첫째, 상용 DSP프로세서의 구조와 유사한 n개의 누산기와 3 개의 내부 데이터패스를 가지는 파이프라인 프로세서의 모델을 제시하였다. 둘째, 주어진 구조를 가지는 시스템에 순환이동불변 플로우 그래프로 표시된 디지털 필터를 구현하고자 할 때 얻을 수 있는 최소 반복 주기 및 간단한 스케쥴링 모델을 구했으며, 제약조건을 부여한 깊이 탐색기법에 바탕을 둔 최적의 스케쥴링 기법을 개발하였다. 마지막으로 본 연구에서 개발된 스케쥴러를 이용하여 잘 알려진 디지털 필터에 대하여 성능 시험을 한 결과 대부분의 경우 이론적으로 얻을 수 있는 최소의 반복 주기를 만족시켜주는 스케쥴링 결과를 얻을 수 있음을 확인하였다.

  • PDF

역사교육에 대한 게임 활용 방안: 기능성 게임 개발사례를 중심으로 (Games Application Methodology for History Education: Case Study of Developing a Serious Game for History Education)

  • 정찬용
    • 한국게임학회 논문지
    • /
    • 제18권6호
    • /
    • pp.29-38
    • /
    • 2018
  • 유럽을 중심으로 게임을 활용하는 다양한 교육 방안이 수업에 적용되고 있음에도 불구하고 국내에서 게임기반 학습(GBL) 비율은 아직 낮은 수준에 머물러 있다. 이 연구는 역사교육 GBL의 실천적 활용을 고취하기 위한 학제연구로 사례분석과 유형분류를 통하여 설계 요구사항과 학습준거, 수업모형을 도출한 후 수업에 적용하기 위한 실행 프로토타입을 개발하였다. 핵심적인 차별화 형식요소는 수업목표에 따라 교육자가 직접 지정할 수 있는 씬 관리와 역사적 전환점에 종속되도록 게임 흐름을 통제하는 개념이다. 교육자와 학습자, 교육게임 개발운용책임자로 구성된 평가단에 의한 반복적 타당성 평가를 통하여 프로토타입을 확정하였다.