• 제목/요약/키워드: 분기 명령어

검색결과 70건 처리시간 0.03초

HARP(High-performance Architecture ) for Risc-type Processor) 의 구조설계

  • 김강철;박종원;이재선;이만재
    • ETRI Journal
    • /
    • 제10권3호
    • /
    • pp.9-23
    • /
    • 1988
  • 반도체 기술의 급격한 발전으로 마이크로프로세서를 이용하여 수퍼미니급의 컴퓨터를 개발하는 것이 가능하게 되었다. 따라서 프로세서 칩 개발노력이 증대되었으며 컴퓨터 구조 또는 프로세서 구조에 관한 연구도 여러 곳에서 진행되고 있다. 우리나라의 경우 독자적인 명령어를 갖는 컴퓨터를 개발하겠다는 노력은 미미하였으며 외부로 발표된 것은 전무한 상태이다. 본 논문은 한국전자통신연구소에서 개발하고 있는 독자적인 명령어 세트를 가지는 RISC 형태의 32 비트 마이크로프로세서인 HARP의 구조설계에 관한 것으로서 기본구조 설계를 위하여 1980년대 이후에 개발된 RISC 프로세서들에 대한 사례연구를 하였으며, 이를 바탕으로 HARP의 명령어 및 데이터 형식, 레지스터의 구성, 48비트의 가상 어드레스 사용방법, load/store 및 분기 명령어에서 사용되는 어드레싱 모드 그리고 HARP에서 정의한 39개의 명령어들에 대해 기술한다.

  • PDF

범용 응용프로그램 실행 시 하드웨어 구성과 분기 처리 기법에 따른 GPU 성능 분석 (Analysis of Impact of Correlation Between Hardware Configuration and Branch Handling Methods Executing General Purpose Applications)

  • 최홍준;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제13권3호
    • /
    • pp.9-21
    • /
    • 2013
  • GPU의 연산 능력과 유연성이 강화됨에 따라, GPU는 그래픽 응용프로그램뿐만 아니라 범용 응용프로그램도 수행한다. 특히, GPU 회사들이 제공하는 API를 활용함으로써 프로그래머들은 보다 쉽게 GPGPU 응용프로그램을 작성할 수 있다. 하지만 대부분의 범용 응용프로그램은 분기 명령어를 많이 포함하고 있기 때문에, 범용 응용프로그램을 수행하는 경우 GPU의 연산 자원을 충분히 활용할 수 없다. 분기 명령어를 처리하기 위해서 다양한 워프 생성 기법들이 제안되었다. GPU 구조에서는 높은 연산 자원 활용률을 보이는 워프 생성기법이 우수한 성능을 보일 것으로 예상된다. 하지만 예상과는 달리, 실험 결과에 따르면 높은 연산 자원 활용률을 보이는 워프 생성 기법의 성능이 상대적으로 낮은 연산 자원 활용률을 보이는 워프 생성 기법의 성능보다 낮게 나타난다. 높은 연산 자원 활용률을 보이는 워프 생성 기법에서 유발한 많은 메모리 요구로 인한 심각한 메모리 병목 현상이 원인으로 분석된다. 그러므로 적절한 하드웨어 지원이 없는 경우, 높은 연산자원 활용률이 반드시 우수한 성능을 보장한다고 할 수 없다. 이러한 이유로, 본 논문에서는 하드웨어 자원과 워프 생성 기법사이의 상관관계에 대한 상세한 분석을 수행하고자 한다. 본 논문의 분석 결과는 분기 명령어에 의해 발생된 GPU의 성능 저하 문제를 해결하고자 할 때 중요한 가이드라인이 될 것이다.

고성능 내장형 마이크로프로세서의 분기 예측기 구현 및 성능 대비 비용 분석 (Implementation of a Branch Predictor and Its Cost Per Performance Analysis for a High Performance Embedded Microprocessor)

  • 신상훈;최린
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.202-204
    • /
    • 2003
  • EISC ISA를 기반으로 한 64 비트 고성능 내장형 마이크로프로세서 AE64000의 효과적인 성능 향상을 위해서 비용 대비 성능 향상이 우수한 분기 예측 기법을 도입하여 AE64000 파이프라인에 적합한 분기 예측기를 추가로 설계하고 SPEClnt 벤치마크 및 타 내장형 벤치마크의 성능 분석 시뮬레이션을 통해 최적의 분기 예측기의 구조를 결정하였다. AE64000에서 LERI 명령 처리를 위해 AE64000 파이프라인에 추가된 독특한 IFU에 의하여 복잡성을 갖지만, IF 단계의 PC 대신에 IFU 단계의 PrePC를 이용하여 분기 명령을 명령어 prefetch 단계에서 예측함으로써, 올바른 분기 예측시 분기로 인한 손실을 제거할 수 있다. 결과적으로 최종 선정된 최적의 분기 예측기는 Verilog로 구현하여 AE64000 프로세서 코어 모델과 통합 합성하였고 아울러 추가되는 면적과 최종 목표 클럭에 동작하기 위한 타이밍 분석을 통해 최종 생산에 적합하도록 설계된 분기 예측기의 기능 및 타이밍 검증을 수행하였다. 최종 구현된 분기 예측기는 프로세서 칩 전체의 1% 미만의 비용으로 최고 12%의 성능 향상을 달성하여 성능 대비 면적의 효율성에서 높은 결과를 보였다.

  • PDF

가변적 하드웨어 구성에 대한 수퍼스칼라 프로세서의 성능 예측 모델 (An Analytical Performance Model for Supercalar Processors)

  • 이종복
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.24-26
    • /
    • 1999
  • 본 논문에서는 주어진 윈도우에 대하여 수퍼스칼라 프로세서의 하드웨어를 구성하는 기본 요소인 인출율과 연산 유닛의 개수로 표현되는 성능 예측 모델을 제시하였다. 이때, 수퍼스칼라 프로세서에서 실행되는 벤치마크 프로그램은 매 싸이클당 각 명령어 개수가 시행되는 확률과 분기 예측 정확도에 의하여 특성화된다. 초기의 실험으로 각종 파라미터를 획득한 후에는 다양한 연산유닛과 인출율을 갖는 수퍼스칼라 프로세서의 성능을 본 논문에서 제안하는 모델에 의하여 간단하게 구할 수 있다. 명령어 자취 모의실험(trace-driven simulation)으로 측정한 성능과 본 논문에서 제안하는 성능 예측 모델에 의한 성능을 비교한 결과, 3.8%의 평균오차를 기록하였다.

  • PDF

AE32000 호환 32-비트 EISC 마이크로프로세서 설계 (Design of an AE32000-compatible 32-bit EISC Microprocessor)

  • 곽기영;박진국;이두영;이범근;정연모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.700-702
    • /
    • 2002
  • 본 논문은 16-비트 고정된 명령어 형식을 갖는 32-비트 EISC(Extendable Instruction Set Computer) 코어 구현에 대하여 기술하였다. EISC구조는 코드 밀도가 높은 확장 오퍼랜드(operand) 형식을 사용하여 메모리 크기를 줄일 수 있으므로 ASIC 구현시 저전력 시스템 및 소형화된 임베디드 시스템을 위한 프로세서 구현을 가능하게 한다. 설계된 프로세서는 AE32000 명령어 셋과 호환이 가능하도록 설계되었으며 5단 파이프라인을 적용하여 프로세서의 성능을 높였다. 또한 BTB(Branch Target Buffer)를 사용하여 분기 지연을 줄여 낮은 CPI(Clock Per Instruction)을 유지하게 하였다.

듀얼 페이즈 명령어 파이프라인구조의 쉐이더 프로세서 설계 (A Design of a Shader Processor based on a dual-phase pipeline architecture)

  • 정형기;남기훈;이광엽
    • 전기전자학회논문지
    • /
    • 제12권4호
    • /
    • pp.246-254
    • /
    • 2008
  • 본 논문에서는 멀티 스레드와 듀얼 페이즈 명령어 파이프라인을 가진 4way SIMD 프로세서를 설계하였다. 8개의 스레드가 round-robin 방식으로 실행되어, 해저드를 발생시키지 않는다. 또한 듀얼 페이즈 기능은 1개의 코어가 2개의 프로세서처럼 동작하도록 명령어를 최대 4개를 입력 받아 처리한다. 이 가변 명령어 구조는 1차와 2차 페이즈로 나뉘어 명령어를 수식할 수 있으며, 이 기능을 통해 분기명령이나 어드레싱 명령을 단일 클럭에 수행할 수 있도록 한다. 이 프로세서는 명령어 수행 시간을 일반적인 SIMD 구조에 비하여 50% 이하로 단축시킬 수 있으며, 최대 2배의 성능향상을 보이고 25%까지 코드 크기를 줄일 수 있다..

  • PDF

SIMT 구조 기반 멀티코어 GPGPU의 통합 ALU 설계 (An implementation of a unified ALU in multi-core GPGPU based on SIMT architecture)

  • 경규택;곽재창;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.540-543
    • /
    • 2013
  • 본 논문은 SIMT 구조 기반의 멀티코어 GPGPU의 통합 ALU를 설계하였다. 조건부 분기 명령어, 데이터 이동 명령어, 정수형 산술 연산 명령어, 부동소수점 산술 연산 명령어를 처리할 수 있으며 멀티코어 GPGPU의 다양한 형태의 병렬처리 기능을 지원하기 위하여 다 수의 ALU가 탑재된다. 각 명령어 연산의 처리방식의 공통성을 회로 수준에서 통합하여 최소의 크기로 ALU를 설계하는 것이 본 논문의 주안점이다. 모든 명령어는 테스트 프로그램을 작성하여 실험하였고 CPU로 연산한 결과와 비교하여 본 논문의 ALU가 정상적으로 동작함을 검증하였다. 본 논문에서 설계한 통합 ALU의 크기는 약 2만 게이트이며 최대 동작주파수는 430MHz이다.

  • PDF

ILP 프로세서를 위한 성능측정 및 평가 시스템 (A Performance measurement and Evaluation System for ILP Processors)

  • 이상정
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.2164-2178
    • /
    • 1998
  • 본 논문에서는 한 사이클에 여러 개의 명령들이 다중 이슈되어 명령어 수준에서 병렬처리되는 ILP 프로세서의 성능을 측정하고 평가하는 시스템을 개발한다. 개발되는 시스템은 C 컴파일러와 시뮬레이터로 구성된다. C 컴파일러는 C 소스 프로그램을 입력으로 받아 3-주소 코드형태의 중간언어를 생성한다. 생성된 중간언어는 ILP 프로세서의 환경 파라미터와 함께 시뮬레이터에 입력되어 시뮬레이션된 후 메모리 내용, 수행된 클럭 수 및 명령 트레이스, 수행된 명령들의 동적 빈도수, 분기명령의 예측률, profiling 정보 등을 생성한다. 개발된 성능측정 시스템의 동작 검증을 위하여 순차이슈 되어 정적으로 스케쥴링 되는 조건실행 방식의 성능과 분기처리 방식의 성능을 측정하여 분석한다.

  • PDF

DSP 기능 유닛을 내장한 32비트 RISC 마이크로프로세서의 구조 설계 (The Architecture Design of 32-bit RISC Microprocessor with DSP Functional Unit)

  • 안상준;정우경;김문경;문상국;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.345-348
    • /
    • 1999
  • 본 논문에서는 내장형 응용에 적합한 RISC 마이크로프로세서와 DSP 프로세서의 기능을 유기적으로 결합한 구조를 연구하고 이를 설계한다. 프로그램의 크기를 줄이기 위해 RISC 명령어는 16비트 명령어 집합을 설계하고 분기 명령어로 인한 손실을 줄이기 위해 한 개의 지연 슬롯을 갖고 있다. DSP 명령어는 32비트 길이를 갖고 한 명령어로 곱셈, 덧셈(뺄셈), 두 가지 데이터 이동을 할 수 있어서 한 사이클에 최대 네 가지 동작을 할 수 있다 파이프라인 단계는 IF, ID, EX, MA, WB/DSP의 다섯 단계로 구성된다. DSP 기능을 지원하기 위해 내부 루프 버퍼를 갖고 정수 실행부에서는 주소 발생을 위한 전용 하드웨어와 DSP 유닛에서는 곱셈 및 누적 기능을 지원하기 위한 17 × 17 비트 곱셈기가 내장된다. 제안된 구조의 설계는 Verilog-HDL을 이용하여 top-down 설계 방식으로 설계되었고 각 기능 검증을 마친 후 3.3V, 0.6㎛ CMOS triple metal single poly 공정을 이용하여 합성하고 레이아웃 하였다.

  • PDF

가변 길이 명령어 처리를 위한 명령어 버퍼 구현 (Implementation of an Instruction Buffer to process Variable-Length Instructions)

  • 박주현;김영민
    • 전자공학회논문지C
    • /
    • 제35C권12호
    • /
    • pp.66-76
    • /
    • 1998
  • 본 논문에서는 명령어 버퍼에 저장되어 있는 가변 길이 명령어의 미스 율을 낮추기 위한 버퍼를 구현한다. 또한 반복적으로 수행되는 명령어들의 디코딩 시간을 줄이기 위해 외부에서 명령어를 패취(fetch)하여 초기 디코드 동작을 한 후 그 결과를 버퍼에 저장하는 MAU(Mark Appending Unit)를 둔다. 또한 분기명령어의 효과적인 처리를 위해 타겟 명령어의 히트 여부를 판단하는 회로를 내장하고 있다. 가변 길이 명령어를 처리하기 위한 각 모듈은 VHDL을 이용해 설계되었으며, Model Technology Inc.의 V-System를 사용하여 시뮬레이션 하였다. 합성 및 검증은 0.6㎛ 5-Volt CMOS TLM(Three Layer Metal) COMPASS 라이브러리를 이용한 ASIC Synthesizer 툴을 사용하였다. 최고 동작 속도는 약 140MHz까지이며, 총 게이트 수는 약 17,000개이다.

  • PDF