• 제목/요약/키워드: Algorithm Instruction

검색결과 156건 처리시간 0.046초

병렬 파이프라인 프로세서 아키덱처의 설계 (Design of a Parallel Pipelined Processor Architecture)

  • 이상정;김광준
    • 전자공학회논문지B
    • /
    • 제32B권3호
    • /
    • pp.11-23
    • /
    • 1995
  • In this paper, a parallel pipelined processor model which acts as a small VLIW processor architecture and a scheduling algorithm for extracting instruction-level parallelism on this architecture are proposed. The proposed model has a dual-instruction mode which has maximum 4 basic operations being executed in parallel. By combining these basic operations, variable instruction set can be designed for various applications. The scheduling algorithm schedules basic operations for parallel execution and removes pipeline hazards by examining data dependency and resource conflict relations. In order to examine operation and evaluate the performance,a C compiler and a simulator are developed. By simulating various test programs with the compiler and the simulator, the characteristics and the performance result of the proposed architecture are measured.

  • PDF

DSP영 ASIP을 위한 특수 명령어 생성 기법 (Techniques for special instruction generation for DSP ASIP)

  • 김홍철;황승호
    • 전자공학회논문지C
    • /
    • 제35C권7호
    • /
    • pp.1-10
    • /
    • 1998
  • The first thing in designing application-specific instruction set processor is having instruction set closely matching hardware characteristics. This instruction set design problem can be more complicated when cobined with implementation method selection problem of each instruction. Our processor model supports two kinds of instructions-primitive or special instructions. Primitive instructions are implemented using common multifunctional hardware such as ALU. Special instructions require a set of dedicated hardware, which actually functions as a coprocessor to the main processor. In this case, special instructions and primitive instructions can be executed independently. In this paper, we present novel algorithm for genrating special instructions for given application. Parallelism between special instructions and primitive instructions is also considered during the performance estimation stage of generated special instructions.

  • PDF

효율적인 로그와 지수 연산을 위한 듀얼 페이즈 명령어 설계 (A Design of Dual-Phase Instructions for a effective Logarithm and Exponent Arithmetic)

  • 김치용;이광엽
    • 전기전자학회논문지
    • /
    • 제14권2호
    • /
    • pp.64-68
    • /
    • 2010
  • 본 논문은 작은 사이즈가 요구되는 제한적인 모바일 환경의 프로세서에서 별도의 연산기 없이 제안된 Dual Phase 명령어 구조를 이용해 효율적인 로그와 지수 연산이 가능한 방법을 제안한다. Floating Point 자료형의 지수부와 실수부를 추출하는 명령어 세트와 테일러 급수 전개를 이용해 로그의 근사치를 계산하여 24비트 단정도 부동 소수점을 연산하고, Dual Phase 명령어 구조를 활용해 명령어 실행 사이클을 줄였다. 제안된 구조는 별도의 연산기를 두는 구조보다 작은 사이즈를 유지하면서 성능저하를 33%까지 최소화 할 수 있는 구조이다.

멀티미디어 데이타 처리를 위한 그래픽 프로세서 설계 (Design of a Graphic Processor for Multimedia Data Processing)

  • 고익상;한우종;선우명동
    • 전자공학회논문지C
    • /
    • 제36C권10호
    • /
    • pp.56-65
    • /
    • 1999
  • 본 논문은 그래픽 프로세서(Graphic Coprocessor: GCP)의 설계 및 구현에 대해 기술한다. 설계된 그래픽 프로세서는 멀티미디어 서버용 프로세서의 그래픽 전용 프로세서로 사용 가능하다. GCP 명령어 집합은 멀티미디어 데이타의 병렬성을 이용하기 쉬운 SIMD 및 Superscalar 등의 병렬 아키텍쳐 개념을 적용하여 설계하였다. 설계된 GCP는 4개의 주 프로세서에 의해 공유되는 형태이며 공유에 따른 명령어의 병목현상을 해결하기 위한 스케줄러와 연산을 위한 4개의 기능 유니트를 내장하고 있다. 최대 4개 명령어의 동시 수행이 가능한 GCP는 Verilog HDL로 모델링하고 논리 합성하였다 약 56,000개의 게이트로 구성되는 GCP는 SOG 라이브러리의 제약으로 인하여 30 ㎒로 동작하며 CIF 영상 규격에 대해 초당 63 프레임의 DCT 연산 및 초당 21 프레임의 FBMA 연산을 수행 할 수 있다.

  • PDF

Design of Chip Set for CDMA Mobile Station

  • Yeon, Kwang-Il;Yoo, Ha-Young;Kim, Kyung-Soo
    • ETRI Journal
    • /
    • 제19권3호
    • /
    • pp.228-241
    • /
    • 1997
  • In this paper, we present a design of modem and vocoder digital signal processor (DSP) chips for CDMA mobile station. The modem chip integrates CDMA reverse link modulator, CDMA forward link demodulator and Viterbi decoder. This chip contains 89,000 gates and 29 kbit RAMs, and the chip size is $10 mm{\times}10.1 mm$ which is fabricated using a $0.8{\mu}m$ 2 metal CMOs technology. To carry out the system-level simulation, models of the base station modulator, the fading channel, the automatic gain control loop, and the microcontroller were developed and interfaced with a gate-level description of the modem application specific integrated circuit (ASIC). The Modem chip is now successfully working in the real CDMA mobile station on its first fab-out. A new DSP architecture was designed to implement the Qualcomm code exited linear prediction (QCELP) vocoder algorithm in an efficient way. The 16 bit vocoder DSP chip has an architecture which supports direct and immediate addressing modes in one instruction cycle, combined with a RISC-type instruction set. This turns out to be effective for the implementation of vocoder algorithm in terms of performance and power consumption. The implementation of QCELP algorithm in our DSP requires only 28 million instruction per second (MIPS) of computation and 290 mW of power consumption. The DSP chip contains 32,000 gates, 32K ($2k{\times}16\;bit$) RAM, and 240k ($10k{\times}24\;bit$) ROM. The die size is $8.7\;mm{\times}8.3\;mm$ and chip is fabricated using $0.8\;{\mu}m$ CMOS technology.

  • PDF

EPIC 아키텍쳐를 위한 적극적 레지스터 할당 알고리듬 (An Aggressive Register Allocation Algorithm for EPIC Architectures)

  • 최준기;이상정
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.497-511
    • /
    • 1999
  • 최근 많은 명령어 수준 병렬 처리 기술들이 개발되면서 ILP 프로세서 성능이 급격히 증가하고 있다. 특히, 새로운 기술로 주목 받고 있는 EPIC(Explicitly Parallel Instruction Computing) 아키텍쳐는 조건실행 (Predicated Execution)과 투기적실행(Speculative execution)을 하드웨어와 접목하여 성능 향상을 시도하고 있다. 본 논문에서는 EPIC 아키텍쳐의 특성을 최대로 활용하여 코드 스케줄 가능성을 높이는 새로운 레지스터 할당 알고리듬을 제안한다. 그리고, 제안된 레지스터 할당 알고리듬은 조건실행의 적용으로 인하여 더욱 효율을 높일 수 있음을 실험을 통하여 입증한다. 실험 결과 기존의 레지스터 할당 방법에 비하여 평균 19%의 성능 향상을 보임으로써 제안된 레지스터 할당 방법이 효과적임을 검증한다.

  • PDF

ILP 프로세서를 위한 조건실행 지원 스케쥴링 알고리즘 (A Predicate-Sensitive Scheduling Algorithm in Instruction-Level Parallelism Processors)

  • 유병강;이상정
    • 한국정보처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.202-214
    • /
    • 1998
  • 명령어 수준에서 병렬성(Instruction-Level Parallelism, ILP)을 추출하는 것은 슈퍼스칼라 및 VLIW프로세서들의 성능 개선을 위한 효과적인 메커니즘이다. 이를 위하여 여러 가지 소프트웨어 기법들이 응용될 수 있다. 이들 기법 중 조건실행(predicated execution)은 명령어의 조건으로 참조되는 부울 소스 오퍼랜드의 값을 기본으로 명령어 조건적 실행 여부를 참조하여 분기명령을 제거함으로서 여러 기본 블록의 명령들을 하나의 기본블록으로 구성하여 ILP를 증가시키는 기법이다. 본 논문은 조건실행을 지원하는 ILP프로세서들의 성능개선을 위하여 기본 블록을 넘어선 광역 조건실행 지원 스케쥴링 알고리듬(global predicate-sensitive scheduling algorithm)을 제안한다. 또한 C 컴파일러와 시뮬레이터를 개발하고 다양한 벤치마크 프로그램에 대하여 제안된 알고리듬의 성능을 측정하고 타당성을 확인한다. 1, 2, 4이슈실행에 대한 성능 측정 결과, 평균 20%의 성능 개선이 확인되었다.

  • PDF

MC68000$\mu$P의 명령어디코오딩 기능에 관한 시험알고리즘 (A Test Algorithm for Instruction Decoding Function of MC 68000$\mu$P)

  • 김종호;안광선
    • 대한전자공학회논문지
    • /
    • 제22권6호
    • /
    • pp.124-132
    • /
    • 1985
  • LSl/VLSl의 제조기술이 발달함에 따라 마이크로프로세서 (μP)의 기능시험에 많은 시간이 소요되고 있다. 논문에서는 MC68000μP를 대상으로 기능시험이 복추하게 되는 요인인 명령어디로오딩 기능에 대한 핵배적인 시험방법을 제안하였다. 이를 위하여 사용자측에 제공된 명령어디로오딩의 정보인 operation word를 분석하고 그 bit형태에 따라 명령어를 대염명령보와 소리명령어로 구분하여 명령어디로오딩 고장 검출에 필요한 총소의 시험명령어벨을 선액하였으며 이들에 대한 시험처준방법을 논하였다. 본 시험알고리즘을 69경의 봉본명령보에 대해 수행시킨 결과 332정의 시험명령인쌍을 구할 수 있었다.

  • PDF

스트리밍 데이터의 선인출에 사용되는 참조예측표의 스칼라 우선 교체 전략 (Scalar First Replacement Strategy for Reference Prediction Table Used in Prefetching Streaming Data)

  • 임철후;전영숙;김석일;전중남
    • 정보처리학회논문지A
    • /
    • 제11A권3호
    • /
    • pp.163-172
    • /
    • 2004
  • 멀티미디어 응용프로그램의 데이터는 주소 간격이 일정한 스트리밍 패턴으로 참조되는 특성이 있다. 이러한 특성을 선인출방법에 적용하여 멀티미디어 응용프로그램의 수행속도를 향상시킬 수 있다. 참조예측표에 의한 선인출방법은 메모리 참조명령어의 과거 기록을 이용하여 규칙적으로 참조되는 메모리주소를 예측한다. 이 논문은 참조예측표를 사용하는 하드웨어 기반의 규칙 선인출방법에서 효율적인 참조예측표 운영방법을 제안한다. 참조예측표에 입력되는 메모리 참조명령어는 스칼라데이터 참조명령어와 스트리밍데이터 참조명령어로 구성된다. 스칼라데이터 참조명령어는 선인출에 사용되지 않으므로 스칼라데이터 참조명령어를 우선적으로 교체함으로서, 참조예측표를 효과적으로 사용할 수 있다. 이방법은 기존 FIFO 방법과 비교할 때, 선인출에 사용되는 스트리밍데이터 참조명령어를 참조예측표에 더 오래 유지함으로써, 선인출 성능이 향상된다.

Niod II 코어기반 가속기 비교 (Comparison of Nios II Core-based Accelerators)

  • 송기용
    • 한국산학기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.639-645
    • /
    • 2015
  • Nios II 코어에 기반한 하드웨어 가속기를 checksum과 residue checking 알고리즘을 대상으로 하여 HDL 코딩으로 해당 하드웨어를 구현하는 component 방식, 프로세서 명령어세트 확장에 의한 custom instruction 방식과 C2H 컴파일러로 해당 로직을 자동 생성하는 C2H 방식으로 구현하고, 실행 결과를 분석 및 비교한다. 비교 결과 실행 소요시간 기준의 경우 C2H 방식 구현이 최단시간 수행을, 그리고 하드웨어 추가 소요량 기준의 경우 custom instruction 방식 구현이 최소의 하드웨어를 추가로 사용함을 확인한다.