• 제목/요약/키워드: Floating-Point Unit

검색결과 76건 처리시간 0.028초

IEEE754-2008을 위한 고속 부동소수점 연산기 설계 (Floating Point Unit Design for the IEEE754-2008)

  • 황진하;김현필;박상수;이용석
    • 대한전자공학회논문지SD
    • /
    • 제48권10호
    • /
    • pp.82-90
    • /
    • 2011
  • 스마트폰을 비롯한 각종 매체가 발전함에 따라 우수한 성능의 부동소수점 연산기 필요성이 점차 증가하고 있다. 이러한 요구에 따라 이 논문에서는 기본이 되는 덧셈/뺄셈 뿐 아니라 기존보다 향상된 곱셈과 비교, 변환 연산을 수행하는 고속의 단정도/배정도 부동소수점 연산기의 설계를 제안한다. 가장 많이 사용하는 덧셈/뺄셈 연산기는 반올림 연산 시에 병렬화 작업을 수행함으로서 최적화를 구현하였다. 그래픽 연산 등에서 복잡한 수의 행렬연산이 많이 사용되는데, 이를 빠르게 계산하기 위해서 곱셈기 대신에 곱셈 후 덧셈을 수행하는 단일 곱셈-누산기(MAF)를 설계하였다. 분기 명령은 프로그램에서 자주 사용하는 명령으로 비교 연산에 의해 분기 조건이 결정되는데 이 논문에서는 파이프라인이 완료되기 전에 수행된 비교연산의 결과값을 바이패싱함으로서 연산의 수행시간을 감소시켰다. 또한 IEEE754-2008 표준에 추가된 변환연산을 포함하여 설계하였다. RTL 설계를 검증하기 위하여 연산기마다 40만개의 테스트 벡터를 가중치 무작위 방식으로 선별하여 시뮬레이션을 수행하였다. 검증 후에는 삼성 저전력 45nm 공정에서 합성을 수행하여 600MHz의 동작 주파수를 만족하였다. 또한 개선된 FPU와 기존의 FPU와 비교하여 면적의 감소를 확인하였다.

모바일 3차원 그래픽을 위한 기하변환 엔진 설계 (Design of Transformation Engine for Mobile 3D Graphics)

  • 김대경;이지명;이찬호
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.49-54
    • /
    • 2007
  • 최근 많은 디지털 콘텐츠들이 3차원 그래픽을 기반으로 제작됨에 따라 모바일 기기에 적용 가능한 저 전력 3차원 그래픽 하드웨어에 대한 관심이 증가하고 있다. 본 논문에서는 이러한 시대 흐름에 맞추어 모바일 기기에 적용 가능한 3차원 그래픽 기하변환 엔진을 설계하였다. 설계된 기하변환 엔진은 매핑 변환 유닛을 투영 변환 유닛에 통합하고 클리핑 유닛을 선별 유닛으로 대체하여 구조를 단순화하고 면적을 줄었다. 설계된 엔진은 IEEE-754 표준을 만족하는 32 bit 부동소수점 형식과 데이터 폭을 줄인 24 bit 부동소수점 형식의 연산을 수행할 수 있으며 이는 파라미터의 변환으로 선택할 수 있도록 하였다. 또한 파이프라인 방식을 설계에 적용하여 초기 지연을 제외하고는 매 사이클 입력되는 정점의 좌표 성분(x, y, z, w)을 연산하여 4 사이클 마다 하나의 변환된 정점 좌표 성분을 출력할 수 있도록 하여 동작의 속도 및 효율을 높였다. 설계된 기하변환 엔진은 FPGA를 이용한 시스템으로 구현되었으며 설계된 엔진을 통해 변환된 3차원 객체가 TFT-LCD에 정상적인 3차원 그래픽 영상을 출력하는 것을 통해 검증하였다.

휴대용 임베디드 프로세서에서의 MPEG-4 오디오의 실시간 재생을 위한 정수 디코딩 기법 (MPEG-4 Audio Decoding Technique using Integer Operations for Real-time Playback on Embedded Processor)

  • 차경애
    • 방송공학회논문지
    • /
    • 제13권3호
    • /
    • pp.415-418
    • /
    • 2008
  • 소형의 휴대용 단말기는 회로복잡도나 소비전력 등의 문제로 부동소수점 연산 프로세서를 탑재하지 않는 경우가 있는데, 이로 인해 오디오 데이터의 디코딩 시간이 길어져, 끊김이나 잡음이 발생한다. 본 논문에서는 이를 해결하기 위해서 MPEG-4 오디오 디코딩 시 수행되는 실수형 연산과정을 정수형 연산과정으로의 변환을 통하여 디코딩 속도를 향상 시킬 수 있는 알고리즘을 제안하고 실험결과를 통해서 효율성을 보인다.

효율적인 로그와 지수 연산을 위한 듀얼 페이즈 명령어 구조 (A Efficient Calculation for log and exponent with A Dual Phase Instruction Architecture)

  • 김준서;이광엽;곽재창
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.320-323
    • /
    • 2010
  • 본 논문은 작은 사이즈가 요구되는 제한적인 모바일 환경의 프로세서에서 별도의 연산기 없이 제안된 Dual Phase 명령어 구조를 이용해 효율적인 로그와 지수 연산이 가능한 방법을 제안한다. Floating Point 자료형의 지수부와 실수부를 추출하는 명령어 세트와 테일러 급수 전개를 이용해 로그의 근사치를 계산하여 24비트 단정도 부동 소수점을 연산하고, Dual Phase 명령어 구조를 활용해 명령어 실행 사이클을 줄였다. 제안된 구조는 별도의 연산기를 두는 구조보다 작은 사이즈를 유지하면서 성능저하를 33%까지 최소화 할 수 있는 구조이다.

  • PDF

오차 교정 K차 골드스미트 부동소수점 나눗셈 (Error Corrected K'th order Goldschmidt's Floating Point Number Division)

  • 조경연
    • 한국정보통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.2341-2349
    • /
    • 2015
  • 부동소수점 나눗셈에서 많이 사용하는 골드스미트 부동소수점 나눗셈 알고리즘은 한 회 반복에 두 번의 곱셈을 수행한다. 본 논문에서는 한 회 반복에 K 번 곱셈을 수행하는 가칭 오차 교정 K차 골드스미트 부동소수점 나눗셈 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 유도하고, 여러 크기의 근사 역수 테이블에서 단정도실수 및 배정도실수의 나눗셈 계산에 필요한 평균 곱셈 횟수를 계산한다. 또한 한 번의 곱셈과 판정으로 나눗셈 결과를 보정하는 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복 연산을 수행하므로 나눗셈 계산기의 성능을 높일 수 있다. 또한 최적의 근사 테이블을 구성할 수 있다.

HARP의 부동소숫점 연산기 구조설계

  • 조정연
    • ETRI Journal
    • /
    • 제10권3호
    • /
    • pp.36-48
    • /
    • 1988
  • 본 논문에서는 부동소숫점연산 프로세서들의 최근 동향을 설명하면서 부동소숫점 연산기의 중요성을 강조하고, 한국전자통신연구소 프로세서구조연구실에서 개발하고 있는 HARP(High-performance Architecture for RISC type Processor)의 개발전략에 따른 부동소숫점 연산기(Floating-Point Unit : FPU)의 구조를 정의한다. 또한 HARP FPU의 설계구현을 마이크로 구조측면에서 설명한다. HARP의 CPU와 동일 칩상에 구현될 HARP FPU는 고유의 구조를 가지며 모든 부동소숫점 연산은 IEEE-754 표준을 따른다. HARP FPU는 고속의 부동소숫점 연산 유니트이며, HARP의 IPU(Integer Processing Unit)와는 독립적으로 동작되도록 설계되어서 HARP CPU의 전체적인 파이프라인 기능에 가능한 한 페날티를 주지 않도록 동작된다.

  • PDF

IEEE 754-1985 단정도 부동 소수점 연산용 나눗셈기 설계 (Design of a Floating-Point Divider for IEEE 754-1985 Single-Precision Operations)

  • 박안수;정태상
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2001년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.165-168
    • /
    • 2001
  • This paper presents a design of a divide unit supporting IEEE-754 floating point standard single-precision with 32-bit word length. Its functions have been verified with ALTERA MAX PLUS II tool. For a high-speed division operation, the radix-4 non-restoring algorithm has been applied and CLA(carry-look -ahead) adders has been used in order to improve the area efficiency and the speed of performance for the fraction division part. The prevention of the speed decrement of operations due to clocking has been achieved by taking advantage of combinational logic. A quotient select block which is very complicated and significant in the high-radix part was designed by using P-D plot in order to select the fast and accurate quotient. Also, we designed all division steps with Gate-level which visualize the operations and delay time.

  • PDF

LPC-CEPSTRUM 추출을 위한 전용 프로세서의 설계 (A design of the processor dedicated to LPC-CEPSTRUM)

  • 황인철;김성남;김영우;김태근;김수원
    • 전자공학회논문지C
    • /
    • 제34C권8호
    • /
    • pp.71-78
    • /
    • 1997
  • An LPC cepstrum processor for speech recognition is implemented on CMOS array process. The designed processor contains a 24-bit floating-point MAC unit to perform the correlation quickly, which occupies the majority of operations used in the algorithm, and has 22 register files to store temporary variables. For the purpose of fast operations, the floating-point MAC consists of a 3-stage pipeline and the new post-normalization shceme is proposed and applied to it. Experimental result shows that it takes approximately 266.mu.s to process 200 samples/frame at 15 MHz clock rate. This processor runs at the maximum rate of 16.6 MHz and the number of gates are 27,760.

  • PDF

NPU 반도체를 위한 저정밀도 데이터 타입 개발 동향 (Trends of Low-Precision Processing for AI Processor)

  • 김혜지;한진호;권영수
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.53-62
    • /
    • 2022
  • With increasing size of transformer-based neural networks, a light-weight algorithm and efficient AI accelerator has been developed to train these huge networks in practical design time. In this article, we present a survey of state-of-the-art research on the low-precision computational algorithms especially for floating-point formats and their hardware accelerator. We describe the trends by focusing on the work of two leading research groups-IBM and Seoul National University-which have deep knowledge in both AI algorithm and hardware architecture. For the low-precision algorithm, we summarize two efficient floating-point formats (hybrid FP8 and radix-4 FP4) with accuracy-preserving algorithms for training on the main research stream. Moreover, we describe the AI processor architecture supporting the low-bit mixed precision computing unit including the integer engine.

부동 소수점 DSP 프로세서의 테스트 용이 설계 (Design-for-Testability of The Floating-Point DSP Processor)

  • 윤대한;송오영;장훈
    • 한국통신학회논문지
    • /
    • 제26권5B호
    • /
    • pp.685-691
    • /
    • 2001
  • 본 논문은 4단계 파이프 라인과 VLIW (Very Long Instruction Word) 구조를 갖는 FLOVA라는 DSP 프로세서의 테스트용이 설계 기법을 다룬다. Full-scan design, BIST(Built-In-Self-Test), IEEE 1149.1의 기법들이 플립플롭과 floaing point unit, 내장된 메모리, I/O cell 등에 각각 적용되었다. 이러한 기법들은 테스트 용이도의 관점에서 FLOVA의 구조에 적절하게 적용되었다. 본 논문에서는 이와 같이 FLOVA에 적용된 테스트 용이 설계의 특징들을 중심으로 상세하게 기술한다.

  • PDF