• 제목/요약/키워드: Floating-point Unit

검색결과 76건 처리시간 0.025초

H.264 율제어 알고리듬의 하드웨어 설계 (A hardware design of Rate control algorithm for H.264)

  • 서기범
    • 한국산학기술학회논문지
    • /
    • 제11권1호
    • /
    • pp.175-181
    • /
    • 2010
  • 본 논문에서는 H.264 방식의 full HD실시간영상압축을 위한 율제어 모듈의 새로운 구조를 제안한다. 제안된 구조에서는 각 매크로블록 라인(full HD의 경우 120 매크로 블록, CIF 의 경우 22 매크로 블록)을 따라 율제어 알고리즘을 사용함으로서 QP 가 변경된다. JM의 H.264 율제어 알고리듬에는 복잡한 산술연산과 부동 소숫점 연산을 가지고 있기 때문에, 정수형 산술 CPU 를 통한 율제어 알고리듬의 구현은 불가능하다. 따라서 우리는 부동 소숫점 연산 유닛을 채용하고, 이 부동소숫점 연산 유닛을 이용하여, 율제어 알고리듬을 구현하였으며, 이 하드웨어를 통하여 실시간에 동작할 수 있음을 확인하였다.

Design of Pipelined Floating-Point Arithmetic Unit for Mobile 3D Graphics Applications

  • Choi, Byeong-Yoon;Ha, Chang-Soo;Lee, Jong-Hyoung;Salclc, Zoran;Lee, Duck-Myung
    • 한국멀티미디어학회논문지
    • /
    • 제11권6호
    • /
    • pp.816-827
    • /
    • 2008
  • In this paper, two-stage pipelined floating-point arithmetic unit (FP-AU) is designed. The FP-AU processor supports seventeen operations to apply 3D graphics processor and has area-efficient and low-latency architecture that makes use of modified dual-path computation scheme, new normalization circuit, and modified compound adder based on flagged prefix adder. The FP-AU has about 4-ns delay time at logic synthesis condition using $0.18{\mu}m$ CMOS standard cell library and consists of about 5,930 gates. Because it has 250 MFLOPS execution rate and supports saturated arithmetic including a number of graphics-oriented operations, it is applicable to mobile 3D graphics accelerator efficiently.

  • PDF

고속 연산을 위한 병렬 구조의 십진 부동소수점 연산 장치 설계 (Design of Parallel Decimal Floating-Point Arithmetic Unit for High-speed Operations)

  • 윤형기;문대철
    • 한국정보통신학회논문지
    • /
    • 제17권12호
    • /
    • pp.2921-2926
    • /
    • 2013
  • 본 논문에서 제안된 십진 부동소수점 연산 장치(decimal floating-point arithmetic unit, DFP)는 L.K.Wang에 의해 제안된 십진 부동소수점 유닛을 기반으로 하여 데이터의 병렬 처리를 통해 동일한 크기의 지수를 갖는 두 오퍼랜드의 가수 영역의 고속 연산을 지원하도록 재설계 하였다. 제안된 십진 부동소수점 연산 장치는 Xilinx ISE를 이용하여 xc2vp30-7ff896 타겟 디바이스로 합성하였으며 (주)시스템센트로이드의 Flowrian을 통해 시뮬레이션 검증하였다. 제안된 방식은 L.K.Wang에 의해 제안된 설계 방식 및 참고문헌 [6]의 설계 방식과 비교하여 동일한 입력 데이터를 이용하여 시뮬레이션 검증한 결과, L.K.Wang 방식보다 약 8.4%, 참고문헌 [6]의 방식보다 약 3% 정도의 처리 속도가 향상되었다.

K차 뉴톤-랍손 부동소수점수 N차 제곱근 (Kth order Newton-Raphson's Floating Point Number Nth Root)

  • 조경연
    • 대한임베디드공학회논문지
    • /
    • 제13권1호
    • /
    • pp.45-51
    • /
    • 2018
  • In this paper, a tentative Kth order Newton-Raphson's floating point number Nth root algorithm for K order convergence rate in one iteration is proposed by applying Taylor series to the Newton-Raphson root algorithm. Using the proposed algorithm, $F^{-1/N}$ and $F^{-(N-1)/N}$ can be computed from iterative multiplications without division. It also predicts the error of the algorithm iteration and iterates only until the predicted error becomes smaller than the specified value. Since the proposed algorithm only performs the multiplications until the error gets smaller than a given value, it can be used to improve the performance of a floating point number Nth root unit.

부동소수점수 N차 제곱근 K차 골드스미스 알고리즘 (Floating Point Number N'th Root K'th Order Goldschmidt Algorithm)

  • 조경연
    • 한국멀티미디어학회논문지
    • /
    • 제22권9호
    • /
    • pp.1029-1035
    • /
    • 2019
  • In this paper, a tentative Kth order Goldschmidt floating point number Nth root algorithm for K order convergence rate in one iteration is proposed by applying Taylor series to the Goldschmidt square root algorithm. Using the proposed algorithm, Nth root and Nth inverse root can be computed from iterative multiplications without division. It also predicts the error of the algorithm iteration. It iterates until the predicted error becomes smaller than the specified value. Since the proposed algorithm only performs the multiplications until the error gets smaller than a given value, it can be used to improve the performance of a floating point number Nth root unit.

모바일 3D 그래픽 프로세서의 지오메트리 연산을 위한 부동 소수점 연산기 구현 (A design of Floating Point Arithmetic Unit for Geometry Operation of Mobile 3D Graphic Processor)

  • 이지명;이찬호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.711-714
    • /
    • 2005
  • We propose floating point arithmetic units for geometry operation of mobile 3D graphic processor. The proposed arithmetic units conform to the single precision format of IEEE standard 754-1985 that is a standard of floating point arithmetic. The rounding algorithm applies the nearest toward zero form. The proposed adder/subtraction unit and multiplier have one clock cycle latency, and the inversion unit has three clock cycle latency. We estimate the required numbers of arithmetic operation for Viewing transformation. The first stage of geometry operation is composed with translation, rotation and scaling operation. The translation operation requires three addition and the rotation operation needs three addition and six multiplication. The scaling operation requires three multiplication. The viewing transformation is performed in 15 clock cycles. If the adder and the multiplier have their own in/out ports, the viewing transformation can be done in 9 clock cycles. The error margin of proposed arithmetic units is smaller than $10^{-5}$ that is the request in the OpenGL standard. The proposed arithmetic units carry out operations in 100MHz clock frequency.

  • PDF

IEEE754 단정도 배정도를 지원하는 부동 소수점 변환기 설계 (Floating Point Converter Design Supporting Double/Single Precision of IEEE754)

  • 박상수;김현필;이용석
    • 대한전자공학회논문지SD
    • /
    • 제48권10호
    • /
    • pp.72-81
    • /
    • 2011
  • 본 논문에서는 IEEE754 표준의 단정도 및 배정도를 지원하는 새로운 부동소수점 변환기를 제안하고 설계하였다. 제안된 변환기는 부호 있는 정수(32비트/64비트)와 부동소수점(단정도/배정도) 간 변환, 부호 없는 정수(32비트/64비트)를 부동소수점(단정도/배정도)으로의 변환, 부동소수점 단정도와 배정도 간 변환뿐만 아니라 부호 있는 고정소수점(32비트 64비트)과 부동소수점(단정도 배정도) 간 변환을 지원한다. 모든 입력 형태를 하나의 형태로 만드는 새로운 내부 형태를 정의함으로써 출력 형태의 표현 범위에 따른 오버플로우 검사를 쉽게 하도록 하였다. 내부 형태는 IEEE754 2008 표준에서 정의된 부동소수점 배정도의 확장된 형태(extended format)와 유사하다. 이 표준에서는 부동소수점 배정도의 확장된 형태(extended format)의 최소 지수부 비트폭은 15비트라고 명시하지만 제안된 컨버터를 구현하는데 11비트만으로도 충분하다. 또한 덧셈기가 대신 +1 증가기를 사용하면서 라운딩 연산과 음수의 정확한 표현이 가능하도록 변환기의 라운딩 스테이지를 최적화하였다. 단일 클럭 사이클 데이터패스와 5단 파이프라인 데이터패스를 설계하였다. 변환기의 두 데이터패스에 대한 HDL 모델을 기술한 후에 Synopsys design compiler를 사용하여 TSMC 180nm 공정 라이브러리로 합성하였다. 합성 결과의 셀 면적은 12,886 게이트(2입력 NAND 게이트 기준)이고 최대 동작 주파수는 411MHz이다.

32Bit Floating-Point Processor의 설계에 관한 연구 (A Study on the Design of the 32-Bit Floating-Pint Processor)

  • 이건;김덕진
    • 대한전자공학회논문지
    • /
    • 제20권4호
    • /
    • pp.24-29
    • /
    • 1983
  • 본 논문에서는 32bit 부동 소수점 처리장치를 IEEE 표준에 따른 데이터 양식에 맞도록 설계하여 TTLIC로서 구성하였고 이 시스템과 Z-80 마이크로프로세서와 부동 소수점 4칙 연산에 관한 실행시간을 비교해 본 결과 10배 이상의 시간단축을 보았다. 제어회로 설계에는 AHPL(A Hardware Programming Language)을 사용하였고 TTL IC로 구성하였으나 연산장치와 제어장치를 1칩으로 만들 수 있는 기초를 이룩하였다. 이것을 조금 더 복원하면 32bit 컴퓨터의 연산장치로써 사용될 수 있음을 확신하였다.

  • PDF

FPGA를 위한 32비트 부동소수점 곱셈기 설계 (Design of 32-bit Floating Point Multiplier for FPGA)

  • ;김대익
    • 한국전자통신학회논문지
    • /
    • 제19권2호
    • /
    • pp.409-416
    • /
    • 2024
  • 빠른 고속 데이터 신호 처리 및 논리 연산을 위한 부동 소수점 연산 요구 사항이 확대됨에 따라 부동 소수점 연산 장치의 속도는 시스템 작동에 영향을 미치는 핵심 요소이다. 본 논문에서는 다양한 부동소수점 곱셈기 방식의 성능 특성을 연구하고, 캐리와 합의 형태로 부분 곱을 압축한 다음, 최종 결과를 얻기 위해 캐리 미리 보기 가산기를 사용한다. Intel Quartus II CAD 툴을 이용하여 Verilog HDL로 부동소수점 곱셈기를 기술하고 성능 평가를 하였다. 설계된 부동소수점 곱셈기는 면적, 속도 및 전력 소비에 대해 분석 및 비교하였다. 월러스 트리를 사용한 수정 부스 인코딩 방식의 FMAX는 33.96Mhz로 부스 인코딩보다 2.04배, 수정 부스 인코딩보다 1.62배, 월러스 트리를 사용한 부스 인코딩보다 1.04배 빠르다. 또한, 수정 부스 인코딩에 비해 월러스 트리를 이용한 수정 부스 인코딩 방식의 면적은 24.88% 감소하고, 전력소모도 2.5% 감소하였다.

A design of a floating point unit with 3 stages for a 3D graphics shader engine

  • Lee, Kwang-Yeob
    • 전기전자학회논문지
    • /
    • 제11권4호
    • /
    • pp.358-363
    • /
    • 2007
  • This paper presents a floating point unit(FPU) with 3 stages for a 3D graphics shader engine. It targeted to accelerate 3D graphics in portable device environments. In order to design a balanced architecture for a shader engine, we analyzed shader assembly instructions and estimated the performance of FPU with the method we propose. The proposed unit handles 4-dimensional data through separated two paths that are lead to general operation module and special function module. The proposed FPU is compiled as a form of the cascade FPU with 3 stages to efficiently handle a matrix operation with relatively low hardware overhead. Except some complex instructions that are executed using macro instructions, all instructions complete an operation in a single instruction cycle at 100MHz frequency. A special function module performs all operations in a single clock cycle using the Newton Raphson method with the look-up table.

  • PDF