• 제목/요약/키워드: floating point multiplier

검색결과 24건 처리시간 0.025초

모바일 그래픽 가속기용 부동소수점 절사 승산기 설계 (Design of a Truncated Floating-Point Multiplier for Graphic Accelerator of Mobile Devices)

  • 조용성;이용환
    • 한국정보통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.563-569
    • /
    • 2007
  • 모바일 통신 서비스의 발전과 반도체 기술의 발달로 모바일 기기에 멀티미디어 서비스와 2D/3D 게임과 같이 고수준의 그래픽 처리를 필요로 하는 콘텐츠가 가능하게 되었다. 모바일 기기는 특성상 더욱 작은 칩 면적과 저전력 소비의 조건이 만족되어야 하며, 본 논문에서는 이러한 모바일 기기에 적용 가능한 2D/3D 벡터 그래픽 처리용 부동소수점 절사형 승산기를 설계한다. 본 논문의 승산기는 기본적으로 radix-4 Booth 인코딩을 적용하고, 면적과 전력소모를 줄이기 위하여 절사방식을 사용한다. 구현된 절사형 승산기는 평균 퍼센트 오차가 0.00003% 정도로 모바일 기기에 충분히 적용가능하다. 승산기는 0.35um CMOS 셀 라이브러리를 이용하여 논리 합성되었고, 그 결과 절사되지 않은 기존의 radix-4 Booth 승산기에 비해 게이트 수가 약 33.8%정도 감소하였다.

모바일 3D 그래픽 프로세서의 지오메트리 연산을 위한 부동 소수점 연산기 구현 (A design of Floating Point Arithmetic Unit for Geometry Operation of Mobile 3D Graphic Processor)

  • 이지명;이찬호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.711-714
    • /
    • 2005
  • We propose floating point arithmetic units for geometry operation of mobile 3D graphic processor. The proposed arithmetic units conform to the single precision format of IEEE standard 754-1985 that is a standard of floating point arithmetic. The rounding algorithm applies the nearest toward zero form. The proposed adder/subtraction unit and multiplier have one clock cycle latency, and the inversion unit has three clock cycle latency. We estimate the required numbers of arithmetic operation for Viewing transformation. The first stage of geometry operation is composed with translation, rotation and scaling operation. The translation operation requires three addition and the rotation operation needs three addition and six multiplication. The scaling operation requires three multiplication. The viewing transformation is performed in 15 clock cycles. If the adder and the multiplier have their own in/out ports, the viewing transformation can be done in 9 clock cycles. The error margin of proposed arithmetic units is smaller than $10^{-5}$ that is the request in the OpenGL standard. The proposed arithmetic units carry out operations in 100MHz clock frequency.

  • PDF

FPGA를 이용한 압전소자 작동기용 단일칩 제어기 설계 (Single-Chip Controller Design for Piezoelectric Actuators using FPGA)

  • 윤민호;박정근;강태삼
    • 제어로봇시스템학회논문지
    • /
    • 제22권7호
    • /
    • pp.513-518
    • /
    • 2016
  • The piezoelectric actuating device is known for its large power density and simple structure. It can generate a larger force than a conventional actuator and has also wide bandwidth with fast response in a compact size. To control the piezoelectric actuator, we need an analog signal conditioning circuit as well as digital microcontrollers. Conventional microcontrollers are not equipped with an analog part and need digital-to-analog converters, which makes the system bulky compared with the small size of piezoelectric devices. To overcome these weaknesses, we are developing a single-chip controller that can handle analog and digital signals simultaneously using mixed-signal FPGA technology. This gives more flexibility than traditional fixed-function microcontrollers, and the control speed can be increased greatly due to the parallel processing characteristics of the FPGA. In this paper, we developed a floating-point multiplier, PWM generator, 80-kHz power control loop, and 1-kHz position feedback control loop using a single mixed-signal FPGA. It takes only 50 ns for single floating-point multiplication. The PWM generator gives two outputs to control the charging and discharging of the high-voltage output capacitor. Through experimentation and simulation, it is demonstrated that the designed control loops work properly in a real environment.

3차원 그래픽용 부동 소수점 연산기 IP 설계 및 MPW 구현 (Design and MPW Implementation of 3D Graphics Floating Point Ips)

  • 이정우;김기철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.987-988
    • /
    • 2006
  • This paper presents a design and MPW implementation of 3D Graphics Floating Point IPs. Designed IPs include adder, subtractor, multiplier, divider, and reciprocal unit. The IPs have pipelined structures. The IPs meet the accuracy required in OpenGL ES. The operation frequency of the IPs is 100MHz. The IPs can be efficiently used in 3D graphics accelerators.

  • PDF

A New Multiplication Architecture for DSP Applications

  • Son, Nguyen-Minh;Kim, Jong-Soo;Choi, Jae-Ha
    • 융합신호처리학회논문지
    • /
    • 제12권2호
    • /
    • pp.139-144
    • /
    • 2011
  • The modern digital logic technology does not yet satisfy the speed requirements of real-time DSP circuits due to synchronized operation of multiplication and accumulation. This operation degrades DSP performance. Therefore, the double-base number system (DBNS) has emerged in DSP system as an alternative methodology because of fast multiplication and hardware simplicity. In this paper, authors propose a novel multiplication architecture. One operand is an output of a flash analog-to-digital converter (ADC) in DBNS format, while the other operand is a coefficient in the IEEE standard floating-point number format. The DBNS digital output from ADC is produced through a new double base number encoder (DBNE). The multiplied output is in the format of the IEEE standard floating-point number (FPNS). The proposed circuits process multiplication and conversion together. Compared to a typical multiplier that uses the FPNS, the proposed multiplier also consumes 45% less gates, and 44% faster than the FPNS multiplier on Spartan-3 FPGA board. The design is verified with FIR filter applications.

A low-cost compensated approximate multiplier for Bfloat16 data processing on convolutional neural network inference

  • Kim, HyunJin
    • ETRI Journal
    • /
    • 제43권4호
    • /
    • pp.684-693
    • /
    • 2021
  • This paper presents a low-cost two-stage approximate multiplier for bfloat16 (brain floating-point) data processing. For cost-efficient approximate multiplication, the first stage implements Mitchell's algorithm that performs the approximate multiplication using only two adders. The second stage adopts the exact multiplication to compensate for the error from the first stage by multiplying error terms and adding its truncated result to the final output. In our design, the low-cost multiplications in both stages can reduce hardware costs significantly and provide low relative errors by compensating for the error from the first stage. We apply our approximate multiplier to the convolutional neural network (CNN) inferences, which shows small accuracy drops with well-known pre-trained models for the ImageNet database. Therefore, our design allows low-cost CNN inference systems with high test accuracy.

곱셈기를 이용한 정확한 부동소수점 제곱근 계산기 (An exact floating point square root calculator using multiplier)

  • 조경연
    • 한국정보통신학회논문지
    • /
    • 제13권8호
    • /
    • pp.1593-1600
    • /
    • 2009
  • 부동소수점 제곱근 연산은 곱셈을 반복하여 근사값을 계산하는 뉴턴-랍손 알고리즘 및 골드스미트 알고리즘과 뺄셈을 반복하여 정확한 간을 계산하는 SRT 알고리즘이 있다. 본 논문에서는 곱셈기를 사용하여 정확한 값을 계산하는 제곱근 알고리즘을 제안한다. 본 논문에서는 뉴턴-랍손 알고리즘을 이용하여 근사 역제곱근을 구하고, 이의 오차를 줄이면서 제곱근을 구하는 알고리즘과 계산된 제곱근을 보정하는 알고리즘을 제안한다. 제안한 알고리즘은 단정도 실수에서는 전수 조사를 통해서, 배정도 실수에서는 10억 개의 무작위 수를 계산하여 모두 정확한 값을 얻었다. 본 논문에서 제안한 알고리즘은 곱셈기만을 사용하므로 별도의 하드웨어가 필요하지 않다. 따라서 실장제어용기기, 휴대용기기 등 정확한 제곱근 연산을 요구하는 분야에서 사용될 수 있다.

새로운 제산/제곱근기를 내장한 고성능 부동 소수점 유닛의 설계 (Design of a high-performance floating-point unit adopting a new divide/square root implementation)

  • 이태영;이성연;홍인표;이용석
    • 대한전자공학회논문지SD
    • /
    • 제37권12호
    • /
    • pp.79-90
    • /
    • 2000
  • 본 논문에서는 고성능 수퍼스칼라 마이크로프로세서에 적합하고, IEEE 754 표준을 준수하는 고성능 부동 소수점 유닛의 구조를 설계한다. 부동 소수점 AU에서는 비정규화 수 처리를 모두 하드웨어적으로 지원하면서 추가적인 지연 시간이 생기지 않도록 점진적 언더플로우 예측 기법을 제안 구현한다. 부동 소수점 제산/제곱근기는 기존의 고정적인 길이의 몫을 구하는 방식과 달리 매 사이클마다 가변적인 길이의 몫을 구하는 구조를 채택하여 성능과 설계 복잡도 면에서 SRT 알고리즘에 의한 구현 보다 우수하도록 설계한다. 또한, 수퍼스칼라 마이크로프로세서에 이식이 용이하도록 익셉션 예측 기법을 세분화하여 적용하며, 제산 연산에서의 익셉션 예측에 필요한 스톨사이클을 제거하도록 한다. 설계된 부동 소수점 AU와 제산/제곱근기는 부동 소수점 유닛의 구성요소인 명령어 디코더, 레지스터 파일, 메모리 모델, 승산기 등과 통합되어 기능과 성능을 검증하였다.

  • PDF

모바일 그래픽스 응용을 위한 부동소수점 승산기의 설계 (Design of Floating-Point Multiplier for Mobile Graphics Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.547-554
    • /
    • 2008
  • 본 논문에서는 2단 파이프라인 구조의 부동 소수점 승산기 회로를 설계하였다. 부동 소수점 승산기는 3차원 그래픽 API인 OpenGL과 Direct3D를 위한 단일 정밀도 곱셈 연산을 지원하며, 포화 연산, 면적 효율적인 점착(sticky) 비트 발생기 및 플래그 프리픽스 가산기를 결합하여, 면적 효율적이며 적은 파이프라인 지연 구조를 갖는다. 설계된 회로는 $0.13{\mu}m$ CMOS 표준 셀을 사용하여 합성 한 결과 약 4-ns의 지연시 간을 갖고 있으며, 약 7,500개로 구성된다. 설계된 부동 소수점 승산기의 최대 연산 성능은 약 250 MFLOPS이므로, 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.

MPEG-2 AAC 복호기를 위한 부동소수점유닛 설계에 관한 연구 (A Study On the Design of a Floating Point Unit for MPEG-2 AAC Decoder)

  • 구대성;김필중;김종빈
    • 대한전자공학회논문지TE
    • /
    • 제39권4호
    • /
    • pp.355-355
    • /
    • 2002
  • 본 논문에서는 디지털 오디오의 하드웨어 설계 시 가장 중요하고 고집적도를 요구하는 부동소수점 유닛을 설계하였다. 대부분의 모든 오디오 시스템이 다채널을 지원하고 고음질을 요구한다. 하드웨어로 구현한 부동소수점 연산기는 MPEG-2 AAC 복호기를 DSP로 구현 시 실시간 디코딩이 가능하도록 설계하였다. 그 이유는 오디오 분야에서 MPEG-2 AAC는 MPEG-4 이후 오디오와 상호 호환성을 갖기 때문이다. MPEG-2 AAC 디코더에서 가장 많은 연산부분을 차지하는 부동소수점유닛의 속도향상을 위하여 하드웨어로 설계하였다. FPU는 승산기와 가산기로 구성되어있다. 승산기는 Radix-4 Booth알고리즘을 사용하였고 가산기는 속도향상을 위하여 1의 보수 방식을 채택하였다. 부동소수점 형식은 지수부에 8bit 가수부에 24bit를 사용한다. IEEE 단정도 포맷과 호환되도록 설계하였으며, 연산기의 속도를 향상시키기 위하여 파이프라인 구조를 채택하였다. 모든 세부블록들은 ISO/IEC 13818-7 표준에 의거하여 구현하였다. 알고리즘 테스트는 C언어를 사용하였고, 설계는 VHDL(VHSIC Hardware Description Language)을 사용하였다. 최대동작속도는 23.2MHz이고, 안정상태의 동작속도는 약 19MHz이다.