• 제목/요약/키워드: Floating-point Arithmetic

검색결과 66건 처리시간 0.023초

FPGA를 이용한 HDTV인코더를 위한 DCT회로의 구현 (DCT Implementation on FPGA for HDTV Encoder)

  • 김우철;정규철;고광철;정재명
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.235-238
    • /
    • 2002
  • This paper presents a way of a novel FPGA implementation of DCT. It shows how to limit the required bits on each DCT processing step, instead of implementing high-cost 64-bit floating-point arithmetic of IEEE Std 754-1985 on FPGA. ID-DCT implementation has been done which operates at 30 frame per second with 1920${\times}$1080 resolution.

  • PDF

Meshfree/GFEM in hardware-efficiency prospective

  • Tian, Rong
    • Interaction and multiscale mechanics
    • /
    • 제6권2호
    • /
    • pp.197-210
    • /
    • 2013
  • A fundamental trend of processor architecture evolving towards exaflops is fast increasing floating point performance (so-called "free" flops) accompanied by much slowly increasing memory and network bandwidth. In order to fully enjoy the "free" flops, a numerical algorithm of PDEs should request more flops per byte or increase arithmetic intensity. A meshfree/GFEM approximation can be the class of the algorithm. It is shown in a GFEM without extra dof that the kind of approximation takes advantages of the high performance of manycore GPUs by a high accuracy of approximation; the "expensive" method is found to be reversely hardware-efficient on the emerging architecture of manycore.

휴대형 3D 그래픽 가속기를 위한 저전력/저면적 산술 연산기 회로 설계 (A Design of Low-power/Small-area Arithmetic Units for Mobile 3D Graphic Accelerator)

  • 김채현;신경욱
    • 한국정보통신학회논문지
    • /
    • 제10권5호
    • /
    • pp.857-864
    • /
    • 2006
  • 본 논문은 휴대형 3D그래픽 가속기를 위한 벡터 처리기, 누승기, 제산기 및 제곱근기 회로 설계에 관하여 기술한다. 설계된 연산기는 부동소수점 대신 OpenGL/ES에서 권장하는 16.16 고정 소수점 방식을 사용하여 모바일 환경에서 저전력/저면적으로 동작하도록 하였다. 벡터 처리기는 RB 수체계 기반으로 설계되었으며 일반적인 4개의 승산기와 3개의 가산기로 구현한 방식에 비해 30%의 동작성능이 향상됐고, 10%의 면적 감소를 이루었다. 누승기, 제산기 및 제곱근기는 로그 수체계 기반으로 설계되었으며 이진수-로그 변환 시 룩업 테이블을 사용하지 않고 6-영역의 근사화 방법을 이용한 조합회로로 구현하였다. 누승기, 제산기 및 제곱근기는 일반적인 룩업 테이블로 구현한 방식과 비교하여 면적이 대폭 감소되었다.

저가형 마이크로프로세서를 위한 연산처리 확장 모션제어 알고리즘 (Motion Control Algorithm Expanding Arithmetic Operation for Low-Cost Microprocessor)

  • 문상찬;김재준;남규민;김병수;이순걸
    • 제어로봇시스템학회논문지
    • /
    • 제18권12호
    • /
    • pp.1079-1085
    • /
    • 2012
  • For precise motion control, S-curve velocity profile is generally used but it has disadvantage of relatively long calculation time for floating-point arithmetics. In this paper, we present a new generating method for velocity profile to reduce delay time of profile generation so that it overcomes such disadvantage and enhances the efficiency of precise motion control. In this approach, the velocity profile is designed based on the gamma correction expression that is generally used in image processing to obtain a smoother movement without any critical jerk. The proposed velocity profile is designed to support both T-curve and S-curve velocity profile. It can generate precise profile by adding an offset to the velocity profile with decimals under floating point that are not counted during gamma correction arithmetic operation. As a result, the operation time is saved and the efficiency is improved. The proposed method is compared with the existing method that generates velocity profile using ring buffer on a 8-bit low-cost MCU. The result shows that the proposed method has no delay in generating driving profile with good accuracy of each cycle velocity. The significance of the proposed method lies in reduction of the operation time without degrading the motion accuracy. Generated driving signal also shows to verify effectiveness of the proposed method.

SIMT 구조 기반 멀티코어 GPGPU의 통합 ALU 설계 (An implementation of a unified ALU in multi-core GPGPU based on SIMT architecture)

  • 경규택;곽재창;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.540-543
    • /
    • 2013
  • 본 논문은 SIMT 구조 기반의 멀티코어 GPGPU의 통합 ALU를 설계하였다. 조건부 분기 명령어, 데이터 이동 명령어, 정수형 산술 연산 명령어, 부동소수점 산술 연산 명령어를 처리할 수 있으며 멀티코어 GPGPU의 다양한 형태의 병렬처리 기능을 지원하기 위하여 다 수의 ALU가 탑재된다. 각 명령어 연산의 처리방식의 공통성을 회로 수준에서 통합하여 최소의 크기로 ALU를 설계하는 것이 본 논문의 주안점이다. 모든 명령어는 테스트 프로그램을 작성하여 실험하였고 CPU로 연산한 결과와 비교하여 본 논문의 ALU가 정상적으로 동작함을 검증하였다. 본 논문에서 설계한 통합 ALU의 크기는 약 2만 게이트이며 최대 동작주파수는 430MHz이다.

  • PDF

Redundant Binary 수치계를 이용한 radix-2 SRT부동 소수점 제산기 유닛 설계 (A Design of Radix-2 SRT Floating-Point Divider Unit using ]Redundant Binary Number System)

  • 이종남;신경욱
    • 한국정보통신학회논문지
    • /
    • 제5권3호
    • /
    • pp.517-524
    • /
    • 2001
  • IEEE-754 부동소수점 표준을 지원하는 radix-2 SRT 제산기 유닛을 redundant binary (RB) 수치계를 이용하여 설계하였다. RB 수치계를 이용함으로써 기존의 2의 보수 수치계를 이용하는 경우에 비해 부분 몫 결정 회로의 동작속도를 약 20-% 향상시킴과 아울러 회로 단순화를 이루었다. 또한, 새로운 RB 가산기 회로를 제안함으로써 가수 제산기를 효율적으로 구현하여 기존의 방식에 비해 면적을 약 20-%의 감소시켰다. 설계된 부동소수점 제산기는 배정도 형식과 5가지의 예외처리 및 4가지의 반올림 모드를 지원하며, Verilog HDL로 설계되어 Verilog-XL로 검증하였다.

  • PDF

모바일 그래픽스 응용을 위한 부동소수점 승산기의 설계 (Design of Floating-Point Multiplier for Mobile Graphics Application)

  • 최병윤
    • 한국정보통신학회논문지
    • /
    • 제12권3호
    • /
    • pp.547-554
    • /
    • 2008
  • 본 논문에서는 2단 파이프라인 구조의 부동 소수점 승산기 회로를 설계하였다. 부동 소수점 승산기는 3차원 그래픽 API인 OpenGL과 Direct3D를 위한 단일 정밀도 곱셈 연산을 지원하며, 포화 연산, 면적 효율적인 점착(sticky) 비트 발생기 및 플래그 프리픽스 가산기를 결합하여, 면적 효율적이며 적은 파이프라인 지연 구조를 갖는다. 설계된 회로는 $0.13{\mu}m$ CMOS 표준 셀을 사용하여 합성 한 결과 약 4-ns의 지연시 간을 갖고 있으며, 약 7,500개로 구성된다. 설계된 부동 소수점 승산기의 최대 연산 성능은 약 250 MFLOPS이므로, 3차원 모바일 그래픽 분야에 효율적으로 적용 가능하다.

MPEG-2 AAC 복호기를 위한 부동소수점유닛 설계에 관한 연구 (A Study On the Design of a Floating Point Unit for MPEG-2 AAC Decoder)

  • 구대성;김필중;김종빈
    • 대한전자공학회논문지TE
    • /
    • 제39권4호
    • /
    • pp.355-355
    • /
    • 2002
  • 본 논문에서는 디지털 오디오의 하드웨어 설계 시 가장 중요하고 고집적도를 요구하는 부동소수점 유닛을 설계하였다. 대부분의 모든 오디오 시스템이 다채널을 지원하고 고음질을 요구한다. 하드웨어로 구현한 부동소수점 연산기는 MPEG-2 AAC 복호기를 DSP로 구현 시 실시간 디코딩이 가능하도록 설계하였다. 그 이유는 오디오 분야에서 MPEG-2 AAC는 MPEG-4 이후 오디오와 상호 호환성을 갖기 때문이다. MPEG-2 AAC 디코더에서 가장 많은 연산부분을 차지하는 부동소수점유닛의 속도향상을 위하여 하드웨어로 설계하였다. FPU는 승산기와 가산기로 구성되어있다. 승산기는 Radix-4 Booth알고리즘을 사용하였고 가산기는 속도향상을 위하여 1의 보수 방식을 채택하였다. 부동소수점 형식은 지수부에 8bit 가수부에 24bit를 사용한다. IEEE 단정도 포맷과 호환되도록 설계하였으며, 연산기의 속도를 향상시키기 위하여 파이프라인 구조를 채택하였다. 모든 세부블록들은 ISO/IEC 13818-7 표준에 의거하여 구현하였다. 알고리즘 테스트는 C언어를 사용하였고, 설계는 VHDL(VHSIC Hardware Description Language)을 사용하였다. 최대동작속도는 23.2MHz이고, 안정상태의 동작속도는 약 19MHz이다.

SoC 플랫폼 기반 모바일용 3차원 그래픽 Hardwired T&L Accelerator 구현 (Implementation of a 3D Graphics Hardwired T&L Accelerator based on a SoC Platform for a Mobile System)

  • 이광엽;구용서
    • 대한전자공학회논문지SD
    • /
    • 제44권9호
    • /
    • pp.59-70
    • /
    • 2007
  • 본 논문에서는 휴대 정보기기 시스템에서 더욱 향상된 실시간 3D 그래픽 가속 능력을 갖는 SoC(System on a Chip) 구현을 위해 효과적인 T&L(Transform & Lighting) Processor 구조를 연구하였다. T&L 과정에 필요한 IP들을 설계하였으며, 이를 바탕으로 SoC Platform 기반으로 검증하였다. 설계된 T&L Processor는 24 bits 부동소수점 형식과 16 bits 고정소수점 형식을 적절하게 혼용하고 계산식의 병렬성을 최대한 활용하여 Transform 과정 연산과 Lighting 과정 연산의 지연시간을 균일하게 배분하여 Transform 과정만 처리할 때와 Lighting과 혼용으로 처리할 때 연산 속도의 차이가 없이 동작이 가능하다. 설계된 T&L Processor는 SoC 플랫폼을 이용하여 성능 측정 실험 및 검증을 하였고, Xilinx-Virtex4 FPGA에서 80 MHz의 동작 주파수를 확인하였고 초당 20M개의 정점(Vertex) 처리 성능을 확인하였다.

ARM 및 FPGA를 이용한 고속 레이저 삼각측량 시스템 (Fast Laser Triangular Measurement System using ARM and FPGA)

  • 이상문
    • 대한임베디드공학회논문지
    • /
    • 제8권1호
    • /
    • pp.25-29
    • /
    • 2013
  • Recently ARM processor's processing power has been increasing rapidly as it has been applied to consumer electronics products. Because of its computing power and low power consumption, it is used to various embedded systems.( including vision processing systems.) Embedded linux that provides well-made platform and GUI is also a powerful tool for ARM based embedded systems. So short period to develop is one of major advantages to the ARM based embedded system. However, for real-time date processing applications such as an image processing system, ARM needs additional equipments such as FPGA that is suitable to parallel processing applications. In this paper, we developed an embedded system using ARM processor and FPGA. FPGA takes time consuming image preprocessing and numerical algorithms needs floating point arithmetic and user interface are implemented using the ARM processor. Overall processing speed of the system is 60 frames/sec of VGA images.