• Title/Summary/Keyword: 부동소수점 연산

Search Result 132, Processing Time 0.028 seconds

Hardware Implementation for MLP Based Text Detection (MLP 기반의 문자 추출을 위한 하드웨어 구현)

  • Kyoung, Dong-Wuk;Jung, Kee-Chul
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.766-771
    • /
    • 2006
  • 현재 많은 신경망의 하드웨어 구현은 부동 소수점 연산에 비해서 적은 면적과 빠른 수행시간을 가지는 고정소수점 연산을 많이 사용하지만, 소프트웨어에서는 일반적으로 높은 정확도를 가지는 부동소수점 연산을 사용한다. 신경망의 하드웨어 구현에서 많이 사용하는 고정소수점 연산은 부동소수점 연산에 비해서 빠른 처리속도와 적은 면적으로써 쉽게 하드웨어 구현에 용이하지만, 부동소수점 연산에 비해서 낮은 정확도와 기존의 부동소수점 연산을 사용하는 소프트웨어 신경망을 쉽게 적용할 수 없는 단점을 가진다. 본 논문에서는 부동소수점 연산을 사용하여 문자 추출 MLP의 데이터 변환 없이 적용할 수 있는 전체 파이프라이닝 설계 구조를 제안한다. 제안된 설계방법은 신경망의 전체 구조를 입력층과 은닉층을 링크 병렬화 방법과 은닉층과 출력층을 뉴런 병렬화 방법을 개선하여 쉽게 파이프라이닝 구조로 설계함으로써 신경망 처리는 은닉층 뉴런수와 동일한 주기로 처리되며, 기존의 문자추출 소프트웨어 신경망을 제안된 하드웨어 설계방법으로 구현하였을 때 11배의 빠른 성능을 나타낸다.

  • PDF

A Study on High Performances Floating Point Unit (고성능 부동 소수점 연산기에 대한 연구)

  • Park, Woo-Chan;Han, Tack-Don
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.11
    • /
    • pp.2861-2873
    • /
    • 1997
  • An FPU(Floating Point unit) is the principle component in high performance computer and is placed on a chip together with main processing unit recently. As a Processing speed of the FPU is accelerated, the rounding stage, which occupies one of the floating point Processing steps for floating point operations, has a considerable effect on overall floating point operations. In this paper, by studying and analyzing the processing flows of the conventional floating point adder/subtractor, multipler and divider, which are main component of the FPU, efficient rounding mechanisms are presented. Proposed mechanisms do not require any additional execution time and any high speed adder for rounding operation. Thus, performance improvement and cost-effective design can be achieved by this approach.

  • PDF

Real-Time DSP Implementation of MPEG-1 Layer III Audio Decoder (MPEG-1 Layer III 오디오 디코더의 실시간 DSP 구현)

  • 김시호;권홍석;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.06d
    • /
    • pp.174-177
    • /
    • 2000
  • 본 논문에서는 높은 압축률과 고음질을 제공하는 MPEG-1 Layer Ⅲ 오디오 디코더를 고정소수점 DSP인 TMS320C6201을 이용하여 실시간으로 동작하도록 구현하였다. ISO/IEC에서 제공하는 부동소수점 C 프로그램을 음질의 손실 없이 고정소수점 연산으로 변환하었고 실시간 동작을 위하여 최적화 작업을 수행하였다. 연산의 정확성을 높이기 위해서 Descaling 모듈에 중점을 두어 부동소수점 연산을 고정소수점 연산으로 변환하였고 IMDCT 모듈과 Synthesis Polyphase Filter Bank 모듈에 대해 고속 알고리즘을 적용하여 연산량과 프로그램 크기를 크게 줄일 수 있었다. 구현된 디코더는 TMS320C6201 DSP가 수행할 수 있는 최대 연산량의 26%만으로 실시간 동작이 가능하였고 부동소수점 연산 결과와 고정소수점 연산 결과를 비교하여 60 dB 이상의 높은 SNR을 가짐을 확인하였다. 또한 사운드 입출력과 호스트 통신을 통하여 EVM 보드에서 실시간으로 동작함을 확인하였다.

  • PDF

Design and Simulation of ARM Processor with Floating Point Instructions (부동소수점 명령어를 지원하는 ARM 프로세서의 설계 및 모의실행)

  • Lee, Jongbok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.20 no.2
    • /
    • pp.187-193
    • /
    • 2020
  • Floating point arithmetic in microprocessor is the computation of addition, subtraction, multiplication, and division of floating point data to improve accuracy. In general, when designing a processor, floating point instructions are often excluded because of its complexity and only integer instructions are provided. However, in order to carry out the computations for not only engineering and technical operations but also artificial intelligence and neural networks that are in the spotlight today, floating point operations must be included. In this paper, we design a 32-bit ARMv4 family of processors with floating-point arithmetic instructions using VHDL and verify with ModelSim. As a result, ARM's floating point instructions are successfully executed.

Pipelined Design of a Neural Network Using FPGA (FPGA 를 이용한 신경망의 파이프라인 설계)

  • Kyoung, Dong-Wuk;Jung, Kee-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.481-484
    • /
    • 2005
  • 본 논문에서는 부동소수점 연산을 사용하면서도 빠른 처리속도를 가지는 신경망의 파이프라인 설계를 제안한다. 부동소수점 연산은 고정소수점 연산보다 느린 처리속도와 많은 면적으로 일반적인 하드웨어 구현에서 잘 사용되지 않지만, 제안된 구조에서는 고정소수점 연산보다 더 정확한 값을 계산할 수 있는 부동소수점 연산을 사용하며 부동소수점의 느린 처리 속도를 보완할 수 있도록 파이프라인 구조를 사용한다. 파이프라인 구조의 성능을 검증하기 위해 2 가지의 서로 다른 구조의 신경망을 사용한다. 실험 환경으로는 Xilinx XC2V8000 칩과 Xilinx ISE 6.2 의 합성 도구를 사용한다. 실험 결과는 파이프라인 구조일 때의 신경망은 각각 7 클럭, 8 클럭이 소요되고, 파이프라인 구조가 아닐 때 각각의 신경망은 77 클럭, 84 클럭으로써 파이프라인 구조일 때 약 10 배의 빠른 처리를 가진다.

  • PDF

Design of a Floating Point Unit for 3D Graphics Geometry Engine (3D 그래픽 Geometry Engine을 위한 부동소수점 연산기의 설계)

  • Kim, Myeong Hwm;Oh, Min Seok;Lee, Kwang Yeob;Kim, Won Jong;Cho, Han Jin
    • Journal of the Institute of Electronics Engineers of Korea SD
    • /
    • v.42 no.10 s.340
    • /
    • pp.55-64
    • /
    • 2005
  • In this paper, we designed floating point units to accelate real-time 3D Graphics for Geometry processing. Designed floating point units support IEEE-754 single precision format and we confirmed 100 MHz performance of floating point add/mul unit, 120 MHz performance of floating point NR inverse division unit, 200 MHz performance of floating point power unit, 120 MHz performance of floating point inverse square root unit at Xilinx-vertex2. Also, using floating point units, designed Geometry processor and confirmed 3D Graphics data processing.

Fixed-point Error Optimization of AC-3 Decoding Algorithm (AC-3 복호화 알고리듬의 고정 소수점 오차 최적화)

  • 이근섭
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.438-441
    • /
    • 1998
  • 최근 미국 내 표준안으로서 많이 사용되고 있는 AC-3 오디오 알고리듬은 그 복잡성으로 인하여 실시간 구현을 위해선 프로세서로 구현하는 것이 적합하다. AC-3 복호화 알고리듬은 많은 부분이 실수연산으로 이루어져 있으므로 소수점을 고려한 연산이 필요한데, 프로세서로 구현할 때는 적은 비용과 빠른 속도로 실수연산을 수행하기 위해서 부동소수점보다는 고정소수점 연산이 유리하다. 그러나 고정소수점 연산시 발생하는 유한 단어길이 효과로 인하여 양자화 오차가 발생하므로 복호화된 오디오 신호의 음질저하를 최소화하기 위해서는 최적화가 필요하다. 본 논문에서는 AC-3 복호화 알고리듬의 부분별 양자화 오차를 분석하고 그 결과 가장 많은 오차를 발생시키는 역 TDAC 변환의 오차를 최적화하였다. Fast TDAC 변환이 FFT로 이루어져 있으므로 고정 소수점 연산시 오차가 적은 FFT 구조를 제안하였다. 제안된 구조를 사용하여 AC-3 고정소수점 복호화기를 C 언어를 사용하여 구현하였으며, AC-3 부동소수점 복호화기와 최종 PCM을 비교하여 그 성능을 평가하였다.

  • PDF

High Precision Logarithm Converters for Binary Floating Point Approximation Operations (고속 부동소수점 근사연산용 로그변환 회로)

  • Moon, Sang-Ook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.809-811
    • /
    • 2010
  • In most floating-point operations related with 3D graphic applications for mobile devices, properly approximated data calculations with reduced complexity and low power are preferable to exactly rounded floating-point operations with unnecessary preciseness with cost. Among all the sophisticated floating-point arithmetic operations, multiplication and division are the most complicated and time-consuming, and they can be transformed into addition and subtraction repectively by adopting the logarithmic conversion. In this process, the most important factor for performance is how high we can make an approximation of the logarithm conversion. In this paper, we cover the trends in studying the logarithm conversion circuit designs. We also discuss the important factor in design issues and the applicable fields in detail.

  • PDF

A Study on Fixed-point Implementation of MPEG-1 Audio Decoder (MPEG-1 Audio Decoder의 고정소수점 구현에 관한 연구)

  • 김선태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.213-215
    • /
    • 2000
  • 디지털 신호처리 알고리즘의 구현은 속도나 메모리의 사용측면에서 고정 소수점 구현이 필요하다. 특히, 정수형 연산 프로세서에서는 소프트웨어에 의한 부동 소수점보다는 고정 소수점 구현이 훨씬 성능이 뛰어나다. 디지털 신호처리 알고리즘의 복잡함과 일반 프로세서의 처리능력의 부족으로 이제까지는 신호처리 알고리즘의 실시간 구현을 위하여 대개 전용 프로세서나 디지털 신호처리를 위한 전용 명령어가 하드웨어적으로 구현되어 있는 프로세서를 사용하여 왔다. 하지만 현재 범용 프로세서의 주파수 속도가 빨라짐에 따라 복잡한 디지털 신호처리 알고리즘을 실시간에 처리할 수 있게 되었다. 하지만 정수형 연산 프로세서에서의 부동 소수점 연산은 프로세서에서 실시간 처리에 많은 어려움을 주게 된다. 본 연구에서는 데이터 타입이 고정된 범용 정수형 연산 프로세서(ARM RISC 32bit CPU)를 가지고 부동 소수점 연산 알고리즘을 고정 소수점 연산형으로 바꾸어서 속도측면과 메모리 측면의 성능을 비교해 보았다.

  • PDF

A SoC design and implementation for JPEG 2000 Floating Point Filter (JPEG 2000 부동소수점 연산용 Filter의 SoC 설계 및 구현)

  • Chang Jong-Kwon
    • The KIPS Transactions:PartA
    • /
    • v.13A no.3 s.100
    • /
    • pp.185-190
    • /
    • 2006
  • JPEG 2000 is used as an alternative to solve the blocking artifact problem with the existing still image compression JPEG algorithm. However, it has shortcomings such as longer floating point computation time and more complexity in the procedure of enhancing the image compression rate and decompression rate. To compensate for these we implemented with hardware the JPEG 2000 algorithm's filter part which requires a lot of floating point computation. This DWT Filter[1] chip is designed on the basis of Daubechies 9/7 filter[6] and is composed of 3-stage pipeline system to optimize the performance and chip size. Our implemented Filter was 7 times faster than software based Filter in the floating point computation.