• 제목/요약/키워드: floating-point

검색결과 496건 처리시간 0.026초

LPC-CEPSTRUM 추출을 위한 전용 프로세서의 설계 (A design of the processor dedicated to LPC-CEPSTRUM)

  • 황인철;김성남;김영우;김태근;김수원
    • 전자공학회논문지C
    • /
    • 제34C권8호
    • /
    • pp.71-78
    • /
    • 1997
  • An LPC cepstrum processor for speech recognition is implemented on CMOS array process. The designed processor contains a 24-bit floating-point MAC unit to perform the correlation quickly, which occupies the majority of operations used in the algorithm, and has 22 register files to store temporary variables. For the purpose of fast operations, the floating-point MAC consists of a 3-stage pipeline and the new post-normalization shceme is proposed and applied to it. Experimental result shows that it takes approximately 266.mu.s to process 200 samples/frame at 15 MHz clock rate. This processor runs at the maximum rate of 16.6 MHz and the number of gates are 27,760.

  • PDF

A technique to avoid aspect-ratio locking in QUAD8 element for extremely large aspect-ratios

  • Rajendran, S.
    • Structural Engineering and Mechanics
    • /
    • 제37권6호
    • /
    • pp.633-648
    • /
    • 2011
  • This paper investigates the aspect-ratio locking of the isoparametric 8-node quadrilateral (QUAD8) element. An important finding is that, if finite element solution is carried out with in exact arithmetic (i.e., with no truncation and round off errors), the locking tendency of the element is completely avoided even for aspect-ratios as high as 100000. The current finite element codes mostly use floating point arithmetic. Thus, they can only avoid this locking for aspect-ratios up to 100 or 1000. A novel method is proposed in the paper to avoid aspect-ratio locking in floating point computations. In this method, the offending terms of the strain-displacement matrix (i.e., $\mathbf{B}$-matrix) are multiplied by suitable scaling factors to avoid ill-conditioning of stiffness matrix. Numerical examples are presented to demonstrate the efficacy of the method. The examples reveal that aspect-ratio locking is avoided even for aspect-ratios as high as 100000.

PLC 위치결정 UNIT에 의한 가감속 제어 및 원호보간에 관한 연구 (A study on acceleration / deceleration control and circular interpolation using PLC position control unit)

  • 김석우;김준식;유종선;안재봉
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1993년도 하계학술대회 논문집 A
    • /
    • pp.391-394
    • /
    • 1993
  • The acceleration/deceleration control method and interpolated operating are essential to the servo motor control system. In a few years ago, a floating point DSP chip was used for the purpose of processing a lot of calculated amount. But in this paper, we proposed new acceleration/deceleration control method and circular interpolation algorithm without another floating point DSP chip. The validity of proposed algorithms are verified through computer simulation and experimental result.

  • PDF

NPU 반도체를 위한 저정밀도 데이터 타입 개발 동향 (Trends of Low-Precision Processing for AI Processor)

  • 김혜지;한진호;권영수
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.53-62
    • /
    • 2022
  • With increasing size of transformer-based neural networks, a light-weight algorithm and efficient AI accelerator has been developed to train these huge networks in practical design time. In this article, we present a survey of state-of-the-art research on the low-precision computational algorithms especially for floating-point formats and their hardware accelerator. We describe the trends by focusing on the work of two leading research groups-IBM and Seoul National University-which have deep knowledge in both AI algorithm and hardware architecture. For the low-precision algorithm, we summarize two efficient floating-point formats (hybrid FP8 and radix-4 FP4) with accuracy-preserving algorithms for training on the main research stream. Moreover, we describe the AI processor architecture supporting the low-bit mixed precision computing unit including the integer engine.

60MHz Clock 주파수의 IEEE 표준 Floating Point ALU (IEEE Standard Floating Poing ALU with 60MHz Clock Frequency)

  • Yong Surk Lee
    • 전자공학회논문지A
    • /
    • 제28A권11호
    • /
    • pp.915-922
    • /
    • 1991
  • This research paper presents an ALU unit using 1.0$\mu$m CMOS technology capable of doing IEEE standard single and double precision floating poing calculation within 32ns (2 clock) at 60 MHz clock speed. This 32ns speed was achieved by using 9ns 1's complement arithmetic 54 bit carry select adder instead of previous 2's complement adders. On the first cycle, this adder is used for addition or subtraction and the second cycle uses this adder for rounding. This reduces the number of required adders from two to one. Speed improvement is 2 to 5 times compared with previous 40MHz design. Design goal was 60MHz, however, this unit is functioning at 80 MHz at room temperature.

  • PDF

Programmable Vertex Shader를 내장한 3차원 그래픽 지오메트리 가속기 설계 (Design of a 3D Graphics Geometry Accelerator using the Programmable Vertex Shader)

  • 하진석;정형기;김상연;이광엽
    • 대한전자공학회논문지SD
    • /
    • 제43권9호
    • /
    • pp.53-58
    • /
    • 2006
  • 버텍스 쉐이더는 fixed function T&L(Transform and Lighting) 엔진의 유연성을 향상시키고, 이전보다 다양한 3D 그래픽 효과를 표현하기 위하여 설계되었다. 본 논문의 쉐이더는 DirectX 8.1 의 Vertex Shader 1.1 과 OpenGL ARB에 기초하여 설계하였다. 버텍스 쉐이더는 벡터 연산을 위하여 4개의 ALU로 구성된다. 작은 면적의 저전력 설계를 위하여 32비트 부동소수점 데이터 형식을 24비트 데이터 형식으로 대체하였다. 버텍스 쉐이더 코어의 동작 검증을 위하여 Xilinx Virtex2 300M gate 모듈을 사용하였다. 시납시스 합성결과 TSMC 0.13um 공정에서 115MHz의 주파수로 동작가능하고, 12.5M Polygons/sec 의 연산성능을 보였다. 버텍스 쉐이더 코어의 면적은 동일 공정에서 11만 게이트를 차지한다.

이중 경로 십진 부동소수점 가산기 설계 (Design of Dual-Path Decimal Floating-Point Adder)

  • 이창호;김지원;황인국;최상방
    • 전자공학회논문지
    • /
    • 제49권9호
    • /
    • pp.183-195
    • /
    • 2012
  • 본 논문에서는 동일한 크기의 지수를 갖는 십진 부동소수점 오퍼랜드의 가산 및 감산연산을 빠르게 하기 위해, 두 개의 데이터 경로를 가지는 십진 부동소수점 가산기를 제안한다. 제안된 십진 부동소수점 가산기는 L. K. Wang의 오퍼랜드 정렬 계획을 사용하지만 오퍼랜드의 지수 크기가 같을 경우 정밀도를 보장하는 범위 내에서 속도 향상을 위해 고속의 데이터 경로를 통해 연산한다. 제안된 가산기의 성능 평가를 위해 Design Compiler에서 SMIC사의 $0.18{\mu}m$ CMOS 공정 테크놀로지 라이브러리를 이용하여 합성하였다. 합성 결과 면적은 L. K. Wang의 가산기와 비교하여 8.26% 증가하였지만 전체 임계경로의 지연시간이 10.54% 감소하였다. 또한 같은 크기의 지수를 가지는 오퍼랜드를 연산할 때는 임계경로보다 13.65% 단축된 경로에서 연산을 수행하는 것을 확인하였다. 제안한 십진 부동소수점 가산기 구조는 동일 크기의 지수를 가지는 오퍼랜드의 비중이 2% 이상일 때 L. K. Wang의 가산기 구조 대비 효용성이 높다.

모바일 그래픽 가속기용 부동소수점 절사 승산기 설계 (Design of a Truncated Floating-Point Multiplier for Graphic Accelerator of Mobile Devices)

  • 조용성;이용환
    • 한국정보통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.563-569
    • /
    • 2007
  • 모바일 통신 서비스의 발전과 반도체 기술의 발달로 모바일 기기에 멀티미디어 서비스와 2D/3D 게임과 같이 고수준의 그래픽 처리를 필요로 하는 콘텐츠가 가능하게 되었다. 모바일 기기는 특성상 더욱 작은 칩 면적과 저전력 소비의 조건이 만족되어야 하며, 본 논문에서는 이러한 모바일 기기에 적용 가능한 2D/3D 벡터 그래픽 처리용 부동소수점 절사형 승산기를 설계한다. 본 논문의 승산기는 기본적으로 radix-4 Booth 인코딩을 적용하고, 면적과 전력소모를 줄이기 위하여 절사방식을 사용한다. 구현된 절사형 승산기는 평균 퍼센트 오차가 0.00003% 정도로 모바일 기기에 충분히 적용가능하다. 승산기는 0.35um CMOS 셀 라이브러리를 이용하여 논리 합성되었고, 그 결과 절사되지 않은 기존의 radix-4 Booth 승산기에 비해 게이트 수가 약 33.8%정도 감소하였다.

개선된 뉴톤-랍손 역수 및 역제곱근 알고리즘 (An Improved Newton-Raphson's Reciprocal and Inverse Square Root Algorithm)

  • 조경연
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.46-55
    • /
    • 2007
  • 다음은 부동소수점 역수 및 역제곱근 계산에 많이 사용하는 뉴톤-랍손 알고리즘은 일정한 횟수의 곱셈을 반복하여 계산한다. 본 논문에서는 뉴톤-랍손 알고리즘의 반복 과정의 오차를 예측하여 오차가 정해진 값보다 작아지는 시점까지 반복 연산하는 개선된 뉴톤-랍손 알고리즘을 제안한다. 본 논문에서 제안한 알고리즘은 입력 값에 따라서 곱셈 횟수가 다르므로, 평균 곱셈 횟수를 계산하는 방식을 유도하고, 여러 크기의 근사 테이블에서 단정도실수 및 배정도실수의 역수 및 역제곱근 계산에 필요한 평균 곱셈 횟수를 산출한다. 이들 평균 곱셈 횟수를 종래 알고리즘과 비교하여 본 논문에서 제안한 알고리즘의 우수성을 증명한다. 본 논문에서 제안한 알고리즘은 오차가 일정한 값보다 작아질 때까지만 반복 연산을 수행하므로 역수 및 역제곱근 계산기의 성능을 높일 수 있고 최적의 근사 테이블을 구성할 수 있다. 본 논문의 연구 결과는 디지털 신호처리, 컴퓨터 그라픽스, 멀티미디어, 과학 기술 연산 등 부동소수점 계산기가 사용되는 분야에서 폭 넓게 사용될 수 있다.

이진 가중치 신경망의 하드웨어 구현을 위한 고정소수점 연산 정확도 분석 (Accuracy Analysis of Fixed Point Arithmetic for Hardware Implementation of Binary Weight Network)

  • 김종현;윤상균
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.805-809
    • /
    • 2018
  • 본 연구에서는 이진 가중치 신경망(BWN)을 부동소수점 데이터를 사용하여 학습시킨 후에, 학습된 파라미터와 주요연산을 고정소수점으로 근사화시키는 과정에서 정확도의 변화를 분석하였다. 신경망을 이루고 있는 각 계층의 입력 데이터와 컨볼루션 연산의 계산에 고정소수점 수를 사용했으며, 이때 고정소수점 수의 전체 bit 수와 소수점 이하 bit 수에 변화를 주면서 정확도 변화를 관찰하였다. 각 계층의 입력 값과 중간 계산값의 정수 부분의 손실이 발생하지 않으면 고정소수점 연산을 사용해도 부동소수점 연산에 비해 큰 정확도 감소가 없었다. 그리고 오버플로가 발생하는 경우에 고정소수점 수의 최대 또는 최소값으로 근사시켜서 정확도 감소를 줄일 수 있었다. 이 연구결과는 FPGA 기반의 BWN 가속기를 구현할 때에 필요한 메모리와 하드웨어 요구량을 줄이는 데 사용될 수 있다.