• 제목/요약/키워드: Booth Multiplier

검색결과 59건 처리시간 0.031초

면적 절약형 고속 FIR 필터의 설계 및 응용 (An Area Efficient High Speed FIR Filter Design and Its Applications)

  • 이광현;임종석
    • 대한전자공학회논문지SD
    • /
    • 제37권11호
    • /
    • pp.85-95
    • /
    • 2000
  • FIR 디지털 필터는 DSP에서 사용되는 중요한 회로 중에 하나이며, 보다 효율적인 연산을 위한 여러 가지 구조가 제안되었다. 본 논문에서는 필터 연산을 고속으로 수행하면서도 면적을 줄일 수 있는 필터 구조를 제안한다. Transposed 구조를 적용하여, 고속의 연산이 가능토록 하는 기본 구조를 사용하였다. 여기에, 이중 경로 레지스터 라인이라는 두 개의 연산 패스가 존재하여 다양한 종류의 필터 연산이 가능하며, 이 필터를 연속적으로 이어 사용할 수 있는 cascade 구조도 지원한다. Truncated Booth 곱셈기라는 면적 절약형 곱셈기를 사용하여 회로 크기를 줄일 수 있었다. 이중 경로 레지스터 라인과 truncated 곱셈기를 사용하여 주어진 조건에 최적화된 필터를 설계할 경우에 회로의 크기가 더 줄어 들수 있음을 확인하였다.

  • PDF

개선된 조건 합 가산기를 이용한 $54{\times}54$-bit 곱셈기의 설계 (Design of a $54{\times}54$-bit Multiplier Based on a Improved Conditional Sum Adder)

  • 이영철;송민규
    • 대한전자공학회논문지SD
    • /
    • 제37권1호
    • /
    • pp.67-74
    • /
    • 2000
  • 개선된 조건 합 가산기를 이용한 저전력 고속 $54{\times}54$-bit 곱셈기를 설계했다. 지연시간을 감소시키기 위해, Booth's Encoder 없이 높은 압축 율을 갖는 압축기들과 Carry 발생블록을 분리시킨 108-bit 조건 합 가산기를 제안하였다. 또한, 지연시간과 전력소모를 최적화하기 위해 패스 트랜지스터로직을 사용한 설계기법을 제안하였다. 제안된 곱셈기는 기존 곱셈기구조에 비해 약 12%의 지연시간과 5%의 전력소모가 감소하였으며, 0.65${\mu}m$ CMOS(Single-poly, triple-metal)공정을 사용하여 $6.60{\times}6.69mm^2$의 칩 크기와 공급전압 3.3V에서 13.5ns의 지연시간을 갖는다.

  • PDF

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

IEEE 754 단정도 부동 소수점 연산용 곱셈기 설계 (Design of a Floating Point Multiplier for IEEE 754 Single-Precision Operations)

  • 이주훈;정태상
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.778-780
    • /
    • 1999
  • Arithmetic unit speed depends strongly on the algorithms employed to realize the basic arithmetic operations.(add, subtract multiply, and divide) and on the logic design. Recent advances in VLSI have increased the feasibility of hardware implementation of floating point arithmetic units and microprocessors require a powerful floating-point processing unit as a standard option. This paper describes the design of floating-point multiplier for IEEE 754-1985 Single-Precision operation. Booth encoding algorithm method to reduce partial products and a Wallace tree of 4-2 CSA is adopted in fraction multiplication part to generate the $32{\times}32$ single-precision product. New scheme of rounding and sticky-bit generation is adopted to reduce area and timing. Also there is a true sign generator in this design. This multiplier have been implemented in a ALTERA FLEX EPF10K70RC240-4.

  • PDF

비동기 시스템용 고성능 16비트 승산기 설계 (Design of High Performance 16bit Multiplier for Asynchronous Systems)

  • 김학윤;이유진;장미숙;최호용
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.356-359
    • /
    • 1999
  • A high performance 16bit multiplier for asynchronous systems has been designed using asynchronous design methodology. The 4-radix modified Booth algorithm, TSPC (true single phase clocking) registers, and modified 4-2 counters using DPTL (differential pass transistor logic) have been used in our multiplier. It is implemented in 0.65${\mu}{\textrm}{m}$ double-poly/double-metal CMOS technology by using 6616 transistors with core size of 1.4$\times$1.1$\textrm{mm}^2$. And our design results in a computation rate exceeding 60MHz at a supply voltage of 3.3V.

  • PDF

경량 CNN 가속기를 위한 Radix-2 Booth 기반 가변 정밀도 곱셈기 (Radix-2 Booth-based Variable Precision Multiplier for Lightweight CNN Accelerators)

  • 금덕현;전승진;최재영;김지혁;김선희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2022
  • 엣지 디바이스에서 딥러닝을 활용하기 위하여 CNN 경량화 연구들이 진행되고 있다. 경량 CNN 은 대부분 고정 소수점을 사용하며, 계층에 따라 정밀도는 달라진다. 본 논문에서는 경량 CNN 을 지원하기 위하여, 사용 계층에 따라 정밀도를 선택할 수 있는 가변 정밀도 곱셈기를 제안한다. 제안하는 가변 정밀도 곱셈기는 낮은 정밀도 곱셈기를 병합하는 구조로, 정밀도가 낮을 때는 병렬 처리를 통해 효율을 높인다. 제안하는 곱셈기를 Verilog HDL로 설계하고 ModelSim 에서 동작을 확인하였다. 설계된 곱셈기는 계층별로 정밀도가 다른 CNN 가속기에서 효율적으로 적용될 것으로 기대된다.

최적화된 4진18진 혼합 MAC 설계 (An Optimized Hybrid Radix MAC Design)

  • 정진우;김승철;이용주;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(2)
    • /
    • pp.173-176
    • /
    • 2002
  • This paper is about a high-speed MAC (multiplier and accumulator) design applying radix-4 and radix-8 Booth's algorithm at the same time. The optimized hybrid radix design for high speed MAC has taken advantage of both a radix-4 and a radix-8 architectures. A radix-4 architecture meets high-speed, but it takes much more power and chip area than a radix-8 architecture. A radix-8 architecture needs less power and chip area than the other, but it has a bottleneck of generating three times the multiplicand problem. An optimized hybrid architecture performs the radix-4 multiplication partially in parallel with the generation of three times the multiplicand for use of the radix-8 multiplication. It reduces the concerned bit width of multiplier in radix-8 multiplication.

  • PDF

32 비트 RISC/DSP 프로세서를 위한 17 비트 $\times$ 17 비트 곱셈기의 설계 (17$\times$17-b Multiplier for 32-bit RISC/DSP Processors)

  • 박종환;문상국;홍종욱;문병인;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.914-917
    • /
    • 1999
  • The paper describes a 17 $\times$ 17-b multiplier using the Radix-4 Booth’s algorithm. which is suitable for 32-bit RISC/DSP microprocessors. To minimize design area and achieve improved speed, a 2-stage pipeline structure is adopted to achieve high clock frequency. Each part of circuit is modeled and optimized at the transistor level, verification of functionality and timing is performed using HSPICE simulations. After modeling and validating the circuit at transistor level, we lay it out in a 0.35 ${\mu}{\textrm}{m}$ 1-poly 4-metal CMOS technology and perform LVS test to compare the layout with the schematic. The simulation results show that maximum frequency is 330MHz under worst operating conditions at 55$^{\circ}C$ , 3V, The post simulation after layout results shows 187MHz under worst case conditions. It contains 9, 115 transistors and the area of layout is 0.72mm by 0.97mm.

  • PDF

최적화된 4진/8진 혼합 MAC 설계 (An Optimized Hybrid Radix MAC Design)

  • 정진우;김승철;이용주;이용석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(1)
    • /
    • pp.125-128
    • /
    • 2002
  • This paper is about a high-speed MAC (multiplier and accumulator) design applying radix-4 and radix-8 Booth's algorithm at the same time. The optimized hybrid radix design for high speed MAC has taken advantage of both a radix-4 and a radix-8 architectures. A radix-4 architecture meets high-speed, but it takes much more power and chip area than a radix-8 architecture. A radix-8 architecture needs less power and chip area than the other, but it has a bottleneck of generating three times the multiplicand problem. An optimized hybrid architecture performs tile radix-4 multiplication partially in parallel with the generation of three times the multiplicand for use of tile radix-8 multiplication. It reduces the concerned bit width of multiplier in radix-8 multiplication.

  • PDF

풀커스텀 (full-custom) 고속 곱셈기 회로의 효율적인 테스트 방안 (An Efficient Test Method for a Full-Custom Design of a High-Speed Binary Multiplier)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.830-833
    • /
    • 2007
  • 본 논문에서는 두 개의 17비트 오퍼랜드를 radix-4 Booth's algorithm을 이용하여 곱셈 연산을 수행하는 곱셈기에 대한 효율적인 풀커스텀 디자인에 대한 테스트 방법을 제안하였다. 클럭 속도를 빠르게 하기 위하여 2단 파이프라인 구조로 설계하였고 Wallace tree 부분의 레이아웃을 규칙적으로 하기 위해서 4:2 CSA(Carry Save Adder)를 사용하였다. 회로는 하이닉스반도체의 0.6-um 3-Metal N-well CMOS 공정을 사용하여 칩으로 제작되었다. 제안된 테스트 방법을 사용하여 관찰해야 하는 노드의 수를 약 88% 줄여 효율적으로 고장 시뮬레이션을 수행하였다. 설계된 곱셈기는 9115개의 트랜지스터로 구성되며 코어 부분의 레이아웃 면적은 약 $1135^*1545$ um2 이다. 칩은 전원전압 5V에서 약 24MHz의 클럭 주파수로 동작한다. 제안된 테스트 방법은 풀커스텀 방식의 곱셈기를 비롯한 대부분의 커스텀 설계 회로에 적용이 가능하다.

  • PDF