• 제목/요약/키워드: 병렬곱셈 연산기

검색결과 71건 처리시간 0.024초

고성능 잔여 데이터 복호기를 위한 최적화된 하드웨어 설계 (An Optimized Hardware Design for High Performance Residual Data Decoder)

  • 정홍균;류광기
    • 한국산학기술학회논문지
    • /
    • 제13권11호
    • /
    • pp.5389-5396
    • /
    • 2012
  • 본 논문에서는 H.264/AVC의 고성능 잔여 데이터 복호기를 위해 최적화된 하드웨어 구조를 제안한다. 제안하는 하드웨어 구조는 새로운 역영자화 수식들을 적용한 공통 연산기를 갖는 병렬 역양자화기와 병렬 역변환기를 통합한 하드웨어 구조이다. 새로운 역양자화 수식들은 기존 수식에서 나눗셈 연산을 제거하여 연산량 및 처리시간을 감소시키고 새로운 수식들을 처리하기 위해 곱셈기와 왼쪽 쉬프터로 구성된 하나의 공통 연산기를 사용한다. 역양자화기는 4개의 공통 연산기를 병렬처리하기 때문에 $4{\times}4$ 블록의 역양자화 수행 사이클 수를 1 사이클로 감소시키고, 제안하는 역변환기는 8개의 역변환 연산기를 사용하여 $4{\times}4$ 블록의 역변환 수행 사이클 수를 1 사이클로 감소시킨다. 또한 제안하는 구조는 역양자화 연산과 역변환 연산을 동시에 수행하기 때문에 하나의 $4{\times}4$ 블록을 처리하는 데 1 사이클이 소요되어 수행 사이클 수가 감소한다. 제안하는 구조를 Magnachip 0.18um CMOS 공정 라이브러리를 이용하여 합성한 결과 게이트 수는 21.9k, critical path delay는 5.5ns이고, 최대 동작 주파수는 181MHz이다. 최대 동작 주파수에서 제안하는 구조의 throughput은 2.89Gpixels/sec이다. 표준 참조 소프트웨어 JM 9.4에서 추출한 데이터를 이용하여 성능을 측정한 결과 제안하는 구조의 수행 사이클 수가 기존 구조들 대비 88.5% 이상 향상되었다.

부분곱 압축단을 줄인 32${\times}$32 비트 곱셈기 (A 32${\times}$32-b Multiplier Using a New Method to Reduce a Compression Level of Partial Products)

  • 홍상민;김병민;정인호;조태원
    • 대한전자공학회논문지SD
    • /
    • 제40권6호
    • /
    • pp.447-458
    • /
    • 2003
  • 고속동작을 하는 곱셈기는 DSP의 기본 블록 설계에 있어서 필수적이다. 전형적으로 신호처리분야에 있어서 반복 알고리듬은 다량의 곱셈연산을 필요로 하고, 이 곱셈연산을 첨가하고 실행하는데 사용된다. 본 논문은 32×32-b RST를 적용한 병렬 구조 곱셈기의 매크로 블록을 제시한다. Tree part의 속도를 향상시키기 위해 변형된 부분곱 발생 방법이 구조레벨에서 고안되었다. 이것은 4 레벨을 압축된 3 레벨로 줄였고, 4-2 압축기를 사용한 월리스 트리 구조에서도 지연시간을 감소시켰다. 또한, tree part가 CSA tree를 생성하기 위한 4개의 모듈러 블록과 결합이 되게 하였다. 그러므로 곱셈기 구조는 부스 셀렉터, 압축기, 새로운 부분곱 발생기(MPPG : Modified Partial Product Generator)로 구성된 같은 모듈에 규칙적으로 레이아웃 될 수 있다. 회로레벨에서 적은 트랜지스터 수와 엔코더로 구성된 새로운 부스 셀렉터가 제안되었다. 부스셀렉터에서의 트랜지스터 수의 감소는 전체 트랜지스터 수에 큰 영향을 끼친다. 설계된 셀렉터에는 9개의 PTL(Pass Transistor Logic)을 사용한다. 이것은 일반적인 트랜지스터 수의 감소와 비교했을 때 50% 줄인 것이다. 단일폴리, 5중금속, 2.5V, 0.25㎛ CMOS공정을 사용하여 설계하고, Hspice와 Epic으로 검증하였다. 지연시간은 4.2㎱, 평균 전력소모는1.81㎽/㎒이다. 이 결과들은 발표된 성능이 우수한 일반적인 곱셈기보다도 성능이 우수하다.

확장 가능형 몽고메리 모듈러 곱셈기 (A Scalable Montgomery Modular Multiplier)

  • 최준백;신경욱
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.625-633
    • /
    • 2021
  • 몽고메리 모듈러 곱셈의 유연한 하드웨어 구현을 위한 확장 가능형 아키텍처를 기술한다. 처리요소 (processing element; PE)의 1차원 배열을 기반으로 하는 확장 가능형 모듈러 곱셈기 구조는 워드 병렬 연산을 수행하며, 사용되는 PE 개수 NPE에 따라 연산 성능과 하드웨어 복잡도를 조정하여 구현할 수 있다. 제안된 아키텍처를 기반으로 SEC2에 정의된 8가지 필드 크기를 지원하는 확장 가능형 몽고메리 모듈러 곱셈기(scalable Montgomery modular multiplier; sMM) 코어를 설계했다. 180-nm CMOS 셀 라이브러리로 합성한 결과, sMM 코어는 NPE=1 및 NPE=8인 경우에 각각 38,317 등가게이트 (GEs) 및 139,390 GEs로 구현되었으며, 100 MHz 클록으로 동작할 때, NPE=1인 경우에 57만회/초 및 NPE=8인 경우에 350만회/초의 256-비트 모듈러 곱셈을 연산할 수 있는 것으로 평가되었다. sMM 코어는 응용분야에서 요구되는 연산성능과 하드웨어 리소스를 고려하여 사용할 PE 수를 결정함으로써 최적화된 구현이 가능하다는 장점을 가지며, ECC의 확장 가능한 하드웨어 설계에 IP (intellectual property)로 사용될 수 있다.

통신용 DSP를 위한 비트 조작 연산 가속기의 설계 (Design of Bit Manipulation Accelerator fo Communication DSP)

  • 정석현;선우명훈
    • 대한전자공학회논문지TC
    • /
    • 제42권8호
    • /
    • pp.11-16
    • /
    • 2005
  • 본 논문은 스크램블링(Scrambling), 길쌈부호화(Convolutional Encoding), 펑처링(Puncturing), 인터리빙(Interleaving) 등과 같은 연산에 공통적으로 필요한 비트 조작(Bit Manipulation)을 효율적으로 지원하기 위한 비트 조작 연산 가속기를 제안한다. 기존의 DSP는 곱셈 및 가산 연산을 기본으로 연산기가 구성되어 있으며 워드 단위로 동작을 함으로 비트 조작 연산의 경우 비효율적인 연산을 수행할 수밖에 없다. 그러나 제안한 가속기는 비트 조작 연산을 다수의 데이터에 대해 병렬 쉬프트와 XOR 연산, 비트 추출 및 삽입 연산을 효율적으로 수행할 수 있다. 제안한 가속기는 VHDL로 구현 하여 삼성 $0.18\mu m$ 표준 셀 라이브러리를 이용하여 합성하였으며 가속기의 게이트 수는 1,700개에 불과하다. 제안한 가속기를 통해 스크램블링, 길쌈부호화, 인터리빙을 수행시 기존의 DSP에 비해 $40\~80\%$의 연산 사이클의 절감이 가능하였다.

효율적인 파이프라인 구조와 스케줄링 기법을 적용한 고속 8-병렬 FFT/IFFT 프로세서 (High Speed 8-Parallel Fft/ifft Processor using Efficient Pipeline Architecture and Scheduling Scheme)

  • 김은지;선우명훈
    • 한국통신학회논문지
    • /
    • 제36권3C호
    • /
    • pp.175-182
    • /
    • 2011
  • 본 논문에서는 고속 데이터 전송을 위해 OFDM 시스템에 적용 가능한 고속 FFT/IFFT 프로세서를 제안하였다. 제안하는 프로세서는 높은 데이터 처리율을 만족하기 위해서 MDC 구조와 다중 병렬 처리 기법을 채택하였다. 하드웨어 복잡도를 줄이기 위해서 본 논문에서는 연산에 필요한 연산기의 수를 줄이는 구조로 버터플라이 연산기의 수를 줄인 MRMDC 구조와 효율적인 스케줄링 기법을 적용하여 복소 곱셈기의 수를 줄이는 구조를 제안한다. 제안하는 구조를 적용함으로써 연산 싸이클을 증가시키지 않고 하드웨어 복잡도를 줄일 수 있다. UWB, WiMAX, O-OFDM과 같은 고속 OFDM 시스템을 위해 제안하는 프로세서는 128-포인트와 256-포인트 두 가지 모드를 지원 가능하다. 제안하는 프로세서는 IBM 90nm 공정으로 합성하여 메모리를 제외한 전체 게이트 수가 760,000개를 보이며, 동작속도는 430MHz를 나타내었다.

병렬 PD가산회로를 이용한 Hybrid FFT 연산기 설계 (Hybrid FFT processor design using Parallel PD adder circuit)

  • 김성대;최전균;안점영;송홍복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2000년도 추계종합학술대회
    • /
    • pp.499-503
    • /
    • 2000
  • 본 논문에서는 기존 2진 FFT(Fast fourier transform)에서 확장해 다치논리 연산기를 이용해서 고속 다치 FFT 연산기를 구현하였다. 이를 바탕으로 구현한 FFT 연산의 가산은 기존의 2치 FFT연산과 비교해 결선과 트랜지스터 개수도 반으로 줄어지는 효과가 있다. 캐리 전파없는 가산기를 구현하기 위해서 (0,1,2,3)의 과잉 디지트 집합을 이용한 과잉 양의 수 표현(Reduntandt Positive-digit number Representation)을 FFT 내부적으로 이용하였고 이로 인해 능동소자의 감소와 이를 연결하기 위한 결선의 감소의 효과가 있고 VLSI(Very large scale intergation)의 설계시 정규성과 규칙성으로 효과적이다. FFT의 가산동작을 위해서는 캐리전파없는 가산기를 사용하였고 그리고 곱셉작용을 위해서는 곰셉기의 연산시간이 길고 면적이 큼으로 간단한 수학적 동작을 위해서 다치 LUT(Look up table)을 이용해 곱셈의 역할을 대신하였다. 마지막으로 시스템의 호환을 위해 하이브리드형 다치 FFT 연산기를 설계하여 예로 제시하였다.

  • PDF

$GF(2^n)$ 곱셈을 위한 효율적인 $MSK_k$ 혼합 방법 (Efficiently Hybrid $MSK_k$ Method for Multiplication in $GF(2^n)$)

  • 지성연;장남수;김창한;임종인
    • 대한전자공학회논문지SD
    • /
    • 제44권9호
    • /
    • pp.1-9
    • /
    • 2007
  • 유한체 $GF(2^n)$ 연산을 바탕으로 구성되는 암호시스템의 효율적 구현을 위하여 유한체의 곱셈의 하드웨어 구현은 중요한 연구 대상이다. 공간 복잡도가 낮은 병렬 처리 유한체 곱셈기를 구성하기 위하여 Divide-and-Conquer와 같은 방식이 유용하게 사용된다. 대표적으로 Karatsuba와 Ofman이 제안한 카라슈바(Karatsuba-Ofman) 알고리즘과 다중 분할 카라슈바(Multi-Segment Karatsuba) 방법이 있다. Leone은 카라슈바 방법을 이용하여 공간 복잡도 효율적인 병렬 곱셈기를 제안하였고 Ernst는 다중 분할 카라슈바 방법의 곱셈기를 제안하였다. [2]에서 제안한 방법을 개선하여 [1]에서 낮은 공간 복잡도를 필요로 하는 $MSK_5$ 방법과 $MSK_7$ 방법을 제안하였으며, [3]에서 곱셈 방법을 혼합하여 곱셈을 수행하는 방법을 제안하였다. 본 논문에서는 [3]에서 제안한 혼합 방법에 [1]에서 제안한 $MSK_5$ 방법을 추가로 혼합하는 혼합 방법을 제안한다. 제안하는 혼합방법을 적용하여 곱셈을 구성하면 l>0, $25{\cdot}2^l-2^l을 만족하는 차수에서 [3]에서 제안한 혼합 방법보다 $116{\cdot}3^l$만큼의 게이트와 $2T_X$ 만큼의 시간 지연이 감소한다.

ADSL G.LITE모뎀을 위한 주파수 영역 프로세서의 설계 (frequency Domain processor nor ADSL G.LITE Modem)

  • 고우석;기준석;고태호;윤대희
    • 한국통신학회논문지
    • /
    • 제26권12C호
    • /
    • pp.233-239
    • /
    • 2001
  • ADSL G.LITE 모뎀이 수행하는 주파수 영역의 연산과정에서 하향링크에 대한 FET 과정과 FEQ 과정은 가장 많은 연산량을 차지하는 부분이며, 이를 효율적으로 구현하기 위한 연구들이 수행되었다. 기존의 연구는 ADSL G.DMT 방식에 적합한 시스템으로서 G.LITE에 그대로 적용하기에는 부적합하다. 본 논문에서는 주파수 영역의 연산과정을 분석하고, 하드웨어 자원 할당에 따른 시스템의 효율성을 분석하여 G.LITE 방식에 적합한 프로세서의 구조를 제안하였다. 제안된 프로세서는 1개의 실수 곱셈기와 2개의 실수 덧셈기를 병렬로 연결한 구조를 가지며, 파이프라인 형태 및 병렬연산 형태의 작업 스케쥴링을 통해 효율적으로 연산을 수행할 수 있도록 설계되었다. 제안된 프로세서는 Kiss가 제안한 ALU 구조나 Wang이 제안한 FFT/IFFT 프로세서 구조에 비해 적은 하드웨어 자원을 이용하여 연산과정을 효율적으로 수행함으로서 G.LITE 시스템에 적합한 구조를 갖는다.

  • PDF

Unsigned와 signed 겸용 병렬 제곱기의 설계 (Design of combined unsigned and signed parallel squarer)

  • 조경주
    • 스마트미디어저널
    • /
    • 제3권1호
    • /
    • pp.39-45
    • /
    • 2014
  • 제곱연산은 승수와 피승수가 동일한 곱셈의 특수한 경우로 병렬 제곱기의 부분곱 행렬에서 부분곱 비트들은 대칭을 이룬다. 이런 특성을 이용하여 부분곱을 폴딩(folding), 쉬프트, 재배열하여 부분곱 비트의 수와 부분곱 행렬의 최대높이들 감소시킨다. 본 논문에서는 제어신호에 따라 unsigned와 signed 제곱기로 동작하는 겸용 제곱기의 효율적인 설계 방법을 제안한다. 기존 겸용 제곱기와 달리 자리수(weight)가 다른 특정 부분곱 비트들의 덧셈에 대해 덧셈기를 사용하지 않고 계산하는 방법을 제안한다. 시뮬레이션을 통해 제안한 겸용 제곱기는 기존 겸용 제곱기와 비교하여 면적은 약 18%, 지연시간(propagated delay time)은 약 11%, 전력소모는 약 9% 감소시킬 수 있음을 보인다.

삼항 다항식을 이용한 효율적인 비트-병렬 구조의 곱셈기 (Design of an Efficient Bit-Parallel Multiplier using Trinomials)

  • 정석원;이선옥;김창한
    • 정보보호학회논문지
    • /
    • 제13권5호
    • /
    • pp.179-187
    • /
    • 2003
  • 최근 빠른 하드웨어의 구현은 속도의 효율성을 중시하는 환경에서 큰 관심의 대상이 되고 있다. 유한체 연산기는 연산과정이 복잡한 곱셈 연산에 의해 속도가 결정된다. 연산 수행 속도를 빠르게 개선하기 위해 본 논문에서는 하드웨어 구조를 기존의 Mastrovito방법을 이용하여 제안하고자 한다. 삼항기약다항식(trinomial) p($\chi$)=$\chi$$^{m}$$\chi$$^n$+1를 이용하여 제안하는 곱셈기의 시간 복잡도를 기존의 복잡도 T$_{A}$+( (m-2)/(m-n) +1+ log$_2$(m) ) T$_{x}$에서 T$_{A}$+(1+ log$_2$(m-1)+ n/2 ) T$_{x}$으로 감소시킨다. 그러나 공간 복잡도를 살펴보면 AND 게이트 수가 기존의 복잡도와 m$^2$으로 같지만, XOR 게이트의 수는 기존 복잡도인 m$^2$-1에서 m$^2$+(n$^2$-3n)/2으로 기약다항식의 중간항 차수인 n에 따라 약간 증가된다. 기약다항식의 최고차 항을 표준에서 권장하는 차수와 그에 준하는 다항식의 차수에 대해 XOR 공간 복잡도가 평균적으로 1.18% 증가하는 데 비해, 시간 복잡도는 평균적으로 9.036% 정도 감소한다.