• 제목/요약/키워드: clock multiplier

검색결과 85건 처리시간 0.022초

DFT에 의한 비데오 코덱용 DCT의 단순한 시스톨릭 어레이 (A Simple Discrete Cosine Transform Systolic Array Based on DFT for Video Codec)

  • 박종오;이광재;양근호;박주용;이문호
    • 대한전자공학회논문지
    • /
    • 제26권11호
    • /
    • pp.1880-1885
    • /
    • 1989
  • In this paper, a new approach for systolic array realizing the discrete cosine transform (DCT) based on discrete Fourier transform (DFT) of an input sequence is presented. The proposed array is based on a simple modified DFT(MDFT) version of the Goertzel algorithm combined with Kung's approach and is proved perfectly. This array requires N cells, one multiplier and takes N clock cycles to produce a complete N-point DCT and also is able to process a continuous stream of data sequences. We have analyzed the output signal-to-noise ratio(SNR) and designed the circuit level layout of one-PE chip. The array coefficients are static adn thus stored-product ROM's can be used in place of multipliers to limit cost as eliminate errors due to coefficients quantization.

  • PDF

SOC 설계를 위한 저전력 32-비트 RISC 프로세서의 재사용 가능한 설계 (Resuable Design of 32-Bit RISC Processor for System On-A Chip)

  • 이세환;곽승호;양훈모;이문기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 하계종합학술대회 논문집(2)
    • /
    • pp.105-108
    • /
    • 2001
  • 4 32-bit RISC core is designed for embedded application and DSP. This processor offers low power consumption by fully static operation and compact code size by efficient instruction set. Processor performance is improved by wing conditional instruction execution, block data transfer instruction, multiplication instruction, bunked register file structure. To support compact code size of embedded application, It is capable cf executing both 16-bit instructions and 32-bit instruction through mixed mode instruction conversion Furthermore, for fast MAC operation for DSP applications, the processor has a dedicated hardware multiplier, which can complete a 32-bit by 32-bit integer multiplication within seven clock cycles. These result in high instruction throughput and real-time interrupt response. This chip is implemented with 0.35${\mu}{\textrm}{m}$, 4- metal CMOS technology and consists of about 50K gate equivalents.

  • PDF

유한필드상에서 몽고메리 알고리즘을 이용한 곱셈기 설계 (New Multiplier using Montgomery Algorithm over Finite Fields)

  • 하경주;이창순
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 춘계학술대회 논문집
    • /
    • pp.190-194
    • /
    • 2002
  • 유한 필드 GF(2$^{m}$ ) 상에서의 곱셈은 Diffie-Hellman key exchange, EIGamal과 같은 공개키 암호시스템에서의 기본적인 연산이다. 본 논문에서 는 셀룰러 오토마타를 이용하여 GF(2$^{m}$ ) 상에서 몽고메리 곱셈을 m 클럭 사이클만에 처리하는 새로운 구조를 제시 하였다. 본 논문에서 제시된 몽고메리 곱셈기는 모듈러 지수기, 나눗셈기, 곱셈의 역원기등을 효율적으로 구현하는데 활용될 수 있다. 또한 셀룰러 오토마타는 간단하고도 규칙적이며, 모듈화 하기 쉽고 계층화 하기 쉬운 구조이므로 VLSI구현에도 효율적으로 활용될 수 있다.

  • PDF

FPGA-Based Design of Black Scholes Financial Model for High Performance Trading

  • Choo, Chang;Malhotra, Lokesh;Munjal, Abhishek
    • Journal of information and communication convergence engineering
    • /
    • 제11권3호
    • /
    • pp.190-198
    • /
    • 2013
  • Recently, one of the most vital advancement in the field of finance is high-performance trading using field-programmable gate array (FPGA). The objective of this paper is to design high-performance Black Scholes option trading system on an FPGA. We implemented an efficient Black Scholes Call Option System IP on an FPGA. The IP may perform 180 million transactions per second after initial latency of 208 clock cycles. The implementation requires the 64-bit IEEE double-precision floatingpoint adder, multiplier, exponent, logarithm, division, and square root IPs. Our experimental results show that the design is highly efficient in terms of frequency and resource utilization, with the maximum frequency of 179 MHz on Altera Stratix V.

Radix-2 MBA 기반 병렬 MAC의 VLSI 구조 (New VLSI Architecture of Parallel Multiplier-Accumulator Based on Radix-2 Modified Booth Algorithm)

  • 서영호;김동욱
    • 대한전자공학회논문지SD
    • /
    • 제45권4호
    • /
    • pp.94-104
    • /
    • 2008
  • 본 논문에서는 고속의 곱셈-누적 연산을 수행할 수 있는 새로운 MAC의 구조를 제안한다. 곱셈과 누적 덧셈 연산을 통합하고 하이브리드 형태의 CSA 구조를 고안하여 임계경로를 감소시키고 출력율을 개선하였다. 즉, 가장 큰 지연시간을 갖는 누적기 자체를 제거하고 누적기의 기능을 CSA에 포함시킴으로써 전체적인 성능을 향상시킨다. 제안된 CSA 트리는 1의 보수 기반의 MBA 알고리즘을 이용하고, 연산자의 밀도를 높이고자 부호비트를 위한 수정된 배열형태를 갖는다. 또한 최종 덧셈기의 비트수를 줄이기 위해서 CSA 트리 내에 2비트 CLA를 사용하여 하위 비트의 캐리를 전파하고 하위 비트들에 대한 출력을 미리 생성한다. 또한 파이프라인의 효율을 최적화시켜 출력율을 증가시키고자 최종 덧셈기의 출력이 아닌 합과 캐리 형태의 중간 연산결과들을 누적시킨다. 제안한 하드웨어를 설계한 후에 $250{\mu}m,\;180{\mu}m,\;130{\mu}m$, 그리고 90nm CMOS 라이브러리를 이용하여 합성하였다. 이론 및 실험적인 결과를 토대로 제안한 MAC의 하드웨어 자원, 지연시간, 그리고 파이프라인 등의 결과에 대해 분석하였다. 지연시간은 수정된 Sakurai의 alpha power low를 이용하였다. 결과를 살펴보면 제안한 MAC은 표준 설계에 대해서는 여러 측면에서 매우 우수한 특성을 보였고, 최근 연구와 비교할 때 클록속도는 거의 유사하면서 성능은 두 배로 우수하였다.

CIOS 몽고메리 모듈러 곱셈 알고리즘 기반 Scalable RSA 공개키 암호 프로세서 (Scalable RSA public-key cryptography processor based on CIOS Montgomery modular multiplication Algorithm)

  • 조욱래;신경욱
    • 한국정보통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.100-108
    • /
    • 2018
  • 512/1,024/2,048/3,072 비트의 4가지 키 길이를 지원하는 scalable RSA 공개키 암호 프로세서를 설계하였다. RSA 암호의 핵심 연산블록인 모듈러 곱셈기를 CIOS (Coarsely Integrated Operand Scanning) 몽고메리 모듈러 곱셈 알고리듬을 이용하여 32 비트 데이터 패스로 설계하였으며, 모듈러 지수승 연산은 Left-to-Right (L-R) 이진 멱승 알고리듬을 적용하여 구현하였다. 설계된 RSA 암호 프로세서를 Virtex-5 FPGA로 구현하여 하드웨어 동작을 검증하였으며, 512/1,024/2,048/3,072 비트의 키 길이에 대해 각각 456,051/3,496,347/26,011,947/88,112,770 클록 사이클이 소요된다. $0.18{\mu}m$ CMOS 표준셀 라이브러리를 사용하여 100 MHz 동작 주파수로 합성한 결과, 10,672 GE와 $6{\times}3,072$ 비트의 메모리로 구현되었다. 설계된 RSA 공개키 암호 프로세서는 최대 동작 주파수는 147 MHz로 예측되었으며, 키 길이에 따라 RSA 복호 연산에 3.1/23.8/177/599.4 ms 가 소요되는 것으로 평가되었다.

패턴 탐색 기법을 사용한 Multiplierless 리프팅 기반의 웨이블릿 변환의 설계 (Design of Multiplierless Lifting-based Wavelet Transform using Pattern Search Methods)

  • 손창훈;박성모;김영민
    • 한국멀티미디어학회논문지
    • /
    • 제13권7호
    • /
    • pp.943-949
    • /
    • 2010
  • 본 논문은 하드웨어 곱셈 연산을 최적화하여 리프팅 기반의 9/7 웨이블릿 필터의 개선된 VLSI의 구조를 제안한다. 제안한 구조는 범용 곱셈기를 사용하는 기존의 리프팅 기반의 웨이블릿 필터와 비교하여 화질의 열화 없이 보다 적은 로직과 전력소모를 갖는다. 본 논문은 Pattern search 기반의 Lefevre 알고리즘을 이용하여 하드웨어 구조를 개선한다. 제안한 구조는 범용의 곱셈기를 단순한 shift-add 연산으로 대체하여 하드웨어 구현을 단순하게 하고 계산 속도를 빠르게 한다. 제안한 구조와 기존의 구조를 Verilog HDL을 이용하여 구현하고 비교 실험하였다. 두 구조는 0.18um 디지털 CMOS 공정의 스탠다드 셀을 이용하여 합성된다. 제안한 구조는 200MHz의 합성 타겟 클록 주파수에서 기존의 구조에 비해 면적, 전력소모와 최대 지연시간이 각각 약 51%, 43%와 30%로 감소하였다. 구현 결과를 통해 제안한 구조가 범용의 곱셈기 블록을 사용한 기존의 구조보다 스탠다드 셀을 이용한 ASIC 구현에 보다 적합하다는 것을 보여준다.

구조적 LDPC 부호의 저복잡도 및 고속 부호화기 설계 (Design of Low Complexity and High Throughput Encoder for Structured LDPC Codes)

  • 정용민;정윤호;김재석
    • 대한전자공학회논문지SD
    • /
    • 제46권10호
    • /
    • pp.61-69
    • /
    • 2009
  • 본 논문은 저 복잡도와 높은 throughput을 지원하는 LDPC 부호화기의 구조에 대하여 제안한다. LDPC 부호화기가 갖는 높은 복잡도 문제를 해결하기 위하여 기존의 복잡도가 높은 행렬 곱셈 연산기 대신에 간소화된 행렬 곱셈 연산기가 제안되었다. 또한 높은 throughput을 지원하기 위하여 행렬 곱셈 연산시 행 방향 연산 및 부분 병렬처리 연산을 적용하였다. 제안된 부호화기 구조의 로직 게이트와 메모리 사용량은 기존의 5단 파이프라인 부호화기의 구조에 비하여 각각 37.4%와 56.7%씩 감소하였다. 또한 40MHz 클럭 주파수에 대해 기존의 부호화기에 비하여 3배 이상의 throughput인 최대 800Mbps의 throughput을 지원한다.

풀커스텀 (full-custom) 고속 곱셈기 회로의 효율적인 테스트 방안 (An Efficient Test Method for a Full-Custom Design of a High-Speed Binary Multiplier)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.830-833
    • /
    • 2007
  • 본 논문에서는 두 개의 17비트 오퍼랜드를 radix-4 Booth's algorithm을 이용하여 곱셈 연산을 수행하는 곱셈기에 대한 효율적인 풀커스텀 디자인에 대한 테스트 방법을 제안하였다. 클럭 속도를 빠르게 하기 위하여 2단 파이프라인 구조로 설계하였고 Wallace tree 부분의 레이아웃을 규칙적으로 하기 위해서 4:2 CSA(Carry Save Adder)를 사용하였다. 회로는 하이닉스반도체의 0.6-um 3-Metal N-well CMOS 공정을 사용하여 칩으로 제작되었다. 제안된 테스트 방법을 사용하여 관찰해야 하는 노드의 수를 약 88% 줄여 효율적으로 고장 시뮬레이션을 수행하였다. 설계된 곱셈기는 9115개의 트랜지스터로 구성되며 코어 부분의 레이아웃 면적은 약 $1135^*1545$ um2 이다. 칩은 전원전압 5V에서 약 24MHz의 클럭 주파수로 동작한다. 제안된 테스트 방법은 풀커스텀 방식의 곱셈기를 비롯한 대부분의 커스텀 설계 회로에 적용이 가능하다.

  • PDF

Radix-4 Booth Recoding과 RB 연산을 이용한 새로운 복소수 승산 알고리듬 및 10-bit CMAC코어 설계 (A New Complex-Number Multiplication Algorithm using Radix-4 Booth Recoding and RB Arithmetic, and a 10-bit CMAC Core Design)

  • 김호하;신경욱
    • 전자공학회논문지C
    • /
    • 제35C권9호
    • /
    • pp.11-20
    • /
    • 1998
  • 고속 복소수 연산장치는 채널등화, 동기신호 복원, 변조 및 복조 등 디지탈 통신 시스템의 기저대역 신호처리에 필수적인 기능블록이다. 본 논문에서는 redundant binary (RB) 연산과 radix-4 Booth recoding을 결합한 새로운 복소수 승산 알고리듬을 제안한다. 제안되는 복소수 승산 방법은 실수 승산기를 사용하는 기존의 방법과 비교하여 부분곱의 수를 반으로 감소시키며, 단순화된 병렬구조로 구현되므로 고속 동작 및 저전력 소모를 가능하게 한다. 제안된 알고리듬을 적용하여 10-bit operand를 갖는 prototype 복소수 승산-누적기(complex-number multiplier-accumulator ; CMAC) 코어를 0.8-㎛ N-Well CMOS 공정으로 설계, 제작하였다. 제작된 CMAC 칩은 18,000여개의 트랜지스터로 구성되며, 코어부분의 면적은 약 1.60 × 1.93 ㎟이다. 제작된 칩을 테스트 보드에 실장하여 특성을 평가한 결과, 전원전압 V/sub DD/=3.3-V에서 120-MHz의 속도로 동작함을 확인하였으며, 이때의 전력소모는 약 63-mW로 측정되었다.

  • PDF