• 제목/요약/키워드: Standard cell library

검색결과 196건 처리시간 0.02초

DSP기능을 강화한 RISC 프로세서 core의 ASIC 설계 연구 (A Study on the Design of a RISC core with DSP Support)

  • 김문경;정우경;이용석;이광엽
    • 한국통신학회논문지
    • /
    • 제26권11C호
    • /
    • pp.148-156
    • /
    • 2001
  • 본 논문에서는 RISC 마이크로프로세서에 DSP프로세서를 추가하여 멀티미디어 기능이 강화된 응용에 알맞은 마이크로프로세서(YS-RDSP)를 제안한다. YS-RDSP는 최대 4개의 명령어를 동시에 병렬로 처리할 수 있다. 프로그램의 크기를 줄이기 위해 YS-RDSP는 16비트와 32비트의 두 가지 명령어 길이를 지원한다. YS-RDSP는 칩 하나로 RISC마이크로프로세서의 programmability 및 제어능력에 DSP의 처리능력을 제공하기 위하여 8-KByte ROM과 8-KByte RAM을 내장하고 있다. 칩 내에 있는 주변장치중 하나인 시스템 컨트롤러는 저전압 동작을 위한 3가지의 전압강하모드를 지원하며 SLEEP명령어는 CPU코어와 주변장치의 동작상태를 변환시킨다. YS-RDSP프로세서는 Verilog-HDL를 이용하여 하향식설계방식으로 구현되었고 C-언어로 작성된 사이클 단위 시뮬레이터를 이용하여 개선되고 검증되었다. 검증된 모델은 0.6um, 3.3V CMOS 표준 셀 라이브러리로 합성되었으며 자동화 P&R에 의해 10.7mm8.4mm코어 면적을 갖도록 레이아웃 되었다.

  • PDF

IEEE 802.16e WiMAX용 부호율 1/2, 2304-비트 LDPC 복호기 (Code Rate 1/2, 2304-b LDPC Decoder for IEEE 802.16e WiMAX)

  • 김해주;신경욱
    • 한국통신학회논문지
    • /
    • 제36권4A호
    • /
    • pp.414-422
    • /
    • 2011
  • 모바일 WiMAX 표준 IEEE 802.16e의 블록길이 2,304 비트, 부호율 1/2을 지원하는 LDPC(low-density parity-check) 복호기를 설계하였다. 설계된 LDPC 복호기는 최소-합(min-sum) 알고리듬과 layered 복호를 기반으로 $96{\times}96$ 크기의 부행렬을 병렬로 처리하는 부분병렬 구조를 갖는다. 최소-합 알고리듬의 특징을 이용하여 메모리 용량을 감소시킬 수 있는 새로운 방법을 고안하여 적용함으로써 검사노드 메모리 용량을 기존의 방법보다 46% 감소시켰다. Verilog HDL로 설계된 LDPC 복호기를 $0.18{\mu}m$ CMOS 셀 라이브러리로 합성한 결과 174,181개의 게이트와 52,992 비프의 메모리로 구현되었으며, Eb/No=2.1dB의 AWGN 채널에 대해 평균 비트 오율 (BER)는 $4.34{\times}10^{-5}$이고, 100 MHz@1.8-V로 동작하여 약 417 Mbps의 성능을 갖는다.

고속 무선 LAN 시스템을 위한 저전력/저면적 MIMO-OFDM 기저대역 프로세서 설계 (Design of Low-Power and Low-Complexity MIMO-OFDM Baseband Processor for High Speed WLAN Systems)

  • 임준하;조미숙;정윤호;김재석
    • 한국통신학회논문지
    • /
    • 제33권11C호
    • /
    • pp.940-948
    • /
    • 2008
  • 본 논문에서는 휴대용 고속 무선 LAN 시스템에 적합한 저전력/저면적 MIMO-OFDM 기저대역 프로세서의 효율적인 하드웨어 구조를 제시한다. 고속 무선 LAN 시스템은 최대 수백 Mbps의 데이터 속도를 처리해야 하기 때문에 높은 시스템 클럭과 다중경로 구조를 사용하게 되는데, 이는 소모 전력과 구현 면적을 상승시키는 결과를 초래한다. 따라서 본 논문에서는 저전력으로 동작하면서도 동시에 하드웨어 부담을 줄인 고속 무선 LAN 시스템용 기저대역 프로세서의 하드웨어 구조를 제시한다. 이를 위해서 비트 병렬 처리 구조로 설계된 송신단 PLCP(TX-PLCP) 프로세서와 연산 복잡도를 효과적으로 감소시킨 심볼 검출기를 제안한다. 제안된 TX-PLCP 프로세서 구조는 비트 병렬 처리를 통해 동작 주파수를 감소시킴으로써 전력소모를 낮추는 효과를 얻을 수 있고, PMD 프로세서에서 가장 큰 면적을 차지하는 심볼 검출기는 수식 변형을 통해서 나눗셈 연산 및 제곱근 연산을 제거함으로써 저면적 설계를 가능하게 한다. 제안된 하드웨어 구조를 적용한 기저대역 프로세서는 Verilog HDL을 통해 설계 및 검증되었으며, 0.18um CMOS 공정을 통해 합성되었다. 합성결과, 병렬처리 구조를 적용한 TX-PLCP 프로세서는 비트 직렬 처리 구조에 비해 약 81% 감소된 전력에서 동작함을 확인하였고, 제안된 심볼 검출기는 나눗셈 및 제곱근 연산을 포함하는 심볼 검출 기법에 비해 약 18% 정도 하드웨어 복잡도가 감소함을 확인하였다.

고속 퓨리어 변환 연산용 VLSI 시스토릭 어레이 아키텍춰 (A VLSI Architecture of Systolic Array for FET Computation)

  • 신경욱;최병윤;이문기
    • 대한전자공학회논문지
    • /
    • 제25권9호
    • /
    • pp.1115-1124
    • /
    • 1988
  • A two-dimensional systolic array for fast Fourier transform, which has a regular and recursive VLSI architecture is presented. The array is constructed with identical processing elements (PE) in mesh type, and due to its modularity, it can be expanded to an arbitrary size. A processing element consists of two data routing units, a butterfly arithmetic unit and a simple control unit. The array computes FFT through three procedures` I/O pipelining, data shuffling and butterfly arithmetic. By utilizing parallelism, pipelining and local communication geometry during data movement, the two-dimensional systolic array eliminates global and irregular commutation problems, which have been a limiting factor in VLSI implementation of FFT processor. The systolic array executes a half butterfly arithmetic based on a distributed arithmetic that can carry out multiplication with only adders. Also, the systolic array provides 100% PE activity, i.e., none of the PEs are idle at any time. A chip for half butterfly arithmetic, which consists of two BLC adders and registers, has been fabricated using a 3-um single metal P-well CMOS technology. With the half butterfly arithmetic execution time of about 500 ns which has been obtained b critical path delay simulation, totla FFT execution time for 1024 points is estimated about 16.6 us at clock frequency of 20MHz. A one-PE chip expnsible to anly size of array is being fabricated using a 2-um, double metal, P-well CMOS process. The chip was layouted using standard cell library and macrocell of BLC adder with the aid of auto-routing software. It consists of around 6000 transistors and 68 I/O pads on 3.4x2.8mm\ulcornerarea. A built-i self-testing circuit, BILBO (Built-In Logic Block Observation), was employed at the expense of 3% hardware overhead.

  • PDF

SVM 기반 사물 인식을 위한 고성능 벡터 내적 연산 회로의 MPW 칩 구현 및 검증 (MPW Chip Implementation and Verification of High-performance Vector Inner Product Calculation Circuit for SVM-based Object Recognition)

  • 신재호;김수진;조경순
    • 전자공학회논문지
    • /
    • 제50권11호
    • /
    • pp.124-129
    • /
    • 2013
  • 본 논문은 SVM 알고리즘 기반의 실시간 사물 인식을 위한 고성능 벡터 내적 연산 회로를 제안한다. SVM 알고리즘은 다른 사물 인식 알고리즘에 비해 인식률이 높지만 연산량이 많다. 벡터 내적 연산은 SVM 알고리즘 연산의 주요 연산으로 사용되므로 실시간 사물 인식을 위해서는 고성능 벡터 내적 연산 회로의 구현이 필수적이다. 제안하는 회로는 연산 속도를 높이기 위해 6단 파이프라인 구조를 적용하였으며 SVM 기반 실시간 사물 인식을 가능하게 한다. 제안하는 회로는 Verilog HDL을 사용하여 RTL로 구현하였으며 실리콘 검증을 위해 TSMC 180nm 표준 셀 라이브러리를 이용하여 MPW 칩으로 제작하였다. 테스트 보드와 검증 애플리케이션 소프트웨어를 개발하고 이를 사용하여 MPW 칩의 동작을 확인하였다.

UD(Ultra Definition) 동영상 실시간 처리를 위한 H.264/AVC CAVLC 병렬 아키텍처 설계 (Parallel Architecture Design of H.264/AVC CAVLC for UD Video Realtime Processing)

  • 고병수;공진흥
    • 전자공학회논문지
    • /
    • 제50권5호
    • /
    • pp.112-120
    • /
    • 2013
  • 본 연구에서는 UHD($3840{\times}2160$)영상을 실시간 처리하는 고성능 H.264/AVC CAVLC 부호화기를 설계하였다. 연산처리 성능을 높이기 위해 통계값 탐색 과정과 코드워드 부호화 과정을 각각 1사이클에 처리하도록 설계하였다. 통계값 탐색과정을 1사이클에 처리하기 위해 16개 계수들의 '0' 또는 '0'이 아님을 표시하는 비트열을 만들어 산술 및 논리연산을 통해 통계값을 한 번에 구하였다. 그리고 코드워드 부호화 과정을 1사이클에 처리하기 위해 레벨의 코드워드 길이를 결정하는 계수들과 임계값들과의 비교 연산을 동시에 처리함으로써 코드워드 부호화 과정의 재귀적 연산을 제거하였다. 제안하는 H.264/AVC 병렬 CAVLC 부호화기는 통계값 탐색 단계과 코드워드 부호화 단계로 나뉘는 2단 파이프라인 구조로 고속 병렬 연산 회로를 구현하였으며, 산술 연산을 적용하여 코드워드 부호화 테이블을 회로의 크기를 줄이고자 하였다. 0.13um 공정에서 시뮬레이션한 결과, 게이트 수는 33.4Kgates이며, 최대동작주파수 100MHz에서 UD 영상을 초당 100프레임으로 실시간 처리가 가능하다.

적응적 영역 가중치를 이용한 실시간 스테레오 비전 시스템 설계 (Design of a Realtime Stereo Vision System using Adaptive Support-weight)

  • 류동훈;박태근
    • 전자공학회논문지
    • /
    • 제50권11호
    • /
    • pp.90-98
    • /
    • 2013
  • 지역적 정합방법을 이용한 스테레오 시스템은 알고리즘의 특성상 하드웨어 설계가 용이하여 많이 사용되나 낮은 정합률로 인해 정확한 깊이 영상을 얻기 힘들기 때문에 많은 응용 분야에 사용하기에 제한이 있다. 본 논문에서 제안한 스테레오 시스템은 픽셀의 변화도(gradient)를 기반으로 한 적응적인 가중치 알고리즘을 이용하여 높은 정합 성능을 보이며 하드웨어로 설계하였을 때 실시간처리가 가능하다. 일반적으로 적응적인 가중치 윈도우를 적용할 경우 중간 결과를 재사용하기 불가능하지만 행, 열을 분리하여 처리함으로써 데이터를 재사용할 수 있고 따라서 처리성능이 개선되었다. 알고리즘에 필요한 지수 및 아크탄젠트 함수를 구현하기 위해 선형(PWL, piecewise linear) 및 계단(step) 함수 등으로 근사화한 뒤 에러를 분석하여 최선의 파라미터를 선택하였다. 제안한 구조는 실시간처리를 위하여 9개의 프로세서를 사용하여 병렬처리를 하였으며, 동부하이텍 0.18um 라이브러리로 합성하였을 경우 최대 동작주파수 350MHz(33 fps)와 424K 게이트의 하드웨어 복잡도를 나타내었다.

GF(2m) 상의 NIST 타원곡선을 지원하는 ECC 프로세서 (ECC Processor Supporting NIST Elliptic Curves over GF(2m))

  • 이상현;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.190-192
    • /
    • 2018
  • NIST 표준으로 정의된 이진체 상의 5가지 pseudo-random 타원곡선과 5가지 Koblitz 타원곡선을 지원하는 타원곡선 암호 (Elliptic Curve Cryptography; ECC) 프로세서를 설계하였다. Lopez-Dahab 투영 좌표계를 적용하여 모듈러 곱셈과 XOR 연산으로 스칼라 곱셈 (scalar multiplication)이 연산되도록 하였으며, 32-비트${\times}$32-비트의 워드 기반 몽고메리 곱셈기를 이용한 고정 크기의 하드웨어로 다양한 키 길이의 ECC가 구현될 수 있도록 설계하였다. 설계된 ECC 프로세서는 FPGA 구현을 통해 하드웨어 동작을 검증하였으며, 0.18-um CMOS 셀 라이브러리로 합성한 결과 100 MHz의 동작 주파수에서 10,674 GEs와 9 킬로비트의 RAM으로 구현되었고, 최대 154 MHz의 동작 주파수를 갖는다.

  • PDF

JPEG2000의 보안을 위한 카오스 시스템의 하드웨어 구현 (Hardware Implementation of Chaotic System for Security of JPEG2000)

  • 서영호
    • 한국통신학회논문지
    • /
    • 제30권12C호
    • /
    • pp.1193-1200
    • /
    • 2005
  • 본 논문에서는 JPEG2000 표준에서 주파수 변환기법으로 채택된 이산 웨이블릿 변환과 선형양자화 방법을 사용하여 영상 전체가 아닌 영상의 부분 데이터만을 암호화하여 계산양을 줄이는 부분 암호화 방법을 제안하고 하드웨어로 구현하였다. 또한 계산양이 많은 암호화 알고리즘 대신 비교적 계산양이 적은 카오스 시스템을 이용함으로써 계산양을 더욱 감소시킨다. 영상 데이터의 변환 방법은 암호화할 부대역을 선택하여 영상데이터를 일정한 블록으로 만든 후 무작위로 좌/우 쉬프트 하는 방법과 두 가지 양자화 할당 방식(하향식-코드 할당방식/반향-코드 할당방식)에 따라 데이터를 교환하는 방식을 사용한다. 제안한 암호화 방법을 소프트웨어로 구현하여 약 500개의 영상을 대상으로 실험한 결과 원 영상 데이터를 부분적으로 암호화함으로써 원 영상을 인식할 수 없을 정도의 암호화효과를 얻을 수 있음을 알 수 있었다. 구현한 하드웨어 암호화 시스템은 삼성 $0.35{\mu}m$ 팬텀-셀 라이브러리를 사용하여 합성함으로써 게이트 수준 회로를 구성하였고 타이밍 시뮬레이션을 수행한 결과 100MHz 이상의 동작 주파수에서 안정적으로 동작함을 확인하였다.

GF(2m)에서의 사칙연산을 수행하는 GFAU의 설계GF(2m) (Design of a GFAU(Galois Field Arithmetic Unit) in)

  • 김문경;이용석
    • 한국통신학회논문지
    • /
    • 제28권2A호
    • /
    • pp.80-85
    • /
    • 2003
  • 본 논문에서는 GF(2m) 상에서의 ECC 암호화 알고리즘을 지원하기 위한 GFAU(Galois Field Arithmetic Unit)의 구조를 제안한다. GFAU는 GF(2m)상에서의 덧셈, 곱셈, 나눗셈을 수행하며 동시에 두 개의 덧셈이나 두 개의 곱셈, 또는 하나의 덧셈과 하나의 곱셈을 동시에 처리할 수 있는 능력을 가지고 있다. 기본 구조는 변형된 유클리드 알고리즘의 나눗셈기를 기반으로 제안되었으며, 이 기본구조에 곱셈기 및 덧셈기의 기능을 추가하여 제어부와 함께 구현되었다. GF(2193)을 위한 GFAU는 Verilog-HDL를 이용하여 하향식설계방식으로 구현되었고 C-언어로 작성된 사이클 단위 시뮬레이터를 이용하여 개선되고 검증되었다. 검증된 모델은 삼성 0.35um, 3.3V CMOS 표준 셀 라이브러리로 합성되었으며 최악조건 3.0V, 85$^{\circ}C$ 에서 104.7MHz의 주파수에서 동작하며, 전체 게이트 수는 약 25,889이다.