• 제목/요약/키워드: FLOPS

검색결과 129건 처리시간 0.027초

저전력 테스트를 고려한 효율적인 테스트 데이터 압축 방법 (An Efficient Test Data Compression/Decompression for Low Power Testing)

  • 전성훈;임정빈;김근배;안진호;강성호
    • 대한전자공학회논문지SD
    • /
    • 제42권2호
    • /
    • pp.73-82
    • /
    • 2005
  • 스캔 테스트를 위한 테스트 데이터의 양과 파워 소모는 SoC 테스트에서의 최근의 직면한 가장 큰 문제들이다. 따라서 본 논문에서는 저전력 테스트를 고려한 새로운 테스트 데이터 압축 방법을 제안한다. 제안하는 압축 방법은 테스트 데이터 압축을 위해 압축율, 전력 소모 감소율과 하드웨어 오버헤드를 고려하여 최대 효율을 가지도록 하는데 기초하고 있다. 압축율과 전력 감소율을 높이기 위해서 본 논문에서는 IR (Input Reduction) 기법과 MSCIR (Modified Statistical Code using Input Reduction) 압축 코드을 사용하며, 뿐만아니라 이를 위한 사전 작업인 새로운 스캔 플립플롭 순서 재조합 기법 및 테스트 패턴 순서 재조합 방법을 제안한다. 기존의 연구와는 달리 CSR 구조를 사용하지 않고 원래의 테스트 데이터 $T_D$를 사용하여 압축하는 방법을 사용한다. 이렇게 함으로써 제안하는 압축 방법은 기존의 연구에 비해 훨씬 높은 압축율을 가지며 낮은 하드웨어 오버헤드의 디컴프레션 구조와 적은 전력 소모를 가진다. ISCAS '89 벤치 회로에 대찬 기존의 연구와의 비교로서 그 결과를 알 수 있다.

1-GFLOPS DSP를 이용한 자기공명영상 스펙트로미터 설계 (Design of MRI Spectrometer Using 1 Giga-FLOPS DSP)

  • 김휴정;고광혁;이상철;정민영;장경섭;이동훈;이흥규;안창범
    • Investigative Magnetic Resonance Imaging
    • /
    • 제7권1호
    • /
    • pp.12-21
    • /
    • 2003
  • 목적 : 기존의 일반적인 스펙트로미터보다 향상된 성능을 가진 새로운 스펙트로미터를 설계 및 제작하였다. 대상 및 방법 : 초당 10억번의 부동 연산 능력을 갖춘 TMS320C6701 DSP를 이용하여 연속적으로 변하는 복잡한 경사자계파형을 실시간으로 계산하여 출력할 수 있고, 선택 단면을 interactive하게 조절할 수 있는 스펙트로미터를 설계, 제작하였다. 설계된 스펙트로미터는 DSP 기반의 디지털 제어부와 파형을 만들고 변조 및 복조를 수행하는 아날로그부로 구성되어 있다 RF 신호의 변조 및 복조는 디지털 기술을 사용하여 정밀도와 안정성을 높였다. 고속 병렬영상을 위하여 하나의 측정 보드당 4채널까지 측정할 수 있도록 하였고, 고속 DSP를 이용하여 빠른 재구성이 가능하도록 하였다. 결과 : 제작된 스펙트로미터를 1.5 테슬라 전신자기공명영상 시스템에 장착하여 다양한 방법으로 성능을 시험하였다. 디지털 변조/복조 방식에서 요하는 정밀한 위상 제어를 확인할 수 있었고, phase array 코일 영상을 통하여 다중 채널 측정시스템의 성능을 검증할 수 있었다. 개발된 스펙트로미터를 기존의 상품화된 스펙트로미터와 비교해 볼때 보다 정밀한 위상 제어가 가능한 것으로 나타났다. 결론 : Interactive하게 영상의 단면을 선택하고, 실시간 계산에 의한 파형출력은 나선주사 심장영상과 같은 첨단의 영상기법에 요구되는 스펙트로미터의 기능이다 또한 다채널 측정시스템도 병렬영상을 위한 필수적인 기능이다. 본 논문에서는 초당 10억번의 부동소수점 연산이 가능한 TMS320C6701 디지털신호처리기를 사용하여 이러한 기능들을 가진 스펙트로미터를 설계, 제작하였다. 디지털 방식의 변조/복조 기술을 채택하여 정밀한 위상제어가 가능하였다. 개발된 스펙트로미터를 FSE, GE, angiography 등 다양한 영상방법에 적용하여 성능을 확인하였으며, 기존의 제품보다 뛰어난 화질의 영상을 얻을 수 있었다.

  • PDF

승/감산 연산방법의 개선 및 PTL회로설계 기법을 이용한 저전력 MAC의 구현 (An Implementation of Low Power MAC using Improvement of Multiply/Subtract Operation Method and PTL Circuit Design Methodology)

  • 심기학;오익균;홍상민;유범선;이기영;조태원
    • 대한전자공학회논문지SD
    • /
    • 제37권4호
    • /
    • pp.60-70
    • /
    • 2000
  • 시스템 설계의 각 단계에서 저전력 설계기법을 적용하여 8×8+20비트의 MAC을 설계하였다. 알고리듬레벨에서는 MAC의 중요한 명령어 중의 하나인 승/감산연산을 위한 하드웨어의 설계에서 기존의 방식에 비하여 트랜지스터를 감소할 수 있는 새로운 기법을 제안하였으며, 회로 레벨에서는 동일한 로직을 CMOS로 구현한 경우보다 PDP(power-delay-product) 측면에서 우수한 성능을 가지는 NMOS pass-transistor 로직으로 구성된 새로운 Booth 셀렉터 회로를 제안하였다. 구조 레벨에서 최종단 덧셈기는 전력소모, 동작속도, 면적, 설계 규칙성 측면에서 가장 우수한 ELM 덧셈기를 사용하였고, 레지스터는 비트당 트랜지스터의 수가 적은 동적 CMOS 단일모서리 천이 플립플롭을 적용하였다. 동작속도를 높이기 위한 방법으로는 2단 파이프라인 구조를 적용했으며, Wallace 트리 블록에 고속 4:2 압축기를 이용하였다. 0.6㎛ 단일폴리, 삼중금속 CMOS 공정으로 설계된 MAC은 모의실험 결과 곱셈 연산시 최대 200㎒ 3.3V에서 35㎽의 전력을 소모하였고, MAC 연산시 최대 100㎒에서 29㎽의 전력을 소모하였다.

  • PDF

래치구조의 저면적 유한체 승산기 설계 (Design of a Small-Area Finite-Field Multiplier with only Latches)

  • 이광엽
    • 전기전자학회논문지
    • /
    • 제7권1호
    • /
    • pp.9-15
    • /
    • 2003
  • 본 논문은 암호화 장치 및 오류정정부호화 장치 등에서 핵심적으로 사용되고 있는 유한체승산기(finite-field multiplier)의 최적화된 구조를 제안한다. 제안된 구조는 LFSR(Linear Feedback Shift Register)구조를 갖는 유한체 승산기에서 소비전력과 회로면적을 최소화 하여 기존의 LFSR 구조를 바탕으로 하는 유한체 승산기에 비하여 효율적인 승산을 이루도록 한다. 기존의 LFSR 구조의 유한체 승산기는 m비트의 다항식을 승산 하는데 3${\cdot}$m개의 플립플롭(flip-flop)이 필요하다. 1개의 플립플롭은 2개의 래치(latch)로 구성되기 때문에 6${\cdot}$m개의 래치가 소요된다. 본 논문에서는 4${\cdot}$m개의 래치(m 개의 플립플롭과 2${\cdot}$m개의 래치)로 m 비트의 다항식을 승산 할 수 있는 유한체 승산기를 제안하였다. 본 논문의 유한체 승산기는 기존의 LFSR 구조의 유한체 승산기에 비하여 회로구현에 필요한 래치의 개수가 1/3(약 33%)이 감소하였다. 결과적으로 기존의 방법에 비하여 저 소비전력 및 저 면적의 유한체 승산기를 암호화 장치 및 오류정정부호화 장치 등에서 효과적으로 사용이 가능하다.

  • PDF

영상 특징 추출을 위한 내장형 FAST 하드웨어 가속기 (An Embedded FAST Hardware Accelerator for Image Feature Detection)

  • 김택규
    • 대한전자공학회논문지SP
    • /
    • 제49권2호
    • /
    • pp.28-34
    • /
    • 2012
  • 특징 추출 알고리즘은 영상 내에서 중요한 특징을 추출하기 위해 실시간 영상 처리 응용 분야에서 활용된다. 특히, 특징 추출 알고리즘은 추적 및 식별의 목적으로 다양한 영상처리 알고리즘에 특징 정보를 제공하기 위해서 활용되며, 주로 영상처리 전처리 단계에서 구현되고 있다. 광범위한 응용 분야에 이용되는 특징 추출 알고리즘의 처리 속도를 높인다면 혼합되어 사용될 다른 알고리즘 처리 소요 시간의 여유를 확보 할 수 있을 뿐만 아니라, 특징 추출 알고리즘이 적용된 영상 처리 응용 분야의 실시간 요건을 만족시키기 용이하기 때문에 중요하다. 본 논문에서는 특징 추출 기법을 고속으로 처리하기 위해 FPGA 기반의 하드웨어 가속기를 제안한다. 하드웨어 가속기 구현에 사용된 E. Rosten의 Feature from Accelerated Segment Test 알고리즘과 디지털 로직으로 구현한 하드웨어 가속기의 구조와 동작 절차에 대해 기술하였다. 설계한 하드웨어 가속기는 ModelSim을 이용해 동작 및 성능을 검증하였고, Xilinx Vertex IV FPGA 기반으로 로직을 합성해 구현 비용을 계산하였다. 제안한 하드웨어 가속기를 구현하기 위해 2,217개의 Flip Flop, 5,034개의 LUT, 2,833개의 Slice, 그리고 18개의 Block RAM을 사용하였으며, $640{\times}480$ 크기의 영상으로부터 954개의 특징을 추출하는데 3.06 ms의 시간이 소요되어 기존의 결과보다 구현 비용 면에서의 우월함이 확인되었다.

10-비트 200MS/s CMOS 병렬 파이프라인 아날로그/디지털 변환기의 설계 (The Design of 10-bit 200MS/s CMOS Parallel Pipeline A/D Converter)

  • 정강민
    • 정보처리학회논문지A
    • /
    • 제11A권2호
    • /
    • pp.195-202
    • /
    • 2004
  • 본 연구에서 매우 정밀한 샘플링을 필요로 하는 고해상도 비디오 응용면을 위하여 병렬 파이프라인 아날로그 디지털 변환기(ADC)를 설계하였다. 본 ADC의 구조는 4 채널의 10-비트 파이프라인 ADC를 병력 time-interleave로 구성한 구조로서 이 구조에서 채널 당 샘플링 속도의 4배인 200MS/s의 샘플링 속도를 얻을 수 있었다. 변환기에서 핵심이 되는 구성요소는 Sample and Hold 증폭기(SHA), 비교기와 연산증폭기이며 먼저 SHA를 전단에 설치하여 시스템 타이밍 요구를 완화시키고 고속변환과 고속 입력신호의 처리론 가능하게 하였다. ADC 내부 단들의 1-비트 DAC, 비교기 및 2-이득 증폭기는 한 개의 switched 캐패시터 회로로 통합하여 고속동작은 물론 저 전력소비가 가능한 특성을 갖도록 하였다. 본 연구의 연산증폭기는 2단 차동구조에 부저항소자를 사용하여 높은 DC 이득을 갖도록 보강하였다. 본 설계에서 각 단에 D-플립플롭(D-FF)을 사용한 지연회로를 구성하여 변환시 각 비트신호를 정렬시켜 타이밍 오차를 최소화하였다. 된 변환기는 3.3V 공급전압에서 280㎽의 전력소비를 갖고 DNL과 INL은 각각 +0.7/-0.6LSB, +0.9/-0.3LSB이다.

비트 시리얼 이산 웨이블렛 변환 필터 설계 (Bit-serial Discrete Wavelet Transform Filter Design)

  • 박태근;김주영;노준례
    • 한국통신학회논문지
    • /
    • 제30권4A호
    • /
    • pp.336-344
    • /
    • 2005
  • 이산 웨이블렛 변환(Discrete Wavelet Transform)은 블록효과가 없고 특정시간의 주파수 특징을 잘 표현하여 MPEG4나 JPEG2000의 표준안으로 채택되는 등 많은 응용분야에서 이용되는 변환 방법이다. 본 논문에서는 저 전력, 저 비용 DWT 필터 설계를 위한 두 채널 QMF(Quadracture Mirror Filter) PR(Perfect Reconstruction) 래티스 필터에 대한 비트 시리얼 구조를 제안하였다. 제안된 필터(필터 길이 = 8)는 4개의 래티스로 구성되었으며, 각 단 고정계수의 양자화 비트를 PSNR(peak-signal-to-noise ratio) 분석을 통하여 결정하였고 그에 따른 효율적인 비트 시리얼 곱셈기 구조를 제안하였다. 각 계수는 CSD(Canonic Signed Digit) 인코딩 방법을 이용하여 `0'이 아닌 비트의 수를 최소화함으로써 복잡도를 개선하였다. 제안된 DWT구조는 휴면기간 동안 하위레벨을 처리하는 폴딩(folding) 구조이고 이에 대한 효율적인 스케줄링 방법이 제안되었으며 최소의 하드웨어(플립 플롭, 전가산기)만으로 구현이 가능하다. 제안된 구조는 VerilogHDL로 설계되어 검증되었으며 Hynix 0.35$\mu$m표준셀 라이브러리를 사용하여 합성한 결과, 최대 동작주파수는 200 MHz이며 16클록의 레이턴시(Latency)와 약 175Mbps의 성능을 보였다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

ECDSA 하드웨어 가속기가 내장된 보안 SoC (A Security SoC embedded with ECDSA Hardware Accelerator)

  • 정영수;김민주;신경욱
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.1071-1077
    • /
    • 2022
  • 타원곡선 암호 (elliptic curve cryptography; ECC) 기반의 공개키 기반구조 구현에 사용될 수 있는 보안 SoC(system-on-chip)를 설계하였다. 보안 SoC는 타원곡선 디지털 서명 알고리듬 (elliptic curve digital signature algorithm; ECDSA)용 하드웨어 가속기가 AXI4-Lite 버스를 통해 Cortex-A53 CPU와 인터페이스된 구조를 갖는다. ECDSA 하드웨어 가속기는 고성능 ECC 프로세서, SHA3 (secure hash algorithm 3) 해시 코어, 난수 생성기, 모듈러 곱셈기, BRAM (block random access memory), 그리고 제어 FSM (finite state machine)으로 구성되며, 최소의 CPU 제어로 ECDSA 서명 생성과 서명 검증을 고성능으로 연산할 수 있도록 설계되었다. 보안 SoC를 Zynq UltraScale+ MPSoC 디바이스에 구현하여 하드웨어-소프트웨어 통합 검증을 하였으며, 150 MHz 클록 주파수로 동작하여 초당 약 1,000번의 ECDSA 서명 생성 또는 서명 검증 연산 성능을 갖는 것으로 평가되었다. ECDSA 하드웨어 가속기는 74,630개의 LUT (look-up table)와 23,356개의 플립플롭, 32kb BRAM 그리고 36개의 DSP (digital signal processing) 블록의 하드웨어 자원이 사용되었다.