• 제목/요약/키워드: pipelining

검색결과 141건 처리시간 0.027초

High-Speed Low-Complexity Reed-Solomon Decoder using Pipelined Berlekamp-Massey Algorithm and Its Folded Architecture

  • Park, Jeong-In;Lee, Ki-Hoon;Choi, Chang-Seok;Lee, Han-Ho
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제10권3호
    • /
    • pp.193-202
    • /
    • 2010
  • This paper presents a high-speed low-complexity pipelined Reed-Solomon (RS) (255,239) decoder using pipelined reformulated inversionless Berlekamp-Massey (pRiBM) algorithm and its folded version (PF-RiBM). Also, this paper offers efficient pipelining and folding technique of the RS decoders. This architecture uses pipelined Galois-Field (GF) multipliers in the syndrome computation block, key equation solver (KES) block, Forney block, Chien search block and error correction block to enhance the clock frequency. A high-speed pipelined RS decoder based on the pRiBM algorithm and its folded version have been designed and implemented with 90-nm CMOS technology in a supply voltage of 1.1 V. The proposed RS(255,239) decoder operates at a clock frequency of 700 MHz using the pRiBM architecture and also operates at a clock frequency of 750 MHz using the PF-RiBM, respectively. The proposed architectures feature high clock frequency and low-complexity.

고집적, 저전력 특성을 갖는 저잡음 IIR 필터 설계 (Design of low-noise II R filter with high-density and low-power properties)

  • 배성환;김대익
    • 정보처리학회논문지A
    • /
    • 제12A권1호
    • /
    • pp.7-12
    • /
    • 2005
  • Scattered look-ahead (SLA) 파이프라인 방법은 디지털 IIR 필터의 고속 또는 저전력 응용분야에 효율적으로 사용된 수 있다. 그러나 이 방법을 통하여 파이프라인된 필터의 안정성이 보장될 수 있지만 필터의 극점들이 임계지역에 밀집될 때에는 큰 라운드오프 잡음에 영향을 받게 된다. 파이프라인된 필터에서 밀집된 극점들을 피하기 위해 수정된 Remez exchange 알고리즘과 최소 자승법을 이용하여 극점의 각도와 반지름을 제한한 IIR 필터 설계 방식을 제안하였으며, 그 결과 향상된 주파수 응답과 감소된 계수 민감도를 얻을 수 있었다. 또한 모의실험 결과를 통하여 제안된 방법이 일반적인 방법에 비해 $33{\%}$의 면적감소와 $45{\%}$의 전력을 감소시킴을 확인하였다.

실시간 멀티미디어 시스템을 위한 새로운 고속 병렬곱셈기 (New High Speed Parallel Multiplier for Real Time Multimedia Systems)

  • 조병록;이명옥
    • 정보처리학회논문지A
    • /
    • 제10A권6호
    • /
    • pp.671-676
    • /
    • 2003
  • 본 논문에서는 고속 병렬 곱셈기에서 속도향상을 위해 부분 곱을 가산하는 과정에 구성되는 CSA(Carry Select Adder) 트리에 새로운 압축기를 적용한 새로운 첫 번째 부분 곱가산(First Partial Product Addition : FPA)를 제안하여 기존의 전가산기를 이용한 병렬가산기보다 부분곱을 계산하는 속도를 약 20% 개선할 수 있게 했다. 새로운 회로는 새로운 FPA 구조를 사용하여 최종 합 CLA 비트를 N/2로 줄인다. 2.5v 0.25um CMOS 기술을 이용하여 제작된 16${\times}$16 곱셈기는 5.14nS의 곱셈 고속을 얻었다. 이 곱셈기의 구조는 파이프라인 설계에 용이하며 고성능을 낸다.

가우시안 혼합 모델을 이용한 이동 객체 검출 알고리듬의 하드웨어 구현 (A Hardware Implementation of Moving Object Detection Algorithm using Gaussian Mixture Model)

  • 김경훈;안효식;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.407-409
    • /
    • 2015
  • 가우시안 혼합 모델(GMM)과 배경 차분 기법을 이용한 이동 객체 검출(MOD) 알고리듬을 하드웨어로 구현하였다. 구현된 MOD 프로세서는 EGML(Effective Gaussian Mixture Learning)을 기반으로 배경을 생성하고 업데이트하며, EGML 계산 일부의 근사화를 통해 하드웨어 복잡도를 줄였고, 파이프라이닝 기법을 통해 동작속도를 개선하였다. 또한 가우시안 파라미터들을 가변시킬 수 있도록 함으로써 다양한 조건에서 이동 객체 검출 성능이 향상되도록 구현하였다. 설계된 회로는 FPGA-in-the-loop방식으로 하드웨어 동작을 검증하였으며, XC5VSX95T FPGA 디바이스에서 최대 109 MHz의 클록 주파수로 동작 가능한 것으로 평가되었다.

  • PDF

Physical-Aware Approaches for Speeding Up Scan Shift Operations in SoCs

  • Lee, Taehee;Chang, Ik Joon;Lee, Chilgee;Yang, Joon-Sung
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.479-486
    • /
    • 2016
  • System-on-chip (SoC) designs have a number of flip-flops; the more flip-flops an SoC has, the longer the associated scan test application time will be. A scan shift operation accounts for a significant portion of a scan test application time. This paper presents physical-aware approaches for speeding up scan shift operations in SoCs. To improve the speed of a scan shift operation, we propose a layout-aware flip-flop insertion and scan shift operation-aware physical implementation procedure. The proposed combined method of insertion and procedure effectively improves the speed of a scan shift operation. Static timing analyses of state-of-the-art SoC designs show that the proposed approaches help increase the speeds of scan shift operations by up to 4.1 times that reached under a conventional method. The faster scan shift operation speeds help to shorten scan test application times, thus reducing test costs.

High-throughput and low-area implementation of orthogonal matching pursuit algorithm for compressive sensing reconstruction

  • Nguyen, Vu Quan;Son, Woo Hyun;Parfieniuk, Marek;Trung, Luong Tran Nhat;Park, Sang Yoon
    • ETRI Journal
    • /
    • 제42권3호
    • /
    • pp.376-387
    • /
    • 2020
  • Massive computation of the reconstruction algorithm for compressive sensing (CS) has been a major concern for its real-time application. In this paper, we propose a novel high-speed architecture for the orthogonal matching pursuit (OMP) algorithm, which is the most frequently used to reconstruct compressively sensed signals. The proposed design offers a very high throughput and includes an innovative pipeline architecture and scheduling algorithm. Least-squares problem solving, which requires a huge amount of computations in the OMP, is implemented by using systolic arrays with four new processing elements. In addition, a distributed-arithmetic-based circuit for matrix multiplication is proposed to counterbalance the area overhead caused by the multi-stage pipelining. The results of logic synthesis show that the proposed design reconstructs signals nearly 19 times faster while occupying an only 1.06 times larger area than the existing designs for N = 256, M = 64, and m = 16, where N is the number of the original samples, M is the length of the measurement vector, and m is the sparsity level of the signal.

UHD TV 영상신호처리를 위한 프로그래머블 멀티미디어 플랫폼 (Programmable Multimedia Platform for Video Processing of UHD TV)

  • 김재현;박구만
    • 방송공학회논문지
    • /
    • 제20권5호
    • /
    • pp.774-777
    • /
    • 2015
  • 본 논문에서는 8K(7680x4320) UHD(Ultra High Definition) TV에서의 화질 향상을 위한 영상신호 처리용 프로그래머블 비디오 프로세싱 플랫폼을 세계 최초로 제안하였다. 8K 영상을 초당 60 프레임으로 처리하기 위해서는 고성능 컴퓨팅 능력과 대용량의 메모리 대역폭이 지원되어야 한다. 제안한 아키텍처에서는 입력 영상의 병렬처리를 위한 멀티 클러스터 구조, 클러스터 간이 데이터 파이프라이닝을 위한 링 데이터 패스 구조 및 필터링 연산을 위한 하드웨어 가속기로 구성되었다. 재구성형 프로세서(Reconfigurable Processor) 기반의 제안된 플랫폼은 다양한 화질향상 알고리즘을 구동할 수 있으며, UHD 방송 표준 및 디스플레이 패널 변동성에 알고리즘의 업데이트만으로 대응이 가능한 큰 장점을 갖고 있다.

이미지 압축을 위한 Lifting Scheme을 이용한 병렬 2D-DWT 하드웨어 구조 (Parallel 2D-DWT Hardware Architecture for Image Compression Using the Lifting Scheme)

  • 김종욱;정정화
    • 전기전자학회논문지
    • /
    • 제6권1호
    • /
    • pp.80-86
    • /
    • 2002
  • 본 논문에서는 2차원 분할을 이용한 병렬 처리가 가능한 리프팅 스킴(lifting scheme) DWT(Discrete Wavelet Transform)를 구현하는 하드웨어 구조를 제안한다. 기존의 DWT 하드웨어 구조는 웨이블릿(Wavelet) 변환이 갖는 특성 때문에 병렬 처리 구조를 구현하는 데 있어서 메모리와 하드웨어 자원이 많이 필요하였다. 제안된 구조는 기존의 구조와 달리 데이터 흐름을 분석하여, 분할 과정을 2차원으로 수행하는 방법을 제안하였다. 이러한 2차원 분할 방법을 파이프라인 구조를 사용하여 병렬 처리의 효율을 증가 시켜 50% 정도의 출력 지연의 감소된 결과를 얻을 수 있었다. 또한 데이터 흐름의 분석과 출력 지연의 감소는 내부 메모리의 사용을 감소 시했으며, 리프팅 스킴의 특성을 이용하여 외부 메모리의 사용을 감소시키는 결과를 얻을 수 있다.

  • PDF

비 검출 및 제거 알고리즘의 DSP 최적화 (DSP Optimization for Rain Detection and Removal Algorithm)

  • 최동윤;서승지;송병철
    • 전자공학회논문지
    • /
    • 제52권9호
    • /
    • pp.96-105
    • /
    • 2015
  • 본 논문은 비 검출 및 제거 알고리즘의 DSP 최적화 기법을 제안한다. 우리는 카메라 움직임이 있는 환경에서 비 검출 및 제거 기법을 제안하고, 알고리즘 레벨 및 DSP 레벨에서 최적화를 수행한다. 제안하는 기법은 알고리즘 측면에서 기존에 활용하던 라벨링을 블록 단위의 이진 패턴 분석을 통해 오 검출 영역을 제거하는 방식으로 대체하였고 고속 움직임 추정 알고리즘을 이용하여 연산 시간을 개선하였다. DSP 측면에서는 내부 메모리 최적화와 EMDA이용, 소프트웨어 파이프라인 등을 통한 최적화를 통해 임베디드 환경에서 실시간성을 보이며 실험 결과에서는 제안 기법의 성능과 시간 측면의 우수성을 보여준다.

DPCM-GR 방식을 이용한 CUDA 기반 초고해상도 게임 영상 무손실 비동기 압축 (CUDA based Lossless Asynchronous Compression of Ultra High Definition Game Scenes using DPCM-GR)

  • 김영식
    • 한국게임학회 논문지
    • /
    • 제14권6호
    • /
    • pp.59-68
    • /
    • 2014
  • 초고해상도 UHD($096{\times}2160$) 게임 영상의 메모리 대역폭 요구량은 기하급수적으로 늘어난다. 본 논문에서는 화질 저하 없이 메모리 대역폭 문제를 해결하기 위하여 CUDA 환경에서 비트 병렬 파이프라인을 지원하는 논문 [4]의 DDPCM-GR 압축 알고리즘을 변형한 DPCM-GR 방식을 적용한 무손실 압축을 구현하였다. CUDA 공유메모리 사용을 통한 효율성을 증대하였으며, paged-locked 호스트 메모리 비동기 전송을 통한 커널과 데이터 전송 중첩의 다양한 구성을 구현하였다. 실험을 통하여 CPU 방식에 비하여 최대 31.3배 속도 향상을 이루었으며, 비동기 전송 구성의 변화를 통하여 최대 30.3% 수행 시간이 감소하였다.