• 제목/요약/키워드: pipelined parallel architecture

검색결과 38건 처리시간 0.022초

High-Performance Low-Power FFT Cores

  • Han, Wei;Erdogan, Ahmet T.;Arslan, Tughrul;Hasan, Mohd.
    • ETRI Journal
    • /
    • 제30권3호
    • /
    • pp.451-460
    • /
    • 2008
  • Recently, the power consumption of integrated circuits has been attracting increasing attention. Many techniques have been studied to improve the power efficiency of digital signal processing units such as fast Fourier transform (FFT) processors, which are popularly employed in both traditional research fields, such as satellite communications, and thriving consumer electronics, such as wireless communications. This paper presents solutions based on parallel architectures for high throughput and power efficient FFT cores. Different combinations of hybrid low-power techniques are exploited to reduce power consumption, such as multiplierless units which replace the complex multipliers in FFTs, low-power commutators based on an advanced interconnection, and parallel-pipelined architectures. A number of FFT cores are implemented and evaluated for their power/area performance. The results show that up to 38% and 55% power savings can be achieved by the proposed pipelined FFTs and parallel-pipelined FFTs respectively, compared to the conventional pipelined FFT processor architectures.

  • PDF

영상처리를 위한 Pipelined 병렬처리 시스템 (Pipelined Parallel Processing System for Image Processing)

  • 이형;김종배;최성혁;박종원
    • 전기전자학회논문지
    • /
    • 제4권2호
    • /
    • pp.212-224
    • /
    • 2000
  • 본 논문에서는 영상 응용프로그램의 처리 속도를 향상하기 위한 병렬처리 시스템을 제안한다. 병렬처리 시스템은 Pipelined SIMD 구조를 갖고 있으며, 다수개의 처리기와 다중접근 기억장치로 구성된다. 다중접근 기억장치는 메모리 모듈들과 메모리 제어부로 구성되며, 메모리 제어부는 메모리 모듈 선택 모듈, 데이터 라우팅 모듈, 그리고 주소 계산 및 라우팅 모듈로 구성되어 있으며, 블록, 행, 그리고 열 내의 데이터를 동시에 접근할 수 있는 기능을 제공한다. 제안한 병렬처리 시스템을 검증하기 위해서 형태학적 필터를 적용하여 기능 검증 및 처리속도를 확인하였다.

  • PDF

병렬 파이프라인 프로세서 아키덱처의 설계 (Design of a Parallel Pipelined Processor Architecture)

  • 이상정;김광준
    • 전자공학회논문지B
    • /
    • 제32B권3호
    • /
    • pp.11-23
    • /
    • 1995
  • In this paper, a parallel pipelined processor model which acts as a small VLIW processor architecture and a scheduling algorithm for extracting instruction-level parallelism on this architecture are proposed. The proposed model has a dual-instruction mode which has maximum 4 basic operations being executed in parallel. By combining these basic operations, variable instruction set can be designed for various applications. The scheduling algorithm schedules basic operations for parallel execution and removes pipeline hazards by examining data dependency and resource conflict relations. In order to examine operation and evaluate the performance,a C compiler and a simulator are developed. By simulating various test programs with the compiler and the simulator, the characteristics and the performance result of the proposed architecture are measured.

  • PDF

개선된 수정 유클리드 알고리듬을 이용한 고속의 Reed-Solomon 복호기의 설계 (Implementation of High-Speed Reed-Solomon Decoder Using the Modified Euclid's Algorithm)

  • 김동선;최종찬;정덕진
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제48권7호
    • /
    • pp.909-915
    • /
    • 1999
  • In this paper, we propose an efficient VLSI architecture of Reed-Solomon(RS) decoder. To improve the speed. we develope an architecture featuring parallel and pipelined processing. To implement the parallel and pipelined processing architecture, we analyze the RS decoding algorithm and the honor's algorithm for parallel processing and we also modified the Euclid's algorithm to apply the efficient parallel structure in RS decoder. To show the proposed architecture, the performance of the proposed RS decoder is compared to Shao's and we obtain the 10 % efficiency in area and three times faster in speed when it's compared to Shao's time domain decoder. In addition, we implemented the proposed RS decoder with Altera FPGA Flex10K-50.

  • PDF

JPEG2000 이산웨이블릿변환의 컨볼루션기반 non-cascaded 아키텍처를 위한 pipelined parallel 최적화 설계 (A Pipelined Parallel Optimized Design for Convolution-based Non-Cascaded Architecture of JPEG2000 DWT)

  • 이승권;공진흥
    • 대한전자공학회논문지SD
    • /
    • 제46권7호
    • /
    • pp.29-38
    • /
    • 2009
  • 본 연구에서는 실시간 이산웨이블릿변환을 위한 컨볼루션기반 non-cascaded 구조를 구현하고자 병렬곱셈기-중간버퍼-병렬누적기의 고성능 병렬파이프라인 연산회로를 설계하였다. 이산웨이블릿변환의 컨볼루션 곱셈연산은 필터계수의 대칭성과 업/다운 샘플링이 고려된 최적화를 통해서 1/4정도로 감소시킬 수 있으며, 화상데이터와 다수 필터계수들 간의 곱셈과정을 LUT기반의 병렬계수 DA 곱셈기 구조로 구현하면 3$\sim$5배 고속연산처리가 가능하게 된다. 또한 컨볼루션의 곱셈결과를 중간버퍼에 저장하여 누적가산 과정에서 재사용하면 전체 곱셈연산량을 1/2로 감소시켜 연산전력을 절약시킬 수 있다. 중간버퍼는 화상데이터와 필터계수들의 곱셈결과값들을 컨볼루션의 누적가산 과정을 위해 정렬시켜 저장하게 되는데, 이때 병렬누적가산기의 고속 순차검색을 위해 정렬된 병렬저장이 이루어지도록 버퍼관리 구조를 설계한다. 컨볼루션의 병렬곱셈기와 병렬누적가산기는 중간버퍼를 이용한 파이프라인을 구성하게 되는데, 파이프라인 연산처리 효율을 높이기 위해 병렬곱셈기의 연산처리 성능에 맞추어 누적가산기 및 중간버퍼의 병렬화 구조가 결정된다. 설계된 고성능 이산웨이블릿변환기의 성능을 검증하기 위해서 0.18um 라이브러리를 이용한 후반부 설계를 하였으며, 90MHz에서 SVGA(800$\sim$600)영상을 30fps로 실시간 처리함을 확인하였다.

파이프라인 재귀적인 기술을 이용한 면적 효율적인 Reed-Solomon 복호기의 설계 (Design of an Area-Efficient Reed-Solomon Decoder using Pipelined Recursive Technique)

  • 이한호
    • 대한전자공학회논문지SD
    • /
    • 제42권7호
    • /
    • pp.27-36
    • /
    • 2005
  • 본 논문은 무선 및 초고속 광통신등 다양한 통신 시스템에서 사용되는 고속 Reed-Solomon (RS) 복호기의 하드웨어 면적을 줄인 새로운 구조를 소개한다. 특히 folding 기술을 이용하여 높은 처리율(throughput)과 적은 하드웨어 복잡도(hardware complexity)를 가지고 있는 새로운 PrME (Pipelined recursive Modified Euclidean) 구조를 제안한다 제안된 PrME 구조는 일반적으로 사용되는 systolic-array 그리고 완전한 병렬(fully-parallel) 구조와 비교하여 하드웨어 복잡도를 약 80$\%$정도 줄일 수 있다. 제안된 RS 복호기는 1.2 V의 공급전압과 0.13-um CMOS 기술을 사용하여 설계하고 구현하였는데, 총 24,600개의 게이트수, 5-Gbit/s의 데이터 처리율과 클락 주파수 625 MHz에서 동작함을 보여준다. 제안된 면적 효율적인 PrME 구조에 기반한 RS 복호기는 초고속 광통신뿐만 아니라 무선통신을 위한 차세대 FEC구조 등에 바로 적용될 수 있을 것이다.

효율적 구조의 수정 유클리드 구조를 이용한 Reed-Solomon 복호기의 설계 (Implementation of Reed-Solomon Decoder Using the efficient Modified Euclid Module)

  • 김동순;정덕진
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1998년도 추계학술대회 논문집 학회본부 B
    • /
    • pp.575-578
    • /
    • 1998
  • In this paper, we propose a VLSI architecture of Reed-Solomon decoder. Our goal is the development of an architecture featuring parallel and pipelined processing to improve the speed and low power design. To achieve the this goal, we analyze the RS decoding algorithm to be used parallel and pipelined processing efficiently, and modified the Euclid's algorithm arithmetic part to apply the parallel structure in RS decoder. The overall RS decoder are compared to Shao's, and we show the 10% area efficiency than Shao's time domain decoder and three times faster, in addition, we approve the proposed RS decoders with Altera FPGA Flex 10K-50, and Implemeted with LG 0.6{\mu}$ processing.

  • PDF

IP기반 H.264 디코더 설계를 위한 동기식 비선형 및 병렬화 파이프라인 설계 (A design of synchronous nonlinear and parallel for pipeline stage on IP-based H.264 decoder implementation)

  • 고병수;공진흥
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.409-410
    • /
    • 2008
  • This paper presents nonlinear and parallel design for synchronous pipelining in IP-based H.264 decoder implementation. Since H.264 decoder includes the dataflow of feedback loop, the data dependency requires one NOP stage per pipelining latency to drop the throughput into 1/2. Further, it is found that, in execution time, the stage scheduled for MC is more occupied than that for CAVLD/ITQ/DF. The less efficient stage would be improved by nonlinear scheduling, while the fully-utilized stage could be accelerated by parallel scheduling of IP. The optimization yields 3 nonlinear {CAVLD&ITQ}|3 parallel (MC/IP&Rec.)| 3 nonlinear {DF} pipelined architecture for IP-based H.264 decoder. In experiments, the nonlinear and parallel pipelined H.264 decoder, including existing IPs, could deal with full HD video at 41.86MHz, in real time processing.

  • PDF

IEEE 802.11a OFDM System을 위한 파이프라인 구조 IFFT/FFT 모듈의 설계와 비교 (Design and Comparison of the Pipelined IFFT/FFT modules for IEEE 802.11a OFDM System)

  • 이창훈;김주현;강봉순
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.570-576
    • /
    • 2004
  • 본 논문에서는 고속 무선 LAN에서 사용하는 IEEE 802.11a OFDM(Orthogonal Frequency Division Multiplexing)에서 주요 구성인 IFFT/FFT(Inverse Fast Fourier Transform/Fast Fourier Transform)에 대한 설계에 대해 비교하였다. 설계된 IFFT/FFT는 무선 LAN의 표준에 맞게 64 point의 FFT로 연산을 수행하며, S/P(Serial-to-Parallel)이나 P/S(Parallel-to-Serial)변환기가 필요 없는 Pipelined FFT의 구조로 설계하였다. 그 중 Radix-2 알고리즘을 이용한 R22SDF(Radix-2 Single-path Delay Feedback) 방식, R2SDF(Radix-2 Single-path Delay Feedback) 방식과 Radix-4 알고리즘을 이용한 R4SDF(Radix-4 Single-path Delay Feedback) 방식, R4SDC(Radix-4 Single-path Delay Commutator) 방식을 사용하여 비교하였다. 하드웨어 구현 시 발생하는 오차를 줄이기 위해 Butterfly 연산 후 일부 소수점을 가지고 계산하는 구조로 설계하였다. R22SDF 방식을 이용할 경우 메모리를 제외한 전체 게이트 수가 44,747 개로 다른 구조에 비해 적은 하드웨어와 낮은 오차율을 가진다.

파이프라인 구조를 적용한 병렬 CRC 회로 설계 (Pipelined Parallel CRC)

  • 김기태;이현빈;박성주;박창원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.789-792
    • /
    • 2005
  • In this paper, we propose a method that applies pipeline architecture to parallel CRC circuits. We developed a logic partitioning algorithm for applying pipeline architecture. Our algorithm can be used for the polynomial and the input data width, both of arbitrary length and minimize the logic level. Design experiments show the superiority of our approach in reducing the delay in comparison with previous works.

  • PDF