• 제목/요약/키워드: Pipelining Parallel Processing

검색결과 29건 처리시간 0.025초

고성능 멀티미디어 처리용 병렬프로세서 하드웨어 설계 및 구현 (Hardware Design and Implementation of a Parallel Processor for High-Performance Multimedia Processing)

  • 김용민;황철희;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-11
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가 하면서 고성능 멀티미디어 프로세서에 대한 필요성이 증가하고 있다. 본 논문에서는 낮은 소비전력으로 고성능 멀티미디어 애플리케이션을 구현할 수 있는 SIMD기반 병렬프로세서를 제안한다. 제안하는 병렬프로세서는 16개의 프로세싱 엘리먼트로 구성되어 있으며, 3단계 파이프라인 구조로 설계되었다. 모의실험 결과, 제안한 SIMD기반 병렬프로세서는 기존의 병렬프로세서보다 프로세싱 엘리먼트 당 상대 연산 처리량에서 높은 성능을 보였으며, 또한 동일한 130nm 테크놀리지와 720 클록주파수에서 상용 고성능 프로세서인 TI C6416보다 1.4~31.4배의 성능 향상 및 5.9~8.1배의 에너지 효율 향상을 보였다. 제안한 병렬프로세서를 하드웨어 설계언어인 verilog HDL을 이용하여 설계하였고, FPGA를 이용해 검증하였다.

Design and Analysis of MPEG-2 MP@HL Decoder in Multi-Processor Environments

  • Yoo, Seung-Hwan;Lee, Hyun-Seung;Lee, Sang-Jo;Park, Rae-Hong;Kim, Do-Hyung
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2009년도 IWAIT
    • /
    • pp.211-216
    • /
    • 2009
  • As demands for high-definition television (HDTV) increase, the implementation of real-time decoding of high-definition (HD) video becomes an important issue. The data size for HD video is so large that real-time processing of the data is difficult to implement, especially with software. In order to implement a fast moving picture expert group-2 decoder for HDTV, we compose five scenarios that use parallel processing techniques such as data decomposition, task decomposition, and pipelining. Assuming the multi digital signal processor environments, we analyze each scenario in three aspects: decoding speed, L1 memory size, and bandwidth. By comparing the scenarios, we decide the most suitable cases for different situations. We simulate the scenarios in the dual-core and dual-central processing unit environment by using OpenMP and analyze the simulation results.

  • PDF

실시간 멀티미디어 시스템을 위한 새로운 고속 병렬곱셈기 (New High Speed Parallel Multiplier for Real Time Multimedia Systems)

  • 조병록;이명옥
    • 정보처리학회논문지A
    • /
    • 제10A권6호
    • /
    • pp.671-676
    • /
    • 2003
  • 본 논문에서는 고속 병렬 곱셈기에서 속도향상을 위해 부분 곱을 가산하는 과정에 구성되는 CSA(Carry Select Adder) 트리에 새로운 압축기를 적용한 새로운 첫 번째 부분 곱가산(First Partial Product Addition : FPA)를 제안하여 기존의 전가산기를 이용한 병렬가산기보다 부분곱을 계산하는 속도를 약 20% 개선할 수 있게 했다. 새로운 회로는 새로운 FPA 구조를 사용하여 최종 합 CLA 비트를 N/2로 줄인다. 2.5v 0.25um CMOS 기술을 이용하여 제작된 16${\times}$16 곱셈기는 5.14nS의 곱셈 고속을 얻었다. 이 곱셈기의 구조는 파이프라인 설계에 용이하며 고성능을 낸다.

DSP Performance Maximization with Multisample Technique

  • Lee, Hosun;Lawrence K.W. Law;Youngyearl Han
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.471-474
    • /
    • 2000
  • In this paper, we present multisample DSP coding technique for StarCore, SC 140 DSP. The multisample programming is a pipelining technique that exploits operand reuse both coefficients and variables within kernel. A coefficient or operand is loaded once from memory and then the value may be used by multiple ALUs. It is possible to evaluate one intermediate product from each of four output sample calculations in parallel . Therefore, parallelization has been achieved by processing multiple samples in parallel rather than multiple intermediate products belonging to only one sample. The benefits of decreasing the number of memory moves per sample is to increase the algorithm perforomance. In this paper, the multisample technique has been implemented in FIR filter calculation using Motorola StarCore DSP development tool.

  • PDF

VLIW 시스템에서의 최소 시간 지연을 갖는 효율적인 병렬 파이프라인 알고리즘 (An Effective Parallel and Pipelined Algorithm with Minimum Delayed Time in VLIW System)

  • 서장원;송진희;류천열;전문석
    • 한국정보처리학회논문지
    • /
    • 제2권4호
    • /
    • pp.466-476
    • /
    • 1995
  • 본 논문은 VLIW(Very Long Instruction Word) 시스템에 대한 파이프라이닝 알고리 즘 문제와 파이프라인 처리에서 발생되는 시간 지연을 최소화할 수 있는 효율적인 파 이프라인 처리 방법에 대해 서술하였다. 제안된 알고리즘은 병렬로 수행하면서 병렬 파이프라인 처리되며, 기본 오퍼레이션의 조합으로 응용 목적에 따라 다양한 기능을 수행하는 명령어의 설계가 가능하다. 본 논문에서는 프로세서의 파이프라인 알고리즘 효율성과 제안된 방법에 의해 시간 지연이 최소화됨을 다른 파이프라인 방법과의 비교 분석을 통해 증명해 보인다.

  • PDF

목적 코드 레벨에서의 벡터화 기법 (A Vectorization Technique at Object Code Level)

  • 이동호;김기창
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1172-1184
    • /
    • 1998
  • 명령어 재배치는 ILP(Instruction Level Parallelism) 프로세서의 병렬성을 활용하는 주요한 코드 최적화 기법이다. 명령어 재배치 알고리즘을 루프(loop)에 적용하면서 서로 다른 반복(iteration) 사이의 동시 수행 가능한 명령어들이 인접한 위치로 모여지는 소프트웨어 파이프라인(software pipeline)된 루프가 얻어진다. 그러나 루프로부터 병렬성을 추출하는 소프트웨어 파이프라인 방법은 주로 명령어사이의 자료 종속성에 근거하여 스케줄링을 수행하므로 그 자체에 무한한 병렬성을 가지고 있는 벡터 루프의 경우 그 병렬성을 충분히 드러내지 못한다는 문제점을 안고 있다. 본 논문에서는 이러한 벡터루프에 대해 프로그램의 목적 코드 레벨에서 행해질 수 있는 새로운 벡터 스케줄링 방법을 제안한다. 벡터 스케줄링 방법은 프로그램의 목적 코드 레벨에서 루프의 구조나 반복 조건, 그리고 자료 종속성 등에 대한 전체적인 정보에 기반하여 스케줄링을 수행함으로써 소프트웨어 파이프라인 방법보다 프로그램의 수행속도를 향상시킬 수 있다. 본 논문에서는 벡터 스케줄링을 수행한 결과를 전통적인 소프트웨어 파이프라인 방법에 대해 생산된 병렬 루프의 결과와 수행속도 측면에서 비교한다.

  • PDF

FPGA를 사용한 radix-2 16 points FFT 알고리즘 가속기 구현 (Radix-2 16 Points FFT Algorithm Accelerator Implementation Using FPGA)

  • 이규섭;조성민;서승현
    • 정보보호학회논문지
    • /
    • 제34권1호
    • /
    • pp.11-19
    • /
    • 2024
  • 최근 신호처리, 암호학 등 다양한 분야에서 FFT(Fast Fourier Transform)의 활용이 증가함에 따라 최적화 연구의 중요성이 대두되고 있다. 본 논문에서는 FPGA(Field Programmable Gate Array) 하드웨어를 사용하여 radix-2 16 points FFT 알고리즘을 기존 연구들보다 빠르고 효율적으로 처리하는 가속기 구현 연구에 대해 기술한다. FPGA가 갖는 병렬처리 및 파이프라이닝 등의 하드웨어 이점을 활용하여 PL(Programmable Logic) 파트에서 Verilog 언어를 통해 FFT Logic을 설계 및 구현한다. 이후 PL 파트에서의 처리 시간 비교를 위해 PS(Processing System) 파트에서 Zynq 프로세서만을 사용하여 구현 후, 연산 시간을 비교한다. 또한 관련 연구와의 비교를 통해 본 구현 방법의 연산 시간 및 리소스 사용의 효율성을 보인다.

Multi-Band OFDM UWB 시스템용 변형된 가변 파라미터를 이용한 큐빅 인터폴레이터의 설계 및 구현 (Design and Implementation of the Modified Cubic Interpolator Based on Variable Parameters for Multi-Band OFDM UWB System)

  • 김상동;이종훈;정우영;정정화
    • 대한임베디드공학회논문지
    • /
    • 제1권1호
    • /
    • pp.20-23
    • /
    • 2006
  • 본 논문은 MB-OFDM UWB(Multi Band-Orthogonal Frequency Division Multiplexing Ultra Wide Band) 시스템을 위한 변형된 가변 파라미터를 이용한 큐빅 인터폴레이터를 제안한다. MB-OFDM UWB 시스템은 고속의 동작속도가 필요하기 때문에, 기존 가변 파라미터를 이용한 큐빅 인터폴레이터에 병렬 처리 기술과 파이프라인 기법을 동시에 적용한다. 실험 결과, Stratix II 2S60F101020C3 디바이스를 타켓으로 최대지연경로 속도와 최대지연경로 주기가 각각 최대 88.79MHz와 11.262ns가 되었고, 동작속도는 최대 대략 200% 이상 향상되었음을 알 수 있다.

  • PDF

범용 DSP를 이용한 MPEG-2 오디오 부호화기의 성능 개선 (An Enhancement of the MPEG-2 Audio Encoder Using General DSPs)

  • 오현오;김성윤;윤대희;차일환;이준용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1997년도 학술대회
    • /
    • pp.63-67
    • /
    • 1997
  • The ISO(International Standard Organization) has standardized MPEG-2 audio. The MPEG-2 audio compression algorithm is based upon subband analysis and exploits the human auditory characteristics to achieve a low bit rate with minimum perceptual loss of audio signal quality. This thesis presents an enhanced MPEG-2 audio encoder using multiple TMS320C30 general purpose DSP's. The developed system is made up of five slave boards and one master board. Each slave board performs susband analysis psychoacoustic parameter calculation for one channel, and the master board manages bit allocation, quantization, and bit-stream formatting for all channels. Parallel processing and pipelining techniques are used in hardware structure and fast algorithms are applied in each subroutine to implement a real-time process. The implemented system supports multichannel up to 5.1 and various bitrates.

  • PDF

UHD TV 영상신호처리를 위한 프로그래머블 멀티미디어 플랫폼 (Programmable Multimedia Platform for Video Processing of UHD TV)

  • 김재현;박구만
    • 방송공학회논문지
    • /
    • 제20권5호
    • /
    • pp.774-777
    • /
    • 2015
  • 본 논문에서는 8K(7680x4320) UHD(Ultra High Definition) TV에서의 화질 향상을 위한 영상신호 처리용 프로그래머블 비디오 프로세싱 플랫폼을 세계 최초로 제안하였다. 8K 영상을 초당 60 프레임으로 처리하기 위해서는 고성능 컴퓨팅 능력과 대용량의 메모리 대역폭이 지원되어야 한다. 제안한 아키텍처에서는 입력 영상의 병렬처리를 위한 멀티 클러스터 구조, 클러스터 간이 데이터 파이프라이닝을 위한 링 데이터 패스 구조 및 필터링 연산을 위한 하드웨어 가속기로 구성되었다. 재구성형 프로세서(Reconfigurable Processor) 기반의 제안된 플랫폼은 다양한 화질향상 알고리즘을 구동할 수 있으며, UHD 방송 표준 및 디스플레이 패널 변동성에 알고리즘의 업데이트만으로 대응이 가능한 큰 장점을 갖고 있다.