• 제목/요약/키워드: SIMD parallel processor

검색결과 35건 처리시간 0.026초

A Novel Reconfigurable Processor Using Dynamically Partitioned SIMD for Multimedia Applications

  • Lyuh, Chun-Gi;Suk, Jung-Hee;Chun, Ik-Jae;Roh, Tae-Moon
    • ETRI Journal
    • /
    • 제31권6호
    • /
    • pp.709-716
    • /
    • 2009
  • In this paper, we propose a novel reconfigurable processor using dynamically partitioned single-instruction multiple-data (DP-SIMD) which is able to process multimedia data. The SIMD processor and parallel SIMD (P-SIMD) processor, which is composed of a number of SIMD processors, are usually used these days. But these processors are inefficient because all processing units (PUs) should process the same operations all the time. Moreover, the PUs can process different operations only when every SIMD group operation is predefined. We propose a processor control method which can partition parallel processors into multiple SIMD-based processors dynamically to enhance efficiency. For performance evaluation of the proposed method, we carried out the inverse transform, inverse quantization, and motion compensation operations of H.264 using processors based on SIMD, P-SIMD, and DP-SIMD. Experimental results show that the DP-SIMD control method is more efficient than SIMD and P-SIMD control methods by about 15% and 14%, respectively.

임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현 (Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors)

  • 정용범;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권3호
    • /
    • pp.99-108
    • /
    • 2011
  • 프로세서 기술은 공정비용의 증가와 전력 소모 때문에 단순 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 병렬 프로세싱 기술 발전이 이루어지고 있다. 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효과적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개하고, 또한 이러한 SIMD 기반 병렬 프로세서 아키텍처에서 이미지/비디오 픽셀을 효율적으로 처리 가능한 픽셀 서브워드 병렬처리 명령어를 제안한다. 제안하는 픽셀 서브워드 병렬처리 명령어는 48비트 데이터패스 아키텍처에서 4개의 12비트로 분할된 레지스터에 4개의 8비트 픽셀을 저장하고 동시에 처리함으로써 기존의 멀티미디어 전용 명령어에서 발생하는 오버플로우 및 이를 해결하기 위해 사용되는 패킹/언팽킹 수행의 상당한 오버헤드를 줄일 수 있다. 동일한 SIMD 기반 병렬 프로세서 아키텍처에서 모의 실험한 결과, 제안한 픽셀 서브워드 병렬처리 명령어는 baseline 프로그램보다 2.3배의 성능 향상을 보인 반면, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX 타입 명령어는 baseline 프로그램보다 단지 1.4배의 성능 향상을 보였다. 또한, 제안한 명령어는 baseline 프로그램보다 2.5배의 에너지 효율 향상을 보인 반면, MMX 타입 명령어는 baseline 프로그램보다 단지 1.8배의 에너지 효율 향상을 보였다.

기타의 음 합성을 위한 병렬 프로세서 구현 (Implementation of Parallel Processor for Sound Synthesis of Guitar)

  • 최지원;김용민;조상진;김종면;정의필
    • 한국음향학회지
    • /
    • 제29권3호
    • /
    • pp.191-199
    • /
    • 2010
  • 물리적 모델링은 실제 악기음과 유사한 고음질의 음을 합성하는 방법이다. 그러나 물리적 모델링은 악기의 소리를 합성할 때 필요한 수많은 파라미터들을 동시에 계산해야 하기 때문에 동시 발음수가 높은 악기의 경우 실시간 처리에 문제가 발생할 수 있다. 이러한 문제를 해결하기 위해 본 논문에서는 기타의 음 합성 알고리즘을 실시간으로 처리 가능한 단일 명령어 다중 데이터 (Single Instruction Multiple Data, SIMD)처리 방식의 병렬 프로세서를 제안한다. 대표적인 현악기인 기타의 6개 현을 제어하기 위해 6개의 프로세싱 엘리먼트 (Processing Element, PE)로 구성된 SIMD기반 병렬 프로세서를 사용하였다. 각각의 프로세싱 엘리먼트는 해당되는 기타 현을 모델링하며, 각 현의 여기신호와 파라미터를 합성 병렬 알고리즘의 입력으로 받아 동시에 6개 현의 합성된 음을 실시간으로 생성할 수 있다. 표본화 비율을 44.1 kHz로 설정하고 16비트 양자화 데이터의 음을 합성한 모의 실험 결과, 제안한 SIMD기반 병렬 프로세서를 이용한 합성음은 원음과 매우 유사하였으며, 상용 프로세서인 TI사의 TMS320C6416보다 실행 시간에서 8.9배, 에너지 효율에서 39.8배의 성능 향상을 보였다.

JPEG 인코더를 위한 고성능 병렬 프로세서 하드웨어 설계 및 검증 (Design and Verification of High-Performance Parallel Processor Hardware for JPEG Encoder)

  • 김용민;김종면
    • 대한임베디드공학회논문지
    • /
    • 제6권2호
    • /
    • pp.100-107
    • /
    • 2011
  • As the use of mobile multimedia devices is increasing in the recent year, the needs for high-performance multimedia processors are increasing. In this regard, we propose a SIMD (Single Instruction Multiple Data) based parallel processor that supports high-performance multimedia applications with low energy consumption. The proposed parallel processor consists of 16 processing elements(PEs) and operates on a 3-stage pipelining. Experimental results for the JPEG encoding algorithm indicate that the proposed parallel processor outperforms conventional parallel processors in terms of performance and energy efficiency. In addition, the proposed parallel processor architecture was developed and verified with verilog HDL and a FPGA prototype system.

SIMD상에서의 이차선별법을 사용한 병렬 소인수분해 알고리즘 (Parallel Factorization using Quadratic Sieve Algorithm on SIMD machines)

  • 김양희
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.36-41
    • /
    • 2001
  • 본 논문에서는 첫째로 큰 정수의 소인수 분해를 위한 병렬 이차선별법(parallel quadratic sieve) 알고리즘을 제시한다. 이 알고리즘을 반복적으로 사용하여, 분산 메모리 모델(DMM)을 갖는 SIMD구조의 병렬 컴퓨터 상에서 분할정복기법을 사용하는 병력 소인수 분해(parallel factoring) 알고리즘을 제시한다. 또한 이러한 알고리즘이 시간과 프로세서의 곱의 관점에서 최적화 알고리즘임을 보인다.

  • PDF

임베디드 병렬 프로세서 상에서 MMX타입 명령어의 성능평가 및 검증 (Performance Evaluation and Verification of MMX-type Instructions on an Embedded Parallel Processor)

  • 정용범;김용민;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.11-21
    • /
    • 2011
  • 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효율적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개한다. 또한, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX (MultiMedia eXtension)타입 명령어를 병렬 프로세서에 구현하여 성능을 평가하고 결과를 분석한다. 16개의 32-비트 프로세서로 구성된 병렬프로세서를 이용하여 1280x1024픽셀 이미지의 JPEG 압축 애플리케이션을 구현하고 모의 실험한 결과, 동일한 병렬프로세서 기반에서 MMX타입 명령어는 베이스라인 명령어보다 약 50%의 성능 향상을 보였다. 또한, MMX타입 명령어는 베이스라인 명령어보다 에너지 효율에서 100%, 시스템 면적 효율에서 51%의 향상을 보였다. 이러한 결과는 MMX를 포함한 멀티미디어 전용 명령어들이 현재 널리 사용되고 있는 매니코어 GPU(Graphics Processing Unit) 및 다양한 형태의 병렬프로세서에서도 잠재 가능성이 있음을 보여준다.

모바일 멀티미디어의 효율적 처리를 위한 재구성형 병렬 프로세서의 구조 (A Reconfigurable Parallel Processor for Efficient Processing of Mobile Multimedia)

  • 유세훈;김기철;양일석;노태문
    • 대한전자공학회논문지SD
    • /
    • 제44권10호
    • /
    • pp.23-32
    • /
    • 2007
  • 본 논문에서는 3D 그래픽스(graphics), H.264/H.263/MPEG-4 같은 동영상 코덱, JPEG 혹은 JPEG2000 같은 정지영상 코덱, MP3 같은 오디오 코덱 등 다양한 멀티미디어 관련 기술을 효율적으로 구현하기 위한 재구성형 병렬 프로세서 구조가 제안된다. 제안된 구조는 메모리와 프로세서를 직접 연결하여 메모리 접근 시간과 소비전력를 감소시키고, 3D 그래픽스 처리 과정중 기하 단계의 부동소수점 연산을 지원한다. 또한 분할 SIMD(partitioned SIMD) 방식을 사용하여 하드웨어 비용을 줄이고, 명령어(instruction)의 조건부 실행(conditional execution)을 지원하여 알고리듬 개발이 용이하다.

고성능 멀티미디어 처리용 병렬프로세서 하드웨어 설계 및 구현 (Hardware Design and Implementation of a Parallel Processor for High-Performance Multimedia Processing)

  • 김용민;황철희;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-11
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가 하면서 고성능 멀티미디어 프로세서에 대한 필요성이 증가하고 있다. 본 논문에서는 낮은 소비전력으로 고성능 멀티미디어 애플리케이션을 구현할 수 있는 SIMD기반 병렬프로세서를 제안한다. 제안하는 병렬프로세서는 16개의 프로세싱 엘리먼트로 구성되어 있으며, 3단계 파이프라인 구조로 설계되었다. 모의실험 결과, 제안한 SIMD기반 병렬프로세서는 기존의 병렬프로세서보다 프로세싱 엘리먼트 당 상대 연산 처리량에서 높은 성능을 보였으며, 또한 동일한 130nm 테크놀리지와 720 클록주파수에서 상용 고성능 프로세서인 TI C6416보다 1.4~31.4배의 성능 향상 및 5.9~8.1배의 에너지 효율 향상을 보였다. 제안한 병렬프로세서를 하드웨어 설계언어인 verilog HDL을 이용하여 설계하였고, FPGA를 이용해 검증하였다.

데이터 중첩을 통한 페트리네트의 병렬 시뮬레이션 (Parallel Simulation of Bounded Petri Nets using Data Packing Scheme)

  • 김영찬;김탁곤
    • 한국시뮬레이션학회논문지
    • /
    • 제11권2호
    • /
    • pp.67-75
    • /
    • 2002
  • This paper proposes a parallel simulation algorithm for bounded Petri nets in a single processor, which exploits the SIMD(Single Instruction Multiple Data)-type parallelism. The proposed algorithm is based on a data packing scheme which packs multiple bytes data in a single register, thereby being manipulated simultaneously. The parallelism can reduce simulation time of bounded Petri nets in a single processor environment. The effectiveness of the algorithm is demonstrated by presenting speed-up of simulation time for two bounded Petri nets.

  • PDF

Content-Addressable Memory를 이용한 확장 가능한 범용 병렬 Associative Processor 설계 (Design of a scalable general-purpose parallel associative processor using content-addressable memory)

  • 박태근
    • 대한전자공학회논문지SD
    • /
    • 제43권2호
    • /
    • pp.51-59
    • /
    • 2006
  • 일반 컴퓨터에서 중앙처리장치와 메모리 사이의 병목현상인 "Von Neumann Bottleneck"을 보이는데 본 논문에서는 이러한 문제점을 해소하고 검색위주의 응용분야에서 우수한 성능을 보이는 Content-addressable memory(CAM) 기반의 확장 가능한 범용 Associative Processor(AP) 구조를 제안하였다. 본 연구에서는 Associative computing을 효율적으로 수행할 수 있는 명령어 세트를 제안하였으며 다양하고 대용량 응용분야에도 적용할 수 있도록 구조를 확장 가능하게 설계함으로써 유연한 구조를 갖는다. 12 가지의 명령어가 정의되었으며 프로그램이 효율적으로 수행될 수 있도록 명령어 셋을 구성하고 연속된 명령어를 하나의 명령어로 구현함으로써 처리시간을 단축하였다. 제안된 프로세서는 bit-serial, word-parallel로 동작하며 대용량 병렬 SIMD 구조를 갖는 32 비트 범용 병렬 프로세서로 동작한다. 포괄적인 검증을 위하여 명령어 단위의 검증 뿐 아니라 최대/최소 검색, 이상/이하 검색, 병렬 덧셈 등의 기본적인 병렬 알고리즘을 검증하였으며 알고리즘은 처리 데이터의 개수와는 무관한 상수의 복잡도 O(k)를 갖으며 데이터의 비트 수만큼의 이터레이션을 갖는다.