• 제목/요약/키워드: SIMD Architecture

검색결과 60건 처리시간 0.037초

Advanced SIMD를 이용한 화면 간 예측 고속화방법 (Acceleration Method of Inter Prediction using Advanced SIMD)

  • 김완수;이재흥
    • 전기전자학회논문지
    • /
    • 제16권4호
    • /
    • pp.382-388
    • /
    • 2012
  • 본 논문에서는 ARM Cortex-A9 듀얼코어 플랫폼에서 지원하는 병렬처리 기법 중 하나인 Advanced SIMD기반의 NEON을 적용한 H.264/AVC 고속화 움직임추정 방법론을 연구하였다. 다양한 움직임추정 방법 중 하나인 전역탐색기법에 NEON을 적용하여 각 매크로블록의 SAD 연산횟수를 1/4 감소시켰다. 해당 매크로블록의 픽셀 값들을 8개의 16bit NEON 레지스터에 할당하였고, NEON에서 지원하는 Intrinsic 함수를 사용하여 동시에 128bit 연산을 수행하였다. 이러한 방법으로 계산된 SAD 값들 중 최소 SAD 값을 가지고 정확한 모션벡터를 선정했다. 그 결과 영상의 크기 및 매크로블록의 크기에 따라 성능이 평균 30% 이상 향상되는 효과를 검증하였다.

실시간 Dense Disparity Map 추출을 위한 고성능 가속기 구조 설계 (High Performance Coprocessor Architecture for Real-Time Dense Disparity Map)

  • 김정길;;김신덕
    • 정보처리학회논문지A
    • /
    • 제14A권5호
    • /
    • pp.301-308
    • /
    • 2007
  • 본 논문에서는 위상기반 양안스테레오정합 알고리즘을 이용, 실시간으로 dense disparity map을 추출 가능한 고성능 가속기 구조를 설계하였다. 채택된 알고리즘은 웨이블릿 기반의 위상차 기법의 강건성과 위상상관 기법의 기본적인 control 기법을 결합한 Local Weighted Phase Correlation(LWPC) 스테레오정합 알고리즘으로서 4개의 주요 단계로 구성이 되어 있다. 해당 알고리즘의 효율적인 병렬 하드웨어의 설계를 위하여, 제안된 가속기는 각 단계의 기능블록은 SIMD(Single Instruction Multiple Data Stream) 모드로 동작하게 되며, 전체적으로 각 기능 블록은 파이프라인(pipeline) 모드로 실행된다. 그 결과 제안된 구조에서 제시된 파이프라인 동작 모드의 선형 배열 프로세서는 행렬 순차수행 방법에 의한 2차원 영상처리에서 전치메모리의 필요를 제거하면서도 연산의 일반성과 고효율을 유지하게 한다. 제안된 하드웨어 구조는 Xilinx HDL을 이용하여 필요한 하드웨어 자원을 look up table, flip flop, slice, memory의 소모량으로 표현하였으며, 그 결과 실시간 처리 성능의 단일 칩 구현 가능성을 보여주었다.

영상처리를 위한 Pipelined 병렬처리 시스템 (Pipelined Parallel Processing System for Image Processing)

  • 이형;김종배;최성혁;박종원
    • 전기전자학회논문지
    • /
    • 제4권2호
    • /
    • pp.212-224
    • /
    • 2000
  • 본 논문에서는 영상 응용프로그램의 처리 속도를 향상하기 위한 병렬처리 시스템을 제안한다. 병렬처리 시스템은 Pipelined SIMD 구조를 갖고 있으며, 다수개의 처리기와 다중접근 기억장치로 구성된다. 다중접근 기억장치는 메모리 모듈들과 메모리 제어부로 구성되며, 메모리 제어부는 메모리 모듈 선택 모듈, 데이터 라우팅 모듈, 그리고 주소 계산 및 라우팅 모듈로 구성되어 있으며, 블록, 행, 그리고 열 내의 데이터를 동시에 접근할 수 있는 기능을 제공한다. 제안한 병렬처리 시스템을 검증하기 위해서 형태학적 필터를 적용하여 기능 검증 및 처리속도를 확인하였다.

  • PDF

멀티코어 GP-GPU를 이용한 지오메트리 처리 (Geometry Processing using Multi-Core GP-GPU)

  • 이광엽;김치용
    • 전기전자학회논문지
    • /
    • 제14권2호
    • /
    • pp.69-75
    • /
    • 2010
  • 3D 그래픽 처리 과정은 크게 지오메트리 단계와 렌더링 단계로 구분된다. 본 논문에서는 듀얼페이즈 멀티코어 GP-GPU에서 지오메트리 처리를 가속화시키기 위한 방법을 제안한다. GP-GPU의 SIMD, 듀얼페이즈 구조를 이용한 병렬적 데이터 처리와 메모리 프리패치를 이용하여, 지오메트리 처리를 가속화 시킬 수 있었으며, 모든 기능을 사용할 시 19%의 성능 향상을 나타내었다.

SIMD 명령어가 추가된 VLIW ASIP 프로세서 (SIMD Extended VLIW ASIP architecture)

  • 양승준;박상현;허인구;이종원;김용주;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1589-1590
    • /
    • 2010
  • VLIW 아키텍처는 동시에 여러 개의 명령어를 수행하면서도 상대적으로 크기가 작으며 적은 전력을 소모한다는 장점 때문에 임베디드 어플리케이션을 처리하기 위해 많이 쓰이고 있다. 본 논문에서는 SIMD 명령어를 추가한 VLIW 아키텍처를 설계함으로써 동영상 처리와 같은 미디어 어플리케이션을 효과적으로 처리할 수 있도록 하였다.

처리기에 지역 버퍼 메모리 시스템을 지원하는 다중접근기억장치 (Multiaccess Memory System supporting Local Buffer Memory System to Processing Elements)

  • 이형
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.30-37
    • /
    • 2012
  • 선형 비틀림 구조를 갖는 메모리 시스템은 SIMD 구조에 적합한 메모리 시스템으로써, 2차원 데이터 배열인 $M{\times}N$에서 임의의 위치로부터 임의의 간격을 갖고 다양한 접근형태들로, m개의 메모리 모듈들에서 n개의 데이터를 동시에 접근할 수 있다. 그러나 이러한 메모리 시스템은 논리적인 2차원 $M{\times}N$ 데이터 배열을 지원하기 위해 $m{\times}cells$의 물리적인 메모리 용량이 필요하지만, 적어도 (m-n)${\times}cells$만큼의 메모리 셀은 사용되지 않는다. 여기서 cells는 (M-1)/q+(N-1)/$p{\times}{\lceil}M/q{\rceil}+1$이다. 본 논문에서는 이러한 메모리 시스템의 모든 기능들을 수용하면서 t>0인 조건 하에 사용되지 않는 메모리 셀들 중 $(n{\times}t){\times}N/p$ 만큼을 n개의 처리기들에 지역 버퍼 메모리로 제공할 수 있는 방법을 제안한다.

Cell 마이크로프로세서 설계 개념과 아키텍쳐 분석 (Design Concept and Architecture Analysis of Cell Microprocessor)

  • 문상국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.927-930
    • /
    • 2006
  • 마이크로프로세서 제조업체의 대명사로 불리는 인텔이 비메모리 시장을 거의 독점하고 있는 가운데, IBM, Sony, Toshiba 인 세 개의 기업이 도전적으로 힘을 합하여 차세대 엔터테인먼트 프로세서라고 불리는 멀티코어 기반의 Cell 프로세서를 개발하였다. Cell 프로세서는 기존의 Power 라는 아키텍쳐를 기반으로 하는 코어 PPE (Power processor Element)를 중심으로 8개의 데이터 처리용 코어 SPE(Synergistic processor Element)를 포함하고 있으며, SIMD(Single Input Multiple Data) 데이터 처리 방식을 지원하여 데이터 처리량이 많은 멀티미디어나 게임 어플리케이션을 처리하는데 최적화되도록 설계된 프로세서로서, 기본적으로는 Power 마이크로프로세서 아키텍쳐 및 구조에 대한 혁신적인 확장 기능을 포함하고 있다. 본 논문에서는 현존하는 프로세서 중 가장 성능이 우수하다고 평가받는 Cell 마이크로프로세서의 설계 개념과 그 구조에 대하여 분석한다.

  • PDF

SISD 머신에 부착 가능한 SIMD 벡터 머신의 개념적 설계 (On the Conceptual Design of the SIMD Vector Machine Attachable to SISD Machine)

  • 조영일;고영웅
    • 정보처리학회논문지A
    • /
    • 제12A권3호
    • /
    • pp.263-272
    • /
    • 2005
  • 데이터 주소의 계수를 위한 하드웨어 설계가 없는 본 노이만(von Neuman) 개념(SISD)의 컴퓨터에서 데이터의 주소지정은 소프트웨어적으로 수행된다. 그러므로 벡터 데이터 요소들의 주소지정은 인덱싱 기법에 의해 그 요소 수만큼 해당 변수들을 만들어서 사용해야 한다. 이것은 데이터 계수기 없이 명령어 계수기, 즉 PC(program counter)만 하드웨어로 설계되기 때문이다. 본 연구에서는 중앙처리장치 외부에 외형적 구조와 크기를 갖는 단위 벡터의 요소를 액세스하는 하드웨어 유닛의 설계를 제안한다. 벡터 처리는 고속처리가 전제되기 때문에 파이프라인 처리기법(SIMD)으로 설계되어야 한다. 제안한 방법은 시뮬레이션을 통하여 성능 검증을 하였으며, 실험 결과 동일한 프로세싱 유닛을 가지는 벡터 머신 아키텍쳐보다 $12-30\%$ 정도 우수한 성능을 내는 것을 확인하였다.

Exploiting Thread-Level Parallelism in Lockstep Execution by Partially Duplicating a Single Pipeline

  • Oh, Jaeg-Eun;Hwang, Seok-Joong;Nguyen, Huong Giang;Kim, A-Reum;Kim, Seon-Wook;Kim, Chul-Woo;Kim, Jong-Kook
    • ETRI Journal
    • /
    • 제30권4호
    • /
    • pp.576-586
    • /
    • 2008
  • In most parallel loops of embedded applications, every iteration executes the exact same sequence of instructions while manipulating different data. This fact motivates a new compiler-hardware orchestrated execution framework in which all parallel threads share one fetch unit and one decode unit but have their own execution, memory, and write-back units. This resource sharing enables parallel threads to execute in lockstep with minimal hardware extension and compiler support. Our proposed architecture, called multithreaded lockstep execution processor (MLEP), is a compromise between the single-instruction multiple-data (SIMD) and symmetric multithreading/chip multiprocessor (SMT/CMP) solutions. The proposed approach is more favorable than a typical SIMD execution in terms of degree of parallelism, range of applicability, and code generation, and can save more power and chip area than the SMT/CMP approach without significant performance degradation. For the architecture verification, we extend a commercial 32-bit embedded core AE32000C and synthesize it on Xilinx FPGA. Compared to the original architecture, our approach is 13.5% faster with a 2-way MLEP and 33.7% faster with a 4-way MLEP in EEMBC benchmarks which are automatically parallelized by the Intel compiler.

  • PDF

SIMD와 MIMD가 결합된 구조를 갖는 병렬처리시스템 (Parallel Processing System with combined Architecture of SIMD with MIMD)

  • 이형;최성혁;김중배;박종원
    • 정보처리학회논문지A
    • /
    • 제8A권1호
    • /
    • pp.9-15
    • /
    • 2001
  • 영상에 관련된 다양한 응용 시스템들을 구현하는 많은 연구들이 진행되어 왔지만, 그러한 영상 관련 응용 시스템을 구현함에 있어서 처리속도의 저하로 인하여 많은 어려움을 겪고 있다. 이를 해결하기 위해 대두된 여러 방법들 중에서 최근 하드웨어 접근 방법에 고려한 많은 관심과 연구가 진행되고 있다. 본 논문은 영상을 실시간으로 처리하기 위하여 하드웨어 구조를 갖는 병렬처리시스템을 기술하며, 또한 병렬처리시스템을 얼굴 검색 시스템에 적용한 후 처리속도 및 실험 결과를 기술한다. 병렬처리시스템은 SIMD와 MIMD가 결합된 구조를 갖고 있기 때문에 다양한 영상 응용시스템에 대해서 융통성과 효율성을 제공하며, 144개의 처리기와 12개의 다중접근기억장치, 외부 메모리 모듈을 위한 인터페이스와 외부 프로세서 장치(i960Kx)와의 통신을 위한 인터페이스로 구성되어있다. 다중접근기억장치는 메모리 모듈선택회로, 데이터 라이팅회로, 그리고, 주소계산 및 라우팅회로로 구성되어 있다. 또한 얼굴 검색 시스템을 병렬처리 시스템에 적합한 병렬화를 제공하기 위해 메쉬방법을 이용하여 전처리, 정규화, 4개 특징값 추출, 그리고 분류화로 구성하였다. 병렬처리시스템은 하드웨어 모의실험 패키지인 CADENCE사의 Verilog-XL로 모의실험을 수행하여 기능과 성능을 검증하였다.

  • PDF