• 제목/요약/키워드: SIMD Architecture

검색결과 60건 처리시간 0.028초

Scalable Application Mapping for SIMD Reconfigurable Architecture

  • Kim, Yongjoo;Lee, Jongeun;Lee, Jinyong;Paek, Yunheung
    • JSTS:Journal of Semiconductor Technology and Science
    • /
    • 제15권6호
    • /
    • pp.634-646
    • /
    • 2015
  • Coarse-Grained Reconfigurable Architecture (CGRA) is a very promising platform that provides fast turn-around-time as well as very high energy efficiency for multimedia applications. One of the problems with CGRAs, however, is application mapping, which currently does not scale well with geometrically increasing numbers of cores. To mitigate the scalability problem, this paper discusses how to use the SIMD (Single Instruction Multiple Data) paradigm for CGRAs. While the idea of SIMD is not new, SIMD can complicate the mapping problem by adding an additional dimension of iteration mapping to the already complex problem of operation and data mapping, which are all interdependent, and can thus significantly affect performance through memory bank conflicts. In this paper, based on a new architecture called SIMD reconfigurable architecture, which allows SIMD execution at multiple levels of granularity, we present how to minimize bank conflicts considering all three related sub-problems, for various RA organizations. We also present data tiling and evaluate a conflict-free scheduling algorithm as a way to eliminate bank conflicts for a certain class of mapping problem.

Low-latency SAO Architecture and its SIMD Optimization for HEVC Decoder

  • Kim, Yong-Hwan;Kim, Dong-Hyeok;Yi, Joo-Young;Kim, Je-Woo
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제3권1호
    • /
    • pp.1-9
    • /
    • 2014
  • This paper proposes a low-latency Sample Adaptive Offset filter (SAO) architecture and its Single Instruction Multiple Data (SIMD) optimization scheme to achieve fast High Efficiency Video Coding (HEVC) decoding in a multi-core environment. According to the HEVC standard and its Test Model (HM), SAO operation is performed only at the picture level. Most realtime decoders, however, execute their sub-modules on a Coding Tree Unit (CTU) basis to reduce the latency and memory bandwidth. The proposed low-latency SAO architecture has the following advantages over picture-based SAO: 1) significantly less memory requirements, and 2) low-latency property enabling efficient pipelined multi-core decoding. In addition, SIMD optimization of SAO filtering can reduce the SAO filtering time significantly. The simulation results showed that the proposed low-latency SAO architecture with significantly less memory usage, produces a similar decoding time as a picture-based SAO in single-core decoding. Furthermore, the SIMD optimization scheme reduces the SAO filtering time by approximately 509% and increases the total decoding speed by approximately 7% compared to the existing look-up table approach of HM.

SIMD 기반의 VBP 기법을 적용한 효율적인 퀵정렬의 구현 (An Implementation of Efficient Quicksort Utilizing SIMD-Based VBP Technique)

  • 홍길석;김홍연;강성현;민준기
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권8호
    • /
    • pp.498-503
    • /
    • 2017
  • SIMD(Single Instruction Multiple Data)는 대표적인 병렬화 아키텍처 중 하나로, SIMD 레지스터에 적재된 여러 개의 데이터들을 하나의 명령어로 처리하는 기술이다. 퀵정렬(Quicksort)은 데이터 값들이 리스트로 저장되어 있을 때, 임의의 위치에 있는 데이터 값을 피봇으로 하여 그것보다 작은 값은 왼편으로, 큰 값은 오른편으로 분할하여 생성된 두 개의 서브리스트에 대하여 같은 작업을 반복함으로써 데이터 값들을 정렬하는 정렬 알고리즘이다. 본 연구에서는 SIMD 명령어를 이용하여 파이프라인 아키텍처에서 조건 예측 실패에 따른 성능 저하를 유발하지 않도록 분기 조건을 최소로 사용하는 효율적인 퀵정렬(Quicksort) 알고리즘을 제안한다. 또한, VBP(Vertical Bit Parallel) 기법과 얼리 프루닝(early pruning) 기법을 적용하여 SIMD 레지스터에 데이터를 바이트 단위로 적재함으로써 퀵 정렬 알고리즘의 성능을 향상하였다.

임베디드 시스템을 위한 저비용 SIMD MAC/MAS 블록 설계 (The Design of low-cost SIMD MAC/MAS for Embedded Systems)

  • 이용주;정진우;이웅석
    • 한국통신학회논문지
    • /
    • 제29권10C호
    • /
    • pp.1460-1468
    • /
    • 2004
  • 본 논문에서는 실생활에 많이 사용되는 멀티미디어의 연산에 꼭 필요한 명령어를 수행할 수 있는 저면적의 저전력 SIMD MAC/MAS(Single Instruction Multiple Data Multiply and ACcumulate/Multiply And Subtract)를 개발하였다. 개발의 목적이 이전에 개발된 64-bit의 고면적, 고성능 MAC/MAS를 저면적, 저비용화하면서 성능 저하를 최소화 하는 것이었기 때문에 이전에 개발된 구조와 비교함으로써 이번 연구의 성과를 판단하였다. 본 논문의 내용은 크게 SIMD MAC의 설계에 대한 내용, 본 설계가 이전의 설계와의 차별성, 그리고 합성 결과 및 결론으로 이루어져 있다. 설계 결과, 이전에 설계되었던 고성능의 64비트 SIMD MAC/班AS에 비해 전체적인 하드웨어의 크기는 32%로 축소되었다. 이는 임베디드 DS(Digital Signal Processor)에 적합하도록 ISA(Instruction Set Architecture)를 개선하였고, 내부 데이터의 대역폭을 32비트로 줄였으며 하드웨어를 보다 최적화하여 설계하였기 때문으로 판단된다.

모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저의 하드웨어 구현 (Hardware Implementation of Rasterizer with SIMD Architecture Applicable to Mobile 3D Graphics System)

  • 하창수;성광주;최병윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.313-315
    • /
    • 2010
  • 본 논문에서는 모바일 3차원 그래픽스 시스템에 적용 가능한 SIMD 구조를 갖는 래스터라이저를 하드웨어로 구현하고 FPGA로 검증한 내용을 기술한다. 타일 기반의 스캔 컨버전 회로는 4개의 타일이 동시에 동작하는 SIMD 구조를 따르며 각 타일은 3단계의 계층적 탐색을 통해 타일 내의 방문횟수를 최소화 한다. 실험을 통해 $8{\times}8$ 크기의 타일이 가장 효율적인 것으로 판단되었으며, 계층적 탐색의 마지막 단계에는 $2{\times}2$ 크기의 서브타일을 탐색하게 된다. 플랫 쉐이딩과 고라우드 쉐이딩을 지원하며, 텍스쳐 매핑 회로는 어파인 매핑과 원근보정이 적용된 매핑을 지원한다. 또한 텍스쳐 매핑 회로의 필터링 모드는 포인트 샘플링 방식과 2차 선형 보간 방식을 지원하며, 두 가지의 wrap 모드와 다양한 블렌딩 모드를 지원하도록 설계되어 있다. Xilinx Vertex4 LX100 디바이스를 기준으로 약120Mhz의 동작 속도를 가지며 텍스쳐 메모리와 프레임 버퍼는 검증을 용이하게 하기위해 블록 램으로 설계되었다.

  • PDF

2D Mesh SIMD 구조에서의 병렬 행렬 곱셈의 수치적 성능 분석 (An Analytical Evaluation of 2D Mesh-connected SIMD Architecture for Parallel Matrix Multiplication)

  • 김정길
    • 정보통신설비학회논문지
    • /
    • 제10권1호
    • /
    • pp.7-13
    • /
    • 2011
  • Matrix multiplication is a fundamental operation of linear algebra and arises in many areas of science and engineering. This paper introduces an efficient parallel matrix multiplication scheme on N ${\times}$ N mesh-connected SIMD array processor, called multiple hierarchical SIMD architecture (HMSA). The architectural characteristic of HMSA is the hierarchically structured control units which consist of a global control unit, N local control units configured diagonally, and $N^2$ processing elements (PEs) arranged in an N ${\times}$ N array. PEs are communicating through local buses connecting four adjacent neighbor PEs in mesh-torus networks and global buses running across the rows and columns called horizontal buses and vertical buses, respectively. This architecture enables HMSA to have the features of diagonally indexed concurrent broadcast and the accessibility to either rows (row control mode) or columns (column control mode) of 2D array PEs alternately. An algorithmic mapping method is used for performance evaluation by mapping matrix multiplication on the proposed architecture. The asymptotic time complexities of them are evaluated and the result shows that paralle matrix multiplication on HMSA can provide significant performance improvement.

  • PDF

임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현 (Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors)

  • 정용범;김종면
    • 정보처리학회논문지A
    • /
    • 제18A권3호
    • /
    • pp.99-108
    • /
    • 2011
  • 프로세서 기술은 공정비용의 증가와 전력 소모 때문에 단순 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 병렬 프로세싱 기술 발전이 이루어지고 있다. 본 논문에서는 멀티미디어에 내재한 무수한 데이터를 효과적으로 처리할 수 있는 SIMD(Single Instruction Multiple Data) 기반 병렬 프로세서를 소개하고, 또한 이러한 SIMD 기반 병렬 프로세서 아키텍처에서 이미지/비디오 픽셀을 효율적으로 처리 가능한 픽셀 서브워드 병렬처리 명령어를 제안한다. 제안하는 픽셀 서브워드 병렬처리 명령어는 48비트 데이터패스 아키텍처에서 4개의 12비트로 분할된 레지스터에 4개의 8비트 픽셀을 저장하고 동시에 처리함으로써 기존의 멀티미디어 전용 명령어에서 발생하는 오버플로우 및 이를 해결하기 위해 사용되는 패킹/언팽킹 수행의 상당한 오버헤드를 줄일 수 있다. 동일한 SIMD 기반 병렬 프로세서 아키텍처에서 모의 실험한 결과, 제안한 픽셀 서브워드 병렬처리 명령어는 baseline 프로그램보다 2.3배의 성능 향상을 보인 반면, 인텔사의 대표적인 멀티미디어 전용 명령어인 MMX 타입 명령어는 baseline 프로그램보다 단지 1.4배의 성능 향상을 보였다. 또한, 제안한 명령어는 baseline 프로그램보다 2.5배의 에너지 효율 향상을 보인 반면, MMX 타입 명령어는 baseline 프로그램보다 단지 1.8배의 에너지 효율 향상을 보였다.

고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 (A Parallel Memory Suitable for SIMD Architecture Processing High-Definition Image Haze Removal in High-Speed)

  • 이형
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권7호
    • /
    • pp.9-16
    • /
    • 2014
  • Dark channel prior를 이용한 안개제거 알고리즘으로 만족할만한 연구결과가 발표된 이후로 이 알고리즘의 처리 속도를 높이기 위한 많은 연구들이 진행되었다. 이들 중에서 median dark channel prior를 이용한 알고리즘이 주목을 받고 있지만 여전히 낮은 처리속도의 한계를 갖고 있다. 그래서 본 논문에서는 고화질 영상에서 고속 안개 제거를 위한 SIMD 구조에 적합한 병렬메모리 모델을 제안한다. 제안하는 병렬메모리 모델은 n개의 화소들에 동시에 접근할 수 있으며, 3, 5, 7 또는 11의 크기를 갖는 4가지 종류의 median filter를 위한 간격들을 허용한다. 그래서 충분한 데이터 대역폭을 지원하기에 median dark channel prior를 이용한 알고리즘을 고속으로 처리할 수 있다.

재구성 Cell을 이용한 Photon mapping SIMD프로세서 설계 (Photon Mapping SIMD Processor Design using Reconfigurable Cell)

  • 류현우;김영진;이현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.719-722
    • /
    • 2005
  • The synthesis of the 3D images is the most important part of the virtual reality. The photon mapping is the best method for reality in the 3D graphics. This paper presents an architecture for photon mapping applications on SOC devices. The proposed architecture reduces the computation time to photonmap search and radiance estimation. Also this architecture is implemented by a SIMD processor which trades parallelism for frequency of operation.

  • PDF

Advanced SIMD 아키텍처에서의 HOG 보행자 검출기 고속화 방법 (A Speed-up Method of HOG Pedestrian Detector in Advanced SIMD Architecture)

  • 권기표;이재흥
    • 전기전자학회논문지
    • /
    • 제18권1호
    • /
    • pp.106-113
    • /
    • 2014
  • 보행자 검출기는 보안이 필요한 곳에서 모니터링을 하거나 특정 장소를 드나드는 사람의 수를 셀 때, 운전 중 차도에 뛰어드는 사람을 감지할 때 등 상황에 따라 여러 목적으로 응용될 수 있다. 이와 관련한 연구는 많이 진행되어 왔지만, 임베디드 시스템에서는 제한된 컴퓨팅 능력으로 인해 검출 속도가 느리다는 문제가 있다. 본 논문에서는 입력 영상에서 배경 부분을 빠르게 제거하여 검출 속도를 향상하는 방법과 ARM SIMD 아키텍처에서 NEON 병렬화 기법을 이용하여 검출 속도를 향상하는 방법을 제시한다. 제시한 방법으로 구현한 검출기는 INRIA Person Dataset을 이용하여 테스트한 결과 기존에 비해 3.01배의 향상된 속도를 나타냈다.