• Title/Summary/Keyword: single-instruction multiple-data

Search Result 77, Processing Time 0.053 seconds

Exploiting Thread-Level Parallelism in Lockstep Execution by Partially Duplicating a Single Pipeline

  • Oh, Jaeg-Eun;Hwang, Seok-Joong;Nguyen, Huong Giang;Kim, A-Reum;Kim, Seon-Wook;Kim, Chul-Woo;Kim, Jong-Kook
    • ETRI Journal
    • /
    • v.30 no.4
    • /
    • pp.576-586
    • /
    • 2008
  • In most parallel loops of embedded applications, every iteration executes the exact same sequence of instructions while manipulating different data. This fact motivates a new compiler-hardware orchestrated execution framework in which all parallel threads share one fetch unit and one decode unit but have their own execution, memory, and write-back units. This resource sharing enables parallel threads to execute in lockstep with minimal hardware extension and compiler support. Our proposed architecture, called multithreaded lockstep execution processor (MLEP), is a compromise between the single-instruction multiple-data (SIMD) and symmetric multithreading/chip multiprocessor (SMT/CMP) solutions. The proposed approach is more favorable than a typical SIMD execution in terms of degree of parallelism, range of applicability, and code generation, and can save more power and chip area than the SMT/CMP approach without significant performance degradation. For the architecture verification, we extend a commercial 32-bit embedded core AE32000C and synthesize it on Xilinx FPGA. Compared to the original architecture, our approach is 13.5% faster with a 2-way MLEP and 33.7% faster with a 4-way MLEP in EEMBC benchmarks which are automatically parallelized by the Intel compiler.

  • PDF

An Implementation of Pipelined Prallel Processing System for Multi-Access Memory System

  • Lee, Hyung;Cho, Hyeon-Koo;You, Dae-Sang;Park, Jong-Won
    • Proceedings of the IEEK Conference
    • /
    • 2002.07a
    • /
    • pp.149-151
    • /
    • 2002
  • We had been developing the variety of parallel processing systems in order to improve the processing speed of visual media applications. These systems were using multi-access memory system(MAMS) as a parallel memory system, which provides the capability of the simultaneous accesses of image points in a line-segment with an arbitrary degree, which is required in many low-level image processing operations such as edge or line detection in a particular direction, and so on. But, the performance of these systems did not give a faithful speed because of asynchronous feature between MAMS and processing elements. To improve the processing speed of these systems, we have been investigated a pipelined parallel processing system using MAMS. Although the system is considered as being the single instruction multiple data(SIMD) type like the early developed systems, the performance of the system yielded about 2.5 times faster speed.

  • PDF

Fast implementation of HEVC inverse DCT using AVX2 instructions (AVX2 명령어를 이용한 HEVC 역 이산여현변환 고속화)

  • Kim, Woori;Jo, Hyunho;Ahn, Yong-Jo;Sim, Dong-Gyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.206-208
    • /
    • 2014
  • 본 논문에서는 HEVC (High Efficiency Video Coding)의 IDCT (Inverse Discrete Cosine Transform) 모듈을 AVX2 (Advanced Vector Extensions 2) 명령어 셋을 사용하여 고속화하는 방법을 제안한다. 제안하는 방법은 4 개의 $4{\times}4$ 블록을 AVX2 레지스터에 로드 한 후, 동시에 AVX2 명령어 셋을 통해 한 번에 IDCT 를 수행한다. 제안하는 방법은 $4{\times}4$ 블록 단위로 순차적으로 SIMD(Single Instruction Multiple Data) 명령어 셋을 통해 IDCT 를 수행하는 방법에 비해 명령어 단위의 병렬화 성능을 극대화한다. 실험 결과, HEVC 디코더의 $4{\times}4$ IDCT 에 SIMD 명령어 셋을 적용한 경우 기존의 HM-12.1 에 비해 평균 3.35 배 수행 속도를 향상 시킨 반면, 제안하는 방법은 HM12.1에 비해 평균 9.50 배 수행 속도를 향상 시켰다.

  • PDF

Real-time H.264/AVC High 4:4:4 Predictive Decoder Using Multi-Thread and SIMD Instructions (멀티쓰레드와 SIMD 명령어를 이용한 실시간 H.264/AVC High 4:4:4 Predictive 디코더의 구현)

  • Kim, Yong-Hwan;Kim, Je-Woo;Choi, Byeong-Ho;Lee, Seok-Pil;Paik, Joon-Ki
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 2007.08a
    • /
    • pp.350-353
    • /
    • 2007
  • This paper presents an real-time implementation of H.264/AVC High 4:4:4 Predictive profile decoder using general-purpose processors by exploiting multi-threading technique and Single Instruction Multiple Data (SIMD) instructions without any quality degradation. We analyze differences between the existing High profile and High 4:4:4 Predictive profile decoder, and show various optimization techniques to decode high fidelity and high definition (HD) video in real-time. Simulation results show that the proposed decoder can play high fidelity HD video at average 40 frames per seconds (fps) for the IBBrBP bistream and about 50 fps for the Intra-only bitstream.

  • PDF

The performance of fast view synthesis using GPU (GPU를 이용한 고속 영상 합성 기법의 성능)

  • Kim, Jaehan;Shin, Hong-Chang;Cheong, Won-Sik;Bang, Gun
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.07a
    • /
    • pp.22-24
    • /
    • 2011
  • 본 논문에서는 3차원 디스플레이 시스템에서 다수의 중간 시점 영상을 실시간으로 생성할 수 있도록 GPU 기반의 고속 영상 합성기법을 제안하였으며 그에 대한 성능을 알아본다. 카메라의 기하 정보 및 참조 영상들의 깊이 정보를 이용하여 중간 시점 영상을 생성하였으며, 영상 합성 방법을 GPU에서 병렬 처리함으로써 고속화할 수 있었다. GPU를 효율적으로 다루기 위해 NVIDIA사의 CUDA(Compute Unified Device Architecture)$^TM$를 이용하였다. 제안한 기법은 CUDA의 SIMD(Single Instruction MUltiple Data) 구조를 사용하여 중간 영상 합성을 처리할 수 있도록 설계하였다. 본 논문은 고속 영상 합성에 중점을 두었고, 제안한 고속화 기법의 결과를 분석함으로써 다시점 3차원 디스플레이 시스템의 적용 가능성을 알아본다.

  • PDF

Optimization of H.264 Encoder using SIMD Instructions (SIMD 명령어를 이용한 H.264 인코더 최적화)

  • 김용환;김제우;김태완;최병호
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.175-178
    • /
    • 2003
  • 최근에 표준화가 완료된 차세대 비디오 코딩 표준인 H.264 는 적은 비트율에서 높은 품질의 비디오 압축을 목표로 하기 때문에, H.263+ 및 MPEG-2/4 와 같은 이전의 표준들보다 훨씬 더 많은 연산을 필요로 한다. 본 논문은 SIMD (Single Instruction Multiple Data) 명령어를 가지는 범용 프로세서(예를 들면, 펜티엄 4)에서 H.264 S/W 인코더의 속도 최적화를 위한 알고리듬 및 구현 기술을 제안한다. 화질 저하 없이 RDO (Rate Distortion Optimization) 의 속도를 높일 수 있는 효율적인 모드 검색 건너뛰기 알고리듬을 제안하고, SIMD 명령어를 이용하여 1/4 화소 보간, SAD(Sum of Absolute Difference), SATD(Sum of Absolute Transformed Difference), SSD (Sum of Squared Difference) 등의 개별 루틴의 속도를 최적화한다. 일련의 최적화 후에 인코더는 화질 저하 없이 H.264 레퍼런스 인코더보다 평균 3배 정도의 속도 향상이 이루어진다.

  • PDF

Fast implementation of Hadamard transformation of HEVC with SIMD (SIMD를 이용한 HEVC 하다마드 트랜스폼의 고속 구현)

  • You, Jong-Hun;Jo, Hyun-Ho;Sim, Dong-Gyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.11a
    • /
    • pp.307-309
    • /
    • 2011
  • 본 논문에서는 SIMD(Single Instruction Multiple Data) 프로세서를 사용한 HEVC 부호화기의 하다마트 트랜스폼 고속화를 제안한다. 본 논문에서는 MMX와 SSE 레지스터를 사용하여 하다마드 트랜스폼을 SIMD 연산으로 대체함으로써 메모리 접근 횟수와 명령어의 수를 줄여 부호화기를 고속화하였다. 또한, HEVC의 10비트 입력에 따른 SIMD 구조의 비효율적인 구현을 해결하기 위하여 하다마드 트랜스폼의 입력 픽셀 비트수를 감소시키는 IBDD(Internal Bit Depth Decreasing)를 제안했다. HEVC 부호화기에 하다마드 트랜스폼을 SIMD 연산으로 대체한 결과 부호화 효율의 저하 없이, 부호화기의 수행 시간은 10% 감소되었다.

  • PDF

A Study on Application Method of Parallel Processing for Performance Improvement of Sonar-based Undersea Simulation (소나 기반 해저 시뮬레이션의 성능 향상을 위한 병렬처리 적용 방법 연구)

  • Back, Seoung-Jea;Lee, Keon-Pyo;Ha, Ok-Kyoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.1-2
    • /
    • 2018
  • 해상 선박의 안전을 위해 해저의 객체 및 장애물의 정확한 탐지를 위해 해저환경에서 감쇠현상이 비교적 적은 음파 기반의 소나가 널리 활용된다. 그러나 기존의 소나 영상 시뮬레이션은 고해상도의 영상, 잡음 처리, 해저지형과 객체 데이터 등의 방대한 데이터 처리로 인해 물체 탐지 및 식별을 위한 처리속도와 비용이 크게 증가한다. 이러한 문제를 최소화하기 위해서 해저지형, 객체 생성과 잡음 처리 모델을 Multi-Threading, SIMD 등 병렬처리를 적용하여 처리속도를 최적화 한다. 본 논문에서는 혼합된 병렬처리 방법을 적용하여 소나를 기반으로 해저 환경 시뮬레이션을 위한 모의 신호를 생성하는 성능을 향상시킨다. 병렬처리로 인해 개선된 성능을 순차처리에 따른 속도와 실험적으로 비교한다.

  • PDF

GPU Implementation Techniques of Genetic Algorithm and Comparative Studies (유전 알고리즘의 GPU 구현 기법 및 비교 연구)

  • Hyeon, Byeong-Yong;Seo, Ki-Sung
    • Journal of Institute of Control, Robotics and Systems
    • /
    • v.17 no.4
    • /
    • pp.328-335
    • /
    • 2011
  • GPU (Graphics Processing Units) is consists of SIMD (Single Instruction Multiple Data) architecture and provides fast parallel processing. A GA (Genetic Algorithm), which requires large computations, is implemented in GPU using CUDA (Compute Unified Device Architecture). Three kinds of execution models are presented according to different combinations of processing modules in GPU. Comparison experiments between GPU models and CPU are tested for a couple of benchmark problems by variation of population sizes and complexity of problem sizes.

Benchmarking on High-speed Image Processing Techniques based on Multi-processor (멀티프로세서 기반의 고속 영상처리 기술에 대한 벤치마킹)

  • Cui, Xue-Nan;Park, Eun-Soo;Kim, Jun-Chul;Kim, Hak-Il
    • Proceedings of the KIEE Conference
    • /
    • 2007.10a
    • /
    • pp.111-112
    • /
    • 2007
  • 본 논문에서는 멀티프로세서 기반의 고속 영상처리 알고리즘 개발방법에 대해 소개한다. 영상획득 방식의 발전과 더불어 고해상도 영상의 획득이 가능해지고 영상이 컬러화가 되면서 많은 영상처리 응용분야에서 알고리즘 고속화를 필요로 하고 있다. 이러한 수요를 만족시키기 위해서는 최근에 출시되고 있는 멀티프로세서를 최대한 활용할 수 있는 알고리즘 개발이 최우선이다. 본 논문에서는 OpenMP, MIL(Matrox Image Library), OpenCV, IPP(Integrated Performance Primitives), SSE (Streaming SIMD (Single Instruction Multiple Data) Extensions)등 병렬처리와 고속 영상처리 라이브러리를 이용한 알고리즘 개발방법에 대해 소개하고, 각 개발방법에 따른 알고리즘 성능을 분석 및 평가하였다. 실험결과로부터 SSE와 IPP, MIL(Thread)을 이용하여 Mean, Dilation, Erosion, Open, Closing, Sobel등 알고리즘을 구현하여 $4057{\times}4048$크기의 영상에 적용하였을 때 $7{\sim}35msec$의 좋은 성능을 나타내어 기타 방식보다 우수함을 알 수 있었다.

  • PDF