• Title/Summary/Keyword: SIMD Computer

Search Result 64, Processing Time 0.028 seconds

A k-Tree-Based Resource (CU/PE) Allocation for Reconfigurable MSIMD/MIMD Multi-Dimensional Mesh-Connected Architectures

  • Srisawat, Jeeraporn;Surakampontorn, Wanlop;Atexandridis, Kikitas A.
    • Proceedings of the IEEK Conference
    • /
    • 2002.07a
    • /
    • pp.58-61
    • /
    • 2002
  • In this paper, we present a new generalized k-Tree-based (CU/PE) allocation model to perform dynamic resource (CU/PE) allocation/deallocation decision for the reconfigurable MSIMD/MIMD multi-dimensional (k-D) mesh-connected architectures. Those reconfigurable multi-SIMD/MIMD systems allow dynamic modes of executing tasks, which are SIMD and MIMD. The MIMD task requires only the free sub-system; however the SIMD task needs not only the free sub-system but also the corresponding free CU. In our new k-Tree-based (CU/PE) allocation model, we introduce two best-fit heuristics for the CU allocation decision: 1) the CU depth first search (CU-DFS) in O(kN$_{f}$ ) time and 2) the CU adjacent search (CU-AS) in O(k2$^{k}$ ) time. By the simulation study, the system performance of these two CU allocation strategies was also investigated. Our simulation results showed that the CU-AS and CU-DFS strategies performed the same system performance when applied for the reconfigurable MSIMD/MIMD 2-D and 3-D mesh-connected architectures.

  • PDF

Parallelization mathod of IDCT with SIMD for fast HEVC decoding (HEVC 고속 복호화를 위한 SIMD 기반의 IDCT 병렬 프로그래밍 기법)

  • Hong, Seungbo;Choi, Kiho;Park, Sang-Hyo;Jang, Euee Seon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.113-116
    • /
    • 2013
  • 최근 방송, 의료, 우주산업, 게임, UCC, 핸드폰 등 여러 사업 분야에 걸쳐 실제에 근접한 영상을 요구하고 있고 이것은 3D와 Ultra High Definition (UHD) 영상의 출현으로 현실화 되고 있다. UHD 급에 걸맞는 압축률을 위해 Joint Collaborative Team on Video Coding (JCT-VC) 에서는 MPEG-4 Part 10 AVC/H.264를 뒤이을 차세대 코덱으로 High Efficiency Video Coding (HEVC) 를 개발을 시작했다. HEVC는 기존 MPEG-4 Part 10 AVC/H.264코덱과 비교해 40%이상의 압축률을 나타내지만 복잡도 역시 상승했다. 특히 복호화기에서 복잡도는 중요한 요소이며, 역 코사인변환 (Inverse Discrete Cosine Transform, IDCT) 은 전체 복호화시간의 8% ~ 16%를 차지하는 알고리즘이다. 본 논문에서는 IDCT 의 수행시간을 줄이기 위해 병렬프로그래밍 중의 하나인 SIMD명령어를 사용하여 효율적으로 병렬화 프로그래밍을 하는 기법들을 제안한다. 본 제안 기법은 IDCT 수행시간을 평균 59% 단축하는 결과를 보였다.

  • PDF

Optimal Economic Load Dispatch using Parallel Genetic Algorithms in Large Scale Power Systems (병렬유전알고리즘을 응용한 대규모 전력계통의 최적 부하배분)

  • Kim, Tae-Kyun;Kim, Kyu-Ho;Yu, Seok-Ku
    • The Transactions of the Korean Institute of Electrical Engineers A
    • /
    • v.48 no.4
    • /
    • pp.388-394
    • /
    • 1999
  • This paper is concerned with an application of Parallel Genetic Algorithms(PGA) to optimal econmic load dispatch(ELD) in power systems. The ELD problem is to minimize the total generation fuel cost of power outputs for all generating units while satisfying load balancing constraints. Genetic Algorithms(GA) is a good candidate for effective parallelization because of their inherent principle of evolving in parallel a population of individuals. Each individual of a population evaluates the fitness function without data exchanges between individuals. In application of the parallel processing to GA, it is possible to use Single Instruction stream, Multiple Data stream(SIMD), a kind of parallel system. The architecture of SIMD system need not data communications between processors assigned. The proposed ELD problem with C code is implemented by SIMSCRIPT language for parallel processing which is a powerfrul, free-from and versatile computer simulation programming language. The proposed algorithms has been tested for 38 units system and has been compared with Sequential Quadratic programming(SQP).

  • PDF

Improvement of H.264 Encoder Using MMX (MMX를 이용한 H.264 인코더 성능 개선)

  • Kim, Sang-Ho;Lee, June-Hwan;Rhee, Sang-Burm
    • Proceedings of the IEEK Conference
    • /
    • 2006.06a
    • /
    • pp.729-730
    • /
    • 2006
  • multimedia applications has been targeted for exploiting single instruction multiple data extensions to instruction architectures for the most of the modern microprocessor. In this paper, the newest video coding standard, H.264/AVC baseline profile decoder has been implemented and optimized exploiting INTEL MMX technology to show the overall system speedup by the SIMD style coding

  • PDF

Parallel Computation of Elliptic Partial Differential Equation on MP-2 (MP-2에서의 타원형 편미분 방정식 병렬계산)

  • Kim, Hyoung-Joong;Lee, Yong-Ho
    • Journal of Industrial Technology
    • /
    • v.14
    • /
    • pp.19-28
    • /
    • 1994
  • We can get a tridiagonal block Toeplitz linear system by the finite difference approximation of 2-D Poisson equation. To exploit the nice property of this linear equation, we transform the equation into a Lyapunov equation and apply DST (discrete sine transform) to get diagonal matrix based Lyapunov equation. DST can be performed using FFT, which enables high-speed computaion. All the computations are performed on an SIMD parallel computer, the MasPar MP-2 with 4,096 processing elements. In this paper, parallel algorithm, mapping method of the algorithm onto the MP-2, and timing results are presented.

  • PDF

Parallel Sorting Algorithm by Median-Median (중위수의 중위수에 의한 병렬 분류 알고리즘)

  • Min, Yong-Sik
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.1E
    • /
    • pp.14-21
    • /
    • 1995
  • This paper presents a parallel sorting algorithm suitable for the SIMD multiprocessor. The algorithm finds pivots for partitioning the data into ordered subsets. The data can be evenly distributed to be sorted since it uses the probability theory. For n data elements to be sorted on p processors, when $n{\geq}p^2$, the algorithm is shown to be asymptotically optimal. In practice, sorting 8 million data items on 64 processors achieved a 48.43-fold speedup, while the PSRS required a 44.4-fold speedup. On a variety of shared and distributed memory machines, the algorithm achieved better than half-linear speedups.

  • PDF

Architecture of General and Intelligent Parallel Processing System (범용성과 지능성을 갖는 병렬 처리기 구조)

  • Lee, Hyung;Choi, Sung-Hyuk;Kim, Jung-Bae;Park, Jong-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.601-604
    • /
    • 2000
  • 본 논문에서는 방대한 양의 영상데이터를 실시간으로 처리하기 위해 제안된 Park's 다중접근 기억장치를 이용한 SIMD 병렬 처리기 시스템의 효율성을 높이기 위하여 Semi-MIMD 구조를 갖는 병렬처리기 시스템을 제안한다.

  • PDF

Optimization Technique for Vertex Programming on Programmable GPU (프로그래밍이 가능한 GPU 상에서의 버텍스 프로그래밍의 최적화 기법)

  • Oh, Jinsang;Ihm, Insung
    • Journal of the Korea Computer Graphics Society
    • /
    • v.8 no.3
    • /
    • pp.25-34
    • /
    • 2002
  • 최근 프로그래밍이 가능한 그래픽스 프로세서(GPU)의 등장은 렌더링 속도의 향상은 물론 기존의 GPU가 할 수 없었던 다양한 그래픽스 계산을 효과적으로 수행할 수 있도록 해주고 있다. 이로 인하여 기존에 CPU 상에서 수행해야만 했던 그래픽스 계산들의 일부를 GPU 상에서 수행하도록 해주는 기법들에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 선형식에 기반을 둔 여러 응용 문제들을 GPU 상에서 효율적으로 구현할 수 있도록 도와주는 쉐이더 코드 최적화 기법을 제안한다. 이 기법은 SIMD 형태의 병렬 처리 능력을 가진 버텍스 쉐이더의 명령어에 맞게 고안되었다. 본 기법의 활용 가능성을 보이기 위하여 미분 방정식을 풀기 위한 4차 런지-쿠타 방법, 선형방정식을 풀기 위한 가우스-자이델 방법, 자연스러운 유체 모델링을 위한 파동 방정식 등의 문제에 적용하여 보았다. 본 논문에서 제안한 최적화 기법은 버텍스 쉐이더 용 컴파일러 구현에 쓰일 수 있으며, 향후 프로그래밍이 가능한 GPU 상에서의 실시간 그래픽스 소프트웨어 개발에 유용하게 사용될 수 있을 것이다.

  • PDF

Benchmarking on High-speed Image Processing Techniques based on Multi-processor (멀티프로세서 기반의 고속 영상처리 기술에 대한 벤치마킹)

  • Cui, Xue-Nan;Park, Eun-Soo;Kim, Jun-Chul;Kim, Hak-Il
    • Proceedings of the KIEE Conference
    • /
    • 2007.10a
    • /
    • pp.111-112
    • /
    • 2007
  • 본 논문에서는 멀티프로세서 기반의 고속 영상처리 알고리즘 개발방법에 대해 소개한다. 영상획득 방식의 발전과 더불어 고해상도 영상의 획득이 가능해지고 영상이 컬러화가 되면서 많은 영상처리 응용분야에서 알고리즘 고속화를 필요로 하고 있다. 이러한 수요를 만족시키기 위해서는 최근에 출시되고 있는 멀티프로세서를 최대한 활용할 수 있는 알고리즘 개발이 최우선이다. 본 논문에서는 OpenMP, MIL(Matrox Image Library), OpenCV, IPP(Integrated Performance Primitives), SSE (Streaming SIMD (Single Instruction Multiple Data) Extensions)등 병렬처리와 고속 영상처리 라이브러리를 이용한 알고리즘 개발방법에 대해 소개하고, 각 개발방법에 따른 알고리즘 성능을 분석 및 평가하였다. 실험결과로부터 SSE와 IPP, MIL(Thread)을 이용하여 Mean, Dilation, Erosion, Open, Closing, Sobel등 알고리즘을 구현하여 $4057{\times}4048$크기의 영상에 적용하였을 때 $7{\sim}35msec$의 좋은 성능을 나타내어 기타 방식보다 우수함을 알 수 있었다.

  • PDF

A Study on Architecture Improving Performance of openCV (openCV 의 성능 향상을 위한 아키텍처 연구)

  • Cho, Yeongpil;Heo, Ingoo;Kim, Yongjoo;Paek, Yunheung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.18-20
    • /
    • 2011
  • 최근 컴퓨터 비전의 활용 영역이 증가함에 따라 컴퓨터 비전의 대표적인 라이브러리인 openCV의 사용 또한 증가하는 추세이다. openCV 에는 컴퓨터 비전 알고리즘의 특성상 massive 한 연산을 수행해야 하는 부분이 상당수 존재한다. 본 논문은 이러한 연산량의 부담을 줄임으로써 openCV 의 성능 향상을 위한 아키텍처를 연구한다. openCV 의 massive 한 연산은 라이브러리 함수에 있는 내부 반복문에서 발생하기 때문에, 본 논문은 반복문의 특성을 분석하고 이를 가속할 수 있는 아키텍처가 무엇인지 연구한다. 결론적으로 반복문의 각 iteration 이 독립적일 경우에는 SIMD (Single Instruction Multiple Data)와 SIMT (Single Instruction Multiple Thread)이 적합하며 반복문의 각 iteration 이 의존적일 경우에는 MIMD (Multiple Instruction Multiple Data)를 바탕으로 하는 파이프라인 아키텍처가 적합하다.