• Title/Summary/Keyword: 병렬프로세서

Search Result 578, Processing Time 0.046 seconds

Theoretical Performance Bounds and Parallelization of a Two-Dimensional Packing Algorithm (이차원 팩킹 알고리즘의 이론적 성능 분석과 병렬화)

  • Hwang, In-Jae;Hong, Dong-Kweon
    • The KIPS Transactions:PartA
    • /
    • v.10A no.1
    • /
    • pp.43-48
    • /
    • 2003
  • Two-dimensional packing algorithm can be used for allocating submeshes in mesh multiprocessor systems. Previously, we developed an efficient packing algorithm called TP heuristic, and showed how the results of the packing could be used for allocating submeshes. In this paper, we present theoretical performance bounds for TP heuristic. We also present a parallel version of the algorithm that consumes reduced time when it is executed by multiple processors in mesh multiprocessors.

An Efficient Parallelized Algorithm of SEED Block Cipher on Cell BE (CELL 프로세서를 이용한 SEED 블록 암호화 알고리즘의 효율적인 병렬화 기법)

  • Kim, Deok-Ho;Yi, Jae-Young;Ro, Won-Woo
    • The KIPS Transactions:PartA
    • /
    • v.17A no.6
    • /
    • pp.275-280
    • /
    • 2010
  • In this paper, we discuss and propose an efficiently parallelized block cipher algorithm on the CELL BE processor. With considering the heterogeneous feature of the CELL BE architecture, we apply different encoding/decoding methods to PPE and SPE and improve the throughput. Our implementation was fully tested, with execution results showing achievement of high throughput, capable of supporting as high network speed as 2.59 Gbps. Compared to various parallel implementations on multi-core systems, our approach provides speedup of 1.34 in terms of encoding/decoding speed.

Implementation of Pixel Subword Parallel Processing Instructions for Embedded Parallel Processors (임베디드 병렬 프로세서를 위한 픽셀 서브워드 병렬처리 명령어 구현)

  • Jung, Yong-Bum;Kim, Jong-Myon
    • The KIPS Transactions:PartA
    • /
    • v.18A no.3
    • /
    • pp.99-108
    • /
    • 2011
  • Processor technology is currently continued to parallel processing techniques, not by only increasing clock frequency of a single processor due to the high technology cost and power consumption. In this paper, a SIMD (Single Instruction Multiple Data) based parallel processor is introduced that efficiently processes massive data inherent in multimedia. In addition, this paper proposes pixel subword parallel processing instructions for the SIMD parallel processor architecture that efficiently operate on the image and video pixels. The proposed pixel subword parallel processing instructions store and process four 8-bit pixels on the partitioned four 12-bit registers in a 48-bit datapath architecture. This solves the overflow problem inherent in existing multimedia extensions and reduces the use of many packing/unpacking instructions. Experimental results using the same SIMD-based parallel processor architecture indicate that the proposed pixel subword parallel processing instructions achieve a speedup of $2.3{\times}$ over the baseline SIMD array performance. This is in contrast to MMX-type instructions (a representative Intel multimedia extension), which achieve a speedup of only $1.4{\times}$ over the same baseline SIMD array performance. In addition, the proposed instructions achieve $2.5{\times}$ better energy efficiency than the baseline program, while MMX-type instructions achieve only $1.8{\times}$ better energy efficiency than the baseline program.

Fault-Tolerant Message Passing Interface on Parallel and Distributed Systems (병렬 및 분산환경에서의 고장 감내 메시지 전달 인터페이스)

  • 송대기;김종훈;강용호;이철훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.732-734
    • /
    • 1998
  • 본 논문에서는 메시지 전달을 기반으로 하는 병렬 분산 시스템에 고장 감내 기능을 추가하기 위한 고장 감내 기법과, 고장 복구에 따른 프로세서들간의 일관성 유지방법을 제안하였다. 메시지 전달을 기반으로 하는 병렬 컴퓨터 시스템상에서 응용 프로그램들은 수많은 노드들에 분산 배치되어 수행이 되는데, 그중 어느 한 노드 또는 작업 중인 프로세서가 고장을 일으킨다면 이로 인하여 전체 응용 프로그램이 중단 될 것이다. 이러한 문제를 해결하기 위하여 고장 감내 기능 추가가 필요하며, 그 방법으로서 동일한 작업을 수행하는 프로세서를 서로 다른 노드상에 이중화하여 하나의 프로세서에 고장이 발생하더라도 계속 작업중인 예비 프로세서를 이용함으로써 전체 응용 프로그램이 아무런 영향을 받지 않도록 하였다. 그리고 이를 MPI상에 서브 모듈로써 설계하고 구현하였다.

  • PDF

A Synchronous/Asynchronous Hybrid Parallel Power Iteration for Large Eigenvalue Problems by the MPMD Methodology (MPMD 방식의 동기/비동기 병렬 혼합 멱승법에 의한 거대 고유치 문제의 해법)

  • Park, Pil-Seong
    • The KIPS Transactions:PartA
    • /
    • v.11A no.1
    • /
    • pp.67-74
    • /
    • 2004
  • Most of today's parallel numerical schemes use synchronous algorithms, where some processors that have finished their tasks earlier than others must wait at synchronization points for correct computation. Hence overall performance of the system is dependent upon the speed of the slowest processor. In this paper, we det·ise a synchronous/asynchronous hybrid algorithm to accelerate convergence of the solution for finding the dominant eigenpair of a large matrix, by reducing the idle times of faster processors using MPMD programming methodology.

Parallel Sorting Algorithm by Median-Median (중위수의 중위수에 의한 병렬 분류 알고리즘)

  • Min, Yong-Sik
    • The Journal of the Acoustical Society of Korea
    • /
    • v.14 no.1E
    • /
    • pp.14-21
    • /
    • 1995
  • This paper presents a parallel sorting algorithm suitable for the SIMD multiprocessor. The algorithm finds pivots for partitioning the data into ordered subsets. The data can be evenly distributed to be sorted since it uses the probability theory. For n data elements to be sorted on p processors, when $n{\geq}p^2$, the algorithm is shown to be asymptotically optimal. In practice, sorting 8 million data items on 64 processors achieved a 48.43-fold speedup, while the PSRS required a 44.4-fold speedup. On a variety of shared and distributed memory machines, the algorithm achieved better than half-linear speedups.

  • PDF

고속 영상신호 처리를 위한 VLSI아키텍쳐

  • 김병곤
    • 전기의세계
    • /
    • v.34 no.8
    • /
    • pp.489-496
    • /
    • 1985
  • VLSI기술의 독특한 특징들은 이에 맞는 VLSI 지향적 아키텍쳐를 요구하게 된다. 이러한 아키텍쳐들은 영상신호 처리에 있어 중요한 실시간 처리를 위한 병렬처리 및 pipeline처리에도 잘 조화되어 고속영상신호 처리를 위한 시스템에서 VLSI기술이 필수적으로 사용 되어야 함을 알 수 있다. 현재 고속 영상신호 처리를 위한 VLSI 구조로 화면의 병렬성에 근거를 둔 CLA(Cellular Logic Array) 및 이의 단점을 보완한 피라밋 구조가 활말히 연구되고 있으나 거대한 양의 하드웨어 및 주변 시스템의 요구로 그 규모가 방대하여 지는 흠이 있다. 이에 반하여 화소 Kernel의 병렬성에 근거를 두는 pixel-kernel 프로세서는 영상신호 데이타의 공간의존성의 기본 단위인 Kernel을 병렬처리하고 그 거대성 및 균일성은 Pipeline 처리를 함으로써 비교적 작은 하드웨어로 높은 성능을 얻을수 있다. 또한 기존 영상 Sensor 로부터의 데이타 흐름을 중단 시키지 않고 처리할 수 있으며 기본 프로세서의 다양한 조합 방법에 의해 시스템 구조상의 유연성을 갖는다. 따라서 로보트 등의 실제적인 응용분야에서 후자의 구조가 효율적으로 사용될 것으로 전망된다. 앞으로 효과적인 pixel-Kernel 프로세서의 개발을 위해 PKF 계산구조의 연구와 함께 효과적인 Kernel 병렬성을 실현할 수 있는 VLSI 지향적 구조의 개발이 요구된다.

  • PDF

Semi-dynamic Task Allocation for Parallel Spatial Joins (병렬 공간 조인을 위한 준동적 태스크 할당)

  • 김진덕;서영덕;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.13-15
    • /
    • 2001
  • 최근 병렬 시스템을 이용하여 공간 조인의 성능 방안에 연구가 진행되고 있다. 그렇지만 프로세서의 수가 증가할수록 병렬 처리에 의한 프로세서의 효율성은 급격히 떨어진다. 이것은 병렬 공간 조인을 수행할 경우 순차 공간 조인 보다 디스크 병목 현상과 메시지 전송 오버헤드가 심하게 발행하기 때문이다. 이 논문에서는 공유 디스크 구조에서 다중 프로세서의 디스크 동시 접근으로 인한 병목 현상을 환화하고, 메시지 전송을 최소화하기 위한 태스크 할당 기법을 제안하였다. 제안한 태스크 할당 기법을 두 가지 공간 조인 방법에 각각 적용하여 디스크 접근 횟수와 메시지 전송 횟수의 감소 효과를 실험으로 평가하였다. MIMD 구조 및 공유디스크 방식의 병렬 시스템에서의 다양한 실험에서 이 논문에서 제안한 준동적 태스크 할당 기법이 정적 할당과 동적 할당 기법에 비해 우수함을 보였다.

  • PDF

Compression-Based Ray-Casting of Huge Volume Data on Distributed Memory Environments (분산 메모리 환경에서의 방대한 볼륨데이터의 압축기반 광선추적법)

  • 송동섭;박상훈;임인성
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.634-636
    • /
    • 2000
  • 기존의 병렬 볼륨 렌더링 방법들은 프로세서간의 발생하는 많은 통신량 때문에 통신 속도가 매우 빠른 병렬컴퓨터를 이용하였고 통신속도가 느린 분산 환경에서는 구현이 불가능해 보였다. 또한 가시화하려는 볼륨 데이터도 점점 방대해지고 있는 실정이다. 이에 본 논문에서는 통신 속도에 구애받지 앉을뿐더러 매우 큰 볼륨데이터를 다루는 병렬/분산 볼륨 렌더링을 제안한다. 본 방법은 고비용을 필요로 하는 원격 메모리 접근 대신에 압축을 기반으로 하여 필요한 데이터를 지역 메모리에서 빠르게 복원함으로써 좋은 성능향상(speedup)을 나타낸다. 이것은 각 프로세서가 전체 볼륨 데이터를 모두 적재하고 있다는 것을 의미한다. 다라서 렌더링 과정중에 발생하는 프로세서간의 통신을 최소화할 수 있었고, 이런 방식은 높은 통신 비용으로 효율적 병렬/분산 처리가 힘든 분산 메모리 병렬 컴퓨터나 PC/워크스테이션 클러스터상에서 매우 적합하다.

  • PDF

The Design and implementation of parallel processing system using the $Nios^{(R)}$ II embedded processor ($Nios^{(R)}$ II 임베디드 프로세서를 사용한 병렬처리 시스템의 설계 및 구현)

  • Lee, Si-Hyun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.14 no.11
    • /
    • pp.97-103
    • /
    • 2009
  • In this thesis, we discuss the implementation of parallel processing system which is able to get a high degree of efficiency(size, cost, performance and flexibility) by using $Nios^{(R)}$ II(32bit RISC(Reduced Instruction Set Computer) processor) embedded processor in DE2-$70^{(R)}$ reference board. The designed Parallel processing system is master-slave, shared memory and MIMD(Mu1tiple Instruction-Multiple Data stream) architecture with 4-processor. For performance test of system, N-point FFT is used. The result is represented speed-up as follow; in the case of using 2-processor(core), speed-up is shown as average 1.8 times as 1-processor's. When 4-processor, the speed-up is shown as average 2.4 times as it's.