• 제목/요약/키워드: parallel architecture

검색결과 886건 처리시간 0.028초

효과적인 메모리 구조를 갖는 병렬 렌더링 프로세서 설계 (Design of a Parallel Rendering Processor Architecture with Effective Memory System)

  • 박우찬;윤덕기;김경수
    • 정보처리학회논문지A
    • /
    • 제13A권4호
    • /
    • pp.305-316
    • /
    • 2006
  • 현재의 거의 대부분의 3차원 그래픽 프로세서는 한 개의 삼각형을 빠르게 처리하는 구조로 되어 있으며, 향후 여러 개의 삼각형을 병렬적으로 처리할 수 있는 프로세서가 등장할 것으로 예상된다. 고성능으로 삼각형을 처리하기 위해서는 각 래스터라이저마다 고유한 픽셀 캐시를 가져야 한다. 그런데, 병렬로 처리되는 경우 각각의 프로세서와 프레임 메모리 간에 일관성 문제가 발생할 수 있다. 본 논문에서는 각각의 그래픽 가속기에 픽셀 캐시를 사용가능 하게 하면서 성능을 증가시키고 일관성 문제를 해결하는 병렬 렌더링 프로세서를 제안한다. 제안하는 구조에서는 픽셀 캐시 미스에 의한 지연(latency)을 감소시켰다. 이러한 2가지 성과를 위하여 현재의 새로운 픽셀 캐시 구조에 효과적인 메모리 구조를 포함시켰다. 실험 결과는 제안하는 구조가 16개 이상의 래스터라이저에서 거의 선형적으로 속도 향상을 가져옴을 보여준다.

1.4 Gbps 비이진 LDPC 코드 복호기를 위한 Fully-Parallel 아키텍처 (Fully-Parallel Architecture for 1.4 Gbps Non-Binary LDPC Codes Decoder)

  • 최인준;김지훈
    • 전자공학회논문지
    • /
    • 제53권4호
    • /
    • pp.48-58
    • /
    • 2016
  • 본 논문은 GF(64) (160,80) 정규 (2,4) 비이진 LDPC 코드 복호기를 위한 높은 처리량의 병렬 아키텍처를 제안한다. 복호기의 복잡도를 낮추기 위해 체크 노드와 변수 노드의 차수가 작은 코드를 사용하며 뛰어난 에러 정정 성능을 위해 높은 위수의 유한체에서 정의된 코드를 사용한다. 본 논문은 Fully-parallel 아키텍처를 설계하고 체크 노드와 변수 노드를 interleaving하여 복호기의 데이터 처리량을 향상시켰다. 또한 체크 노드의 초기화 지연을 단축시킬 수 있는 조기 분류 기법을 제안하여 데이터 처리량을 추가로 향상시켰다. 제안된 복호기는 1 iteration에 37사이클이 소요되며 625MHz 동작주파수에서 1402Mbps의 데이터 처리량을 갖는다.

Model-Based Tabu Search Algorithm for Free-Space Optical Communication with a Novel Parallel Wavefront Correction System

  • Li, Zhaokun;Zhao, Xiaohui;Cao, Jingtai;Liu, Wei
    • Journal of the Optical Society of Korea
    • /
    • 제19권1호
    • /
    • pp.45-54
    • /
    • 2015
  • In this study, a novel parallel wavefront correction system architecture is proposed, and a model-based tabu search (MBTS) algorithm is introduced for this new system to compensate wavefront aberration caused by atmospheric turbulence in a free-space optical (FSO) communication system. The algorithm flowchart is presented, and a simple hypothetical design for the parallel correction system with multiple adaptive optical (AO) subsystems is given. The simulated performance of MBTS for an AO-FSO system is analyzed. The results indicate that the proposed algorithm offers better performance in wavefront aberration compensation, coupling efficiency, and convergence speed than a stochastic parallel gradient descent (SPGD) algorithm.

병렬 응용프로그램 실행 시 GPU 구조에 따른 성능 분석 (Performance Evaluation of the GPU Architecture Executing Parallel Applications)

  • 최홍준;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.10-21
    • /
    • 2012
  • 통합형셰이더 코어 구조 개발 이후 GPU는 그래픽스 전용 연산장치에서 범용 연산장치로 발달하고 있다. 특히, 병렬 응용 프로그램들은 병렬화된 하드웨어 구조를 효과적으로 활용할 수 있기 때문에, GPU를 활용하여 병렬 응용프로그램들을 실행시키는 기법이 주목을 받고 있다. 하지만, 현재의 GPU 구조는 비그래픽스 응용프로그램을 실행하는데 있어서 병렬성을 충분히 확보하지 못하다는 한계를 가지고 있기 때문에, 이를 해결하기 위해 GPU 구조는 빠르게 변화하고 있다. 본 논문에서는 GPU 구조의 개발 방향을 살펴보기 위해, 비그래픽스 병렬 응용프로그램들을 수행하는 경우에 코어 개수 및 동작 주파수 등의 하드웨어구조에 따른 GPU의 성능을 상세히 분석하고자 한다. 실험 결과, 코어 개수가 30에서 192로 늘어나고 동작주파수가 325MHz에서 450MHz로 증가함에 따라 GPU 성능은 28.9%에서 125.8%, 4.4%에서 16.2% 각각 향상되는 반면 성능 향상 효율성은 감소하는 것을 볼 수 있다. 성능 향상 효율성 감소의 주된 원인은 향상된 연산 능력에 맞추어 증가된 데이터 요구를 메모리가 적절하게 처리하지 못하기 때문이다. 결과적으로 GPU의 성능 향상 효율성을 더욱 높이기 위해서는 연산 능력 향상과 더불어 시스템 자원들 또한 GPU 구조에 맞게 변경되어야 함을 구체적인 실험을 통해 알 수 있다.

Multi-band OFDM 시스템용 고속 연판정 비터비 디코더의 효율적인 하드웨어 구조 설계에 관한 연구 (A study on the Cost-effective Architecture Design of High-speed Soft-decision Viterbi Decoder for Multi-band OFDM Systems)

  • 이성주
    • 대한전자공학회논문지SD
    • /
    • 제43권11호
    • /
    • pp.90-97
    • /
    • 2006
  • 본 논문에서는 Multi-band OFDM(MB-OFDM) 시스템에 적합한 고속 연판정 비터비 디코더의 효율적인 하드웨어 구조에 대해서 제시한다. MB-OFDM 시스템은 최대 480Mbps의 데이터 속도를 처리해야 하고 시스템 클럭으로 528MHz가 제공되기 때문에, 설계의 신뢰도를 향상시키기 위해 병렬처리 구조를 사용한다. 따라서, 비터비 디코더도 여러 개의 데이터를 동시에 처리하는 병렬처리 구조를 지원해야 하며, 또한 고속의 데이터를 처리하기 위한 하드웨어 구조를 사용해야 한다. 본 논문에서는 4-way 병렬처리에 적합하면서도 동시에 하드웨어 부담을 최소화할 수 있는 비터비 디코더의 하드웨어 구조를 제시한다. 이를 위해, 비터비 디코더의 핵심 기능블록이라 할 수 있는 ACS의 다양한 구조를 비교 및 분석하고 하드웨어와 동작속도 측면에서 가장 적합한 구조를 찾아내도록 한다. 최적의 하드웨어 구조로 설계된 비터비 디코더는 Verilog HDL로 설계 및 검증되었으며, 하드웨어 복잡도 및 동작속도 측정을 위해 TSMC 0.13um 공정으로 합성되었다. 합성결과, 제시된 구조는 약 280K 게이트로 구성되었으며 MB-OFDM 시스템이 요구하는 동작 주파수내에서 동작함을 확인하였다.

Multi-Access Memory System(MAMS)의 속도 향상을 위한 아키텍처 설계 (Architecture design for speeding up Multi-Access Memory System(MAMS))

  • 고경식;김재희;이스라엘;박종원
    • 전자공학회논문지
    • /
    • 제54권6호
    • /
    • pp.55-64
    • /
    • 2017
  • 대용량 고화질의 영상 응용분야에서는 많은 양의 데이터를 고속으로 처리하는 기술이 필요하며, 이를 위해 고속화된 병렬처리 시스템이 요구된다. 2004년 park은 병렬처리 메모리의 충돌 없이 여러 처리기에 데이터를 접속할 수 있는 방법을 제안하였다. 제안된 MAMS(Multi-Access Memory System) 는 이후 MAMS-PP16 및 MAMS-PP64 등으로 추가적인 연구가 이루어졌다. MAMS는 병렬처리를 위한 메모리 아키텍처로써 One-chip으로 구성되어야하기 때문에 기존 MAMS와 동일한 기능을 수행하면서 아키텍처의 최소화 하는 방법의 연구가 필요하다. 주소 계산 (ACR : Address Calculation and Routing) circuit과 MMS(Memory Module Selection)circuit의 아키텍처는 메모리에 있는 데이터를 병렬처리기(Prossing Elements)들에게 전달한다. 본 논문에서는 MMS circuit을 사용하지 않고 ACR circuit 내부에 1개의 쉬프트와 메모리 모듈의 개수만큼의 조건문으로 구성하는 방법을 통해 아키텍처를 최소화 하는 방법을 제안한다. 구현한 아키텍처의 검증을 위해 Image correlation 실험을 하였다. 실험을 통하여 제안된 MAMS-PP64의 처리시간을 측정 하였으며, 그 결과 Ratio가 평균 1.05향상 된 결과를 확인 할 수 있었다.

Influence of elastic T-stress on the growth direction of two parallel cracks

  • Li, X.F.;Tang, B.Q.;Peng, X.L.;Huang, Y.
    • Structural Engineering and Mechanics
    • /
    • 제34권3호
    • /
    • pp.377-390
    • /
    • 2010
  • This paper studies fracture initiation direction of two parallel non-coplanar cracks of equal length. Using the dislocation pile-up modelling, singular integral equations for two parallel cracks subjected to mixed-mode loading are derived and the crack-tip field including singular and non-singular terms is obtained. The kinking angle is determined by using the maximum hoop stress criterion, or the ${\sigma}_{\theta}$-criterion. Results are presented for simple uniaxial tension and biaxial loading. The biaxiality ratio has a noticeable influence on crack growth direction. For the case of biaxial tension, when neglecting the T-stress the crack branching angle is overestimated for small crack inclination angles relative to the largest applied principal stress direction, and underestimated for large crack inclination angles.

H/V-버스 병렬컴퓨터의 설계 및 성능 분석 (Design and Performance Analysis of the H/V-bus Parallel Computer)

  • 김종현
    • 한국시뮬레이션학회논문지
    • /
    • 제3권1호
    • /
    • pp.29-42
    • /
    • 1994
  • The architecture of a MIMD-type parallel computer system is specified: a simulator is developed to support design and evaluation of systems based on the architecture: and conducted with the simulator to evaluate system performance. The horizontal/vertical-bus(H/V-bus) system architecture provides an NxN array of processing elements which communicate with each other through a network of N horizontal buses and N vertical buses. The simulator, written in SLAM II and FORTRAN, is designed to provide high-resolution in simulating the IPC mechanism. Parameters provide the user with independent control of system size, PE speed and IPC mechanism speed. Results generated by the simulator include execution times, PE utilizations, queue lengths, and other data. The simulator is used to study system performance when a partial differential equation is solved by parallel Gauss-Seidel method. For comparisons, the benchmark is also executed on a single-bus system simulator that is derived from the H/V-bus system simulator. The benchmark is also solved on a single PE to obtain data for computing speedups. An extensive analysis of results is presented.

  • PDF

VLSI 병렬 연산을 위한 여현 변환 알고리듬 (Discrete Cosine Transform Algorithms for the VLSI Parallel Implementation)

  • 조남익;이상욱
    • 대한전자공학회논문지
    • /
    • 제25권7호
    • /
    • pp.851-858
    • /
    • 1988
  • In this paper, we propose two different VLSI architectures for the parallel computation of DCT (discrete cosine transform) algorithm. First, it is shown that the DCT algorithm can be implemented on the existing systolic architecture for the DFT(discrete fourier transform) by introducing some modification. Secondly, a new prime factor DCT algorithm based on the prime factor DFT algorithm is proposed. And it is shown that the proposed algorihtm can be implemented in parallel on the systolic architecture for the prime factor DFT. However, proposed algorithm is only applicable to the data length which can be decomposed into relatively prime and odd numbers. It is also found that the proposed systolic architecture requires less multipliers than the structures implementing FDCT(fast DCT) algorithms directly.

  • PDF

병렬 처리 구조 터보 부호에서 라틴 방진 행렬로 구성된 충돌 방지 인터리버 (Collision-free Interleaver Composed of a Latin Square Matrix for Parallel-architecture Turbo Codes)

  • 김대선;오현영;송홍엽
    • 한국통신학회논문지
    • /
    • 제33권2C호
    • /
    • pp.161-166
    • /
    • 2008
  • 병렬 처리 구조 터보 부호에서 메모리 충돌을 피하기 위한 구성 인터리버 설계가 필요하다. 본 논문에서는 기존에 설계된 인터리버들과 라틴 방진 행렬로 구성된 충돌 방지 인터리버를 제안한다. 제안된 인터리버는 다양한 블록 길이와 다양한 병렬 처리 차수에 대하여 쉽게 최적화 할 수 있다. 제안된 인터리버의 성능을 컴퓨터 모의실험을 통해 검증하였다.