• 제목/요약/키워드: pipelined broadcast

검색결과 8건 처리시간 0.023초

프로세서 노드 상황을 고려하는 저비용 파이프라인 브로드캐스트 하드웨어 엔진 (Low Cost Hardware Engine of Atomic Pipeline Broadcast Based on Processing Node Status)

  • Park, Jongsu
    • 한국정보통신학회논문지
    • /
    • 제24권8호
    • /
    • pp.1109-1112
    • /
    • 2020
  • This paper presents a low cost hardware message passing engine of enhanced atomic pipelined broadcast based on processing node status. In this algorithm, the previous atomic pipelined broadcast algorithm is modified to reduce the waiting time until next broadcast communication. For this, the processor change the transmission order of processing nodes based on the nodes' communication channel. Also, the hardware message passing engine architecture of the proposed algorithm is modified to be adopted to multi-core processor. The synthesized logic area of the proposed hardware message passing engine was reduced by about 16%, compared by the pre-existing hardware message passing engine.

개선된 윔홀 라우터를 이용한 파이프라인 브로드캐스트 (Pipelined Broadcast with Enhanced Wormhole Routers)

  • 전민수;김동승
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권1호
    • /
    • pp.10-15
    • /
    • 2002
  • 이논문은 nckdnjs 하리퍼큐브에서 O(m+n-1) 이내에서 크기 m인 메세지를 브로드캐스트 하는 파 이프라인 브로드캐스트(pipelined broadcast)를 제안한다. 이것은 도달가능집합(reachable set)으로 부터 유도된 복제 나무(replication tree)를 이용한다. 이 브로드캐스트방식은 O(m[n/log(n+1)])의 수행시간을 갖는 Ho-Kao 의 알고리즘에 비해 성능이 크게 개선된 결과이다. 브로드개스트 통신은 메시지 복제 기능을 갖는 all-port 휨홀 라우터를 이용한다. 이 논문은 알고리즘 기술 및 실제 구현시 이전 방식들과의 성능비 교도 제시한다.

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.795-805
    • /
    • 2012
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.

MPI 기반 PC 클러스터에서 GHT의 병렬 분산 구현 (Parallel Distributed Implementation of GHT on MPI-based PC Cluster)

  • 김영수;김정삼;최흥문
    • 전자공학회논문지CI
    • /
    • 제44권3호
    • /
    • pp.81-89
    • /
    • 2007
  • MPI(message passing interface) 기반 PC 클러스터 상에서 병렬분산 GHT(generalized Hough transform)를 모델화하고 시간 분석하여 고속화 구현하였다. 파이프라인 방송(pipelined broadcast) 통신방식과 누산기 배열(accumulator array) 분할 처리정책을 사용함으로써 통신부담을 최대한 줄였고, 전체 처리 과정에 걸쳐 통신과 계산처리를 시간 중첩시켜 구현함으로써 최대한의 속도제고를 하였다. 100 Mbps Ethernet 스위치를 이용하여 MPI 기반 PC 클러스터를 구현하고 제안한 병렬분산 GHT를 실험하여 선형에 가까운 속도 제고율 (speedup)을 확인하였다.

가변형 방송 스위치 구조 (Scalable Broadcast Switch Architecture)

  • 정갑중;이범철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2004년도 춘계종합학술대회
    • /
    • pp.291-294
    • /
    • 2004
  • 본 연구는 단일 입력 및 다중 출력 크로스바 방식의 스위치 구조에 관한 연구로써 특히 고효율의 방송 기능을 가지는 가변형 방송스위치 구조를 지원한다. 입력 및 출력 버퍼 스위치(input and output buffer switch)에서 중앙 중재기(central arbiter)가 다중 입력포트로부터의 전송 요청(request)을 모아서 모든 입력포트들이 공유하는 각 출력포트에서 최대한 많은 전송 허가(grant)를 빠른 시간 내에 결정하고 그 결과를 각 입력 버퍼들에게 고속으로 전달(transmission)하는 기능을 지원하는 스위치 구조에 관한 것으로 특별히 방송 패킷(broadcast packet)을 스위칭 함에 있어 높은 처리율 (high throughput)을 제공하면서 고속으로 대용량 스위칭(large scale switching) 기능을 제공한다.

  • PDF

Performance Optimization of Parallel Algorithms

  • Hudik, Martin;Hodon, Michal
    • Journal of Communications and Networks
    • /
    • 제16권4호
    • /
    • pp.436-446
    • /
    • 2014
  • The high intensity of research and modeling in fields of mathematics, physics, biology and chemistry requires new computing resources. For the big computational complexity of such tasks computing time is large and costly. The most efficient way to increase efficiency is to adopt parallel principles. Purpose of this paper is to present the issue of parallel computing with emphasis on the analysis of parallel systems, the impact of communication delays on their efficiency and on overall execution time. Paper focuses is on finite algorithms for solving systems of linear equations, namely the matrix manipulation (Gauss elimination method, GEM). Algorithms are designed for architectures with shared memory (open multiprocessing, openMP), distributed-memory (message passing interface, MPI) and for their combination (MPI + openMP). The properties of the algorithms were analytically determined and they were experimentally verified. The conclusions are drawn for theory and practice.

모바일 향 저전력 동영상 압축을 위한 고집적 MPEG4@SP 동영상 압축기 (A full-Hardwired Low-Power MPEG4@SP Video Encoder for Mobile Applications)

  • 신선영;박현상
    • 방송공학회논문지
    • /
    • 제10권3호
    • /
    • pp.392-400
    • /
    • 2005
  • 모바일 환경에서의 효과적인 동영상 압축을 위한 고집적 MPEG-4@SP 동영상 압축기인 VideoCore의 구조를 제안한다. 동영상 압축을 수행할 때 움직임 추정, 움직임 보상, 양자화, 이산여현부호화, 가변장부호화와 같은 기능은 외부 메모리 처리가 빈번하기 때문에 높은 메모리 대역폭을 필요로 한다. 본 논문에서 제안한 움직임 추정기는 소용량의 로컬 메모리를 효과적으로 운용함으로써 대용량 외부 메모리와의 메모리 대역폭을 최소화하는 동영상 압축을 가능하게 한다. 또한 제안한 동영상 압축기 구조는 가장 계산량이 많은 움직임 추정부와 이를 제외한 나머지 기능들을 동시에 구동시키는 파이프라인 구조를 채택함으로써 낮은 동작 주파수에서 실시간 고화질 동영상 압축을 실현한다.

이더넷 다중 클러스터에서 GHT의 병렬 분산 구현 (Parallel Distributed Implementation of GHT on Ethernet Multicluster)

  • 김영수;김명호;최흥문
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.96-106
    • /
    • 2009
  • 이더넷 클러스터에서 그 분산처리 규모를 확장하려면 스위치 당 최대포트 수(현재 48포트)에 의해 물리적 제약을 받는다. 본 연구에서는 MPI기반 이더넷 클러스터에서 일반화 허프변환(generalized Hough transform: GHT)의 분산처리 규모를 확장하기 위해 다수의 이더넷 스위치들로 다중 클러스터를 구현하고, 확장에 따른 통신 부담을 병렬분산 시간분석 모델 및 통신성능 모델로 분석한 후 고속화 구현하였다. 다중 클러스터 분산처리환경에서 가능한 작업분할 정책들에 대해 평가하고, 허프공간 누산기 배열분할(accumulator array partitioning: AAP)정책을 수정 적용하여 노드간의 통신회수와 통신시간을 최소화하였고, 노드 수의 증가에 따라 AAP 정책의 분할 데이터 범위를 크게 하고 그에 부합하는 부하균형 알고리즘도 구현하였다. 단일링크 병목을 갖는 클러스터간(intercluster) 통신지연을 최대한 줄이기 위하여 일감 분배에는 선형 파이프라인 방송을 사용하고, 작은 결과 메시지들의 수합(gathering)에는 선형 플랫트리(flat tree)를 사용함으로써 총체적으로 계산과 통신을 최대한 시간 중첩시켰다. 제안한 병렬분산 GHT를 이더넷 다중 클러스터 상에서 그 성능을 점근해석하고 실험하여, 4개 고속 이더넷 스위치로 128 노드의 MPI 기반 다중 클러스터를 구현하여 거의 선형에 가까운 속도제고율(speedup)을 확인하였다.