• 제목/요약/키워드: Computation-Communication Overlapping

검색결과 12건 처리시간 0.024초

원형 쉬프트 통신의 중첩 효과 분석 (Overlapping Effects of Circular Shift Communication and Computation)

  • 김정환;노정규;송하윤
    • 정보처리학회논문지A
    • /
    • 제9A권2호
    • /
    • pp.197-206
    • /
    • 2002
  • 통신과 계산 작업을 중첩 수행함으로써 통신 시간의 감춤 효과를 얻는 것은 일반적인 병렬 프로그램 최적화 방법 중의 하나이다. 본 논문에서는 데이타 병렬 프로그램에서 자주 사용되는 군집 통신(collective communication)의 하나인 원형 쉬프트(circular shift) 통신에 대해 중첩 효과를 실험하고 고찰하였다. 이더넷 스위치로 연결된 클러스터 시스템에서 원형 쉬프트 통신을 수행할 때, 중첩으로 얻을 수 있는 최대 이득과 중첩할 수 없는 시간을 측정하였다. 각 플랫폼 별로 이러한 측정값들을 얻어 퇴적화 컴파일러의 입력으로 활용할 수 있을 것이다. 한편 기존의 성능 모델을 통해 퇴적화하는 것은 크게 두가지 문제를 갖고 있다. 하나는 기본적인 점대점 통신에 입각한 모델을 제공하기 때문에 통신 라이브러리의 함수를 사용할 때의 종합적인 효과, 특히, 군집 통신과 같은 경우에는 적용하기 어렵다는 것이다. 다른 하나는 군집 통신의 성능은 분석은 가능하지만, 중첩 효과는 분석할 수 없다는 것이다. 본 논문에서는 이러한 기존 모델의 단점을 보완하여 확장하였다. 또한, 원형 쉬프트 통신에 대한 실험 결과를 토대로 확장된 모델의 매개 변수 값들을 추출하여 예제 프로그램을 통해 분석하였다.

멀티코어 프로세서의 쓰레드-수준 병렬성을 활용한 AES-CCM 계산-통신 중첩화 (Computation-Communication Overlapping in AES-CCM Using Thread-Level Parallelism on a Multi-Core Processor)

  • 이은지;이성주;정용화;이명호;민병기
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권8호
    • /
    • pp.863-867
    • /
    • 2010
  • 최근 멀티코어 프로세서들이 범용 PC 뿐만 아니라 임베디드 시스템에서도 탑재될 만큼 그 사용이 보편화되고 있는 상황에서, 많은 멀티미디어 응용 프로그램이 이들을 활용하여 병렬화 되고 있다. 그러나 멀티미디어 데이터의 암호화와 같이 응용 프로그램에 데이터 종속성이 내재한 경우에는 멀티코어를 이용한 효과적인 병렬처리가 어렵다는 문제가 있다. 본 논문에서는 이러한 한계를 극복하기 위하여 유휴 코어를 이용하여 계산과 통신을 중첩시키는 병렬처리 기법을 제안한다. 특히, 주어진 멀티미디어 데이터를 처리하고 전송하는 문제를 응용 프로그램 수준의 파이프라인 설계 문제로 해석하여 최적의 파이프라인 단계수를 도출하는 방법을 제안한다.

데이타 병렬 프로그램에서 루프 세부 분할 및 동적 스케쥴링을 통한 통신과 계산의 중첩 모델 (A Communication and Computation Overlapping Model through Loop Sub-partitioning and Dynamic Scheduling in Data Parallel Programs)

  • 김정환;한상영;조승호;김흥환
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제27권1호
    • /
    • pp.23-33
    • /
    • 2000
  • 본 논문은 데이타 병렬 프로그램에서 효율적 통신을 위한 하나의 방법으로 통신과 계산 작업을 중첩하여 실행하는 모델을 제안한다. 이 중첩 모델에서는 통신 지연 시간 동안 중첩하여 수행할 계산 작업을 얻기 위해 주어진 루프 분할을 다시 세부 분할한다. 주어진 루프 분할은 다른 외부 데이타 분할을 참조하기도 하지만, 루프 분할의 모든 반복들이 항상 외부 데이타 참조를 필요로 하는 것은 아니다. 따라서 주어진 루프 분할을 외부 데이타를 요구하는 루프 반복들의 집합과 그렇지 않은 루프 반복들의 집합으로 나눌 수 있다. 이렇게 나누어진 루프 세부 분할은 효율적인 수행을 위해 메시지 도착 순서에 따라 동적으로 스케쥴링된다. 제안된 방법에 따라 IBM SP2에서 몇가지 프로그램으로 실험을 한 결과, 중첩 모델이 성능 향상을 보임을 확인할 수 있었다.

  • PDF

분산 딥러닝에서 통신 오버헤드를 줄이기 위해 레이어를 오버래핑하는 하이브리드 올-리듀스 기법 (Hybrid All-Reduce Strategy with Layer Overlapping for Reducing Communication Overhead in Distributed Deep Learning)

  • 김대현;여상호;오상윤
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권7호
    • /
    • pp.191-198
    • /
    • 2021
  • 분산 딥러닝은 각 노드에서 지역적으로 업데이트한 지역 파라미터를 동기화는 과정이 요구된다. 본 연구에서는 분산 딥러닝의 효과적인 파라미터 동기화 과정을 위해, 레이어 별 특성을 고려한 allreduce 통신과 연산 오버래핑(overlapping) 기법을 제안한다. 상위 레이어의 파라미터 동기화는 하위 레이어의 다음 전파과정 이전까지 통신/계산(학습) 시간을 오버랩하여 진행할 수 있다. 또한 이미지 분류를 위한 일반적인 딥러닝 모델의 상위 레이어는 convolution 레이어, 하위 레이어는 fully-connected 레이어로 구성되어 있다. Convolution 레이어는 fully-connected 레이어 대비적은 수의 파라미터를 가지고 있고 상위에 레이어가 위치하므로 네트워크 오버랩 허용시간이 짧고, 이를 고려하여 네트워크 지연시간을 단축할 수 있는 butterfly all-reduce를 사용하는 것이 효과적이다. 반면 오버랩 허용시간이 보다 긴 경우, 네트워크 대역폭을 고려한 ring all-reduce를 사용한다. 본 논문의 제안 방법의 효과를 검증하기 위해 제안 방법을 PyTorch 플랫폼에 적용하여 이를 기반으로 실험 환경을 구성하여 배치크기에 대한 성능 평가를 진행하였다. 실험을 통해 제안 기법의 학습시간은 기존 PyTorch 방식 대비 최고 33% 단축된 모습을 확인하였다.

다중스레드 구조에서 함수 언어 루프의 효과적 실행 (The Efficient Execution of Functional Language Loops on the Multithreaded Architectures)

  • 하상호
    • 한국정보처리학회논문지
    • /
    • 제7권3호
    • /
    • pp.962-970
    • /
    • 2000
  • Multithreading is attractive in that it can tolerate memory latency and synchronization by effectively overlapping communication with computation. While several compiler techniques have been developed to produce multithreaded codes from functional languages programs, there still remains a lot of works to implement loops effectively. Executing lops in a style of multithreading usually causes some overheads, which can reduce severely the effect of multirheading. This paper suggests several methods in terms of architectures or compilers which can optimize loop execution by multithreading. We then simulate and analyze them for the matrix multiplication program.

  • PDF

Virtual Reality Image Shooting for Single Person Broadcasting with Multiple Smartphones

  • Budiman, Sutanto Edward;Lee, Suk-Ho
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제11권2호
    • /
    • pp.43-49
    • /
    • 2019
  • Nowadays, one-person media broadcasting has become popular, and with the progress of this popularity, multimedia techniques which can support such broadcasting are also becoming more and more advanced. One of the most emerging multimedia technique used in this field is the virtual reality technology which sets the one-person media broadcasting environment as a virtual reality environment. However, as such an environment requires instruments of high cost, it is not easy for normal individuals to constitute such environments. Therefore, in this paper we propose how to construct virtual reality-like panoramas with a multiple of smartphones. For this purpose, we designed a special rig which can hold firmly 8 smartphone cameras which have overlapping view of the environment such that panorama stitching becomes possible. To reduce the computation cost, we precomputed the homography matrices, and used 1-D pointer structures to store the computed coordinate values.

선형 어레이 SliM-II 이미지 프로세서 칩 (A linear array SliM-II image processor chip)

  • 장현만;선우명훈
    • 전자공학회논문지C
    • /
    • 제35C권2호
    • /
    • pp.29-35
    • /
    • 1998
  • This paper describes architectures and design of a SIMD type parallel image processing chip called SliM-II. The chiphas a linear array of 64 processing elements (PEs), operates at 30 MHz in the worst case simulation and gives at least 1.92 GIPS. In contrast to existing array processors, such as IMAP, MGAP-2, VIP, etc., each PE has a multiplier that is quite effective for convolution, template matching, etc. The instruction set can execute an ALU operation, data I/O, and inter-PE communication simulataneously in a single instruction cycle. In addition, during the ALU/multiplier operation, SliM-II provides parallel move between the register file and on-chip memory as in DSP chips, SliM-II can greatly reduce the inter-PE communication overhead, due to the idea a sliding, which is a technique of overlapping inter-PE communication with computation. Moreover, the bandwidth of data I/O and inter-PE communication increases due to bit-parallel data paths. We used the COMPASS$^{TM}$ 3.3 V 0.6.$\mu$m standrd cell library (v8r4.10). The total number of transistors is about 1.5 muillions, the core size is 13.2 * 13.0 mm$^{2}$ and the package type is 208 pin PQ2 (Power Quad 2). The performance evaluation shows that, compared to a existing array processors, a proposed architeture gives a significant improvement for algorithms requiring multiplications.s.

  • PDF

MPI 기반 PC 클러스터에서 GHT의 병렬 분산 구현 (Parallel Distributed Implementation of GHT on MPI-based PC Cluster)

  • 김영수;김정삼;최흥문
    • 전자공학회논문지CI
    • /
    • 제44권3호
    • /
    • pp.81-89
    • /
    • 2007
  • MPI(message passing interface) 기반 PC 클러스터 상에서 병렬분산 GHT(generalized Hough transform)를 모델화하고 시간 분석하여 고속화 구현하였다. 파이프라인 방송(pipelined broadcast) 통신방식과 누산기 배열(accumulator array) 분할 처리정책을 사용함으로써 통신부담을 최대한 줄였고, 전체 처리 과정에 걸쳐 통신과 계산처리를 시간 중첩시켜 구현함으로써 최대한의 속도제고를 하였다. 100 Mbps Ethernet 스위치를 이용하여 MPI 기반 PC 클러스터를 구현하고 제안한 병렬분산 GHT를 실험하여 선형에 가까운 속도 제고율 (speedup)을 확인하였다.

주성분 분석과 허프 변환을 이용한 직선 검출 (Straight Line Detection Using PCA and Hough Transform)

  • 오정수
    • 한국정보통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.227-232
    • /
    • 2018
  • 직선 검출을 위한 대표적인 알고리즘인 허프 변환에서 잡음이 있거나 복잡한 영상에서 생성되는 방대한 에지 화소들은 상당한 계산량과 의사직선을 야기한다. 본 논문은 기존 허프변환을 개선하기 위해 2 단계 직선 검출 알고리즘을 제안한다. 첫 번째 단계에서 제안된 알고리즘은 영상을 겹치지 않는 블록들로 나누고, 주성분 분석(PCA)을 이용해 블록 내 에지 화소들의 직선과 관련된 정보를 검출한다. 두 번째 단계에서 직선과 관련된 화소들에 기울기 제한된 허프변환을 수행하여 직선들을 검출한다. 모의실험 결과들은 제안된 알고리즘이 부가적인 계산이 다소 필요하지만 불필요한 에지 화소들을 줄이고 기울기 영역을 제한하여 ${\rho}$ 계산의 평균 94.6% 줄여주고 의사직선 검출을 방지하는 것을 보여주고 있다.

이더넷 다중 클러스터에서 GHT의 병렬 분산 구현 (Parallel Distributed Implementation of GHT on Ethernet Multicluster)

  • 김영수;김명호;최흥문
    • 전자공학회논문지CI
    • /
    • 제46권3호
    • /
    • pp.96-106
    • /
    • 2009
  • 이더넷 클러스터에서 그 분산처리 규모를 확장하려면 스위치 당 최대포트 수(현재 48포트)에 의해 물리적 제약을 받는다. 본 연구에서는 MPI기반 이더넷 클러스터에서 일반화 허프변환(generalized Hough transform: GHT)의 분산처리 규모를 확장하기 위해 다수의 이더넷 스위치들로 다중 클러스터를 구현하고, 확장에 따른 통신 부담을 병렬분산 시간분석 모델 및 통신성능 모델로 분석한 후 고속화 구현하였다. 다중 클러스터 분산처리환경에서 가능한 작업분할 정책들에 대해 평가하고, 허프공간 누산기 배열분할(accumulator array partitioning: AAP)정책을 수정 적용하여 노드간의 통신회수와 통신시간을 최소화하였고, 노드 수의 증가에 따라 AAP 정책의 분할 데이터 범위를 크게 하고 그에 부합하는 부하균형 알고리즘도 구현하였다. 단일링크 병목을 갖는 클러스터간(intercluster) 통신지연을 최대한 줄이기 위하여 일감 분배에는 선형 파이프라인 방송을 사용하고, 작은 결과 메시지들의 수합(gathering)에는 선형 플랫트리(flat tree)를 사용함으로써 총체적으로 계산과 통신을 최대한 시간 중첩시켰다. 제안한 병렬분산 GHT를 이더넷 다중 클러스터 상에서 그 성능을 점근해석하고 실험하여, 4개 고속 이더넷 스위치로 128 노드의 MPI 기반 다중 클러스터를 구현하여 거의 선형에 가까운 속도제고율(speedup)을 확인하였다.