• 제목/요약/키워드: Multi-GPU

검색결과 123건 처리시간 0.028초

멀티코어형 모바일 GPU의 작업 분배 및 효율성 분석 (Analysis of Job Scheduling and the Efficiency for Multi-core Mobile GPU)

  • 임효정;한동건;김형신
    • 한국산학기술학회논문지
    • /
    • 제15권7호
    • /
    • pp.4545-4553
    • /
    • 2014
  • 모바일 GPU가 발전함에 따라 멀티코어 GPU를 효과적으로 최적화하는 것은 스마트폰의 성능을 높이는데 있어 중요한 문제가 되고 있다. 하지만 대부분의 모바일 GPU에 관한 연구는 싱글코어 모바일 GPU에 대해 다루고 있거나, GPU 공급자에 의한 제한적인 연구만을 다루고 있다. 따라서 본 논문에서는 멀티코어 GPU의 작업 분배 패턴과 효율성 분석을 통해 성능향상의 가능성에 대한 분석을 수행하였다. 실험은 DS-5 Streamline을 사용하여 시스템 사용자 인터페이스를 조작하였을 때, GPU의 코어 수의 변화에 따른 그래픽 처리 소요 시간을 측정한 실험과 GPU의 코어 수에 따른 작업 분배 패턴에 대한 실험을 수행하였다. 프로파일링 결과, GPU의 코어수가 더 증가했음에도 불구하고 그래픽 애플리케이션을 실행하는데 요구되는 전체 소요시간이 증가하는 경우를 발견하였다. 또한 GPU가 그래픽을 처리할 때, 약 4ms의 오버헤드가 CPU와 GPU 사이의 통신에서 발생하고, GPU 내부 드라이버의 활동으로 인한 지연이 발생했음을 확인하였다. 따라서 본 논문에서 GPU 동작의 비효율성에 대한 분석결과는 앞으로의 모바일 멀티코어 GPU의 연구에 있어 참고가 될 수 있을 것이라 예상한다.

묵시적 동기화 기반의 고성능 다중 GPU 렌더링 (High-Performance Multi-GPU Rendering Based on Implicit Synchronization)

  • 김영욱;이성길
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1332-1338
    • /
    • 2015
  • 최근 고품질, 초고해상도 실시간 렌더링 지원을 위하여 다중 GPU 렌더링에 대한 관심이 커지고 있다. 실시간 렌더링에서 여러 개의 GPU로 고성능을 달성하기 위해서는 GPU 간의 데이터 전송 지연과 프레임 합성 부하를 고려해야 한다. 이 논문은 이러한 부하를 최소화하고 다중 GPU의 효율을 향상하기 위해 split frame 렌더링의 동기화를 묵시적 질의 기반으로 향상하는 기법을 제안한다. 또한, 이러한 묵시적 동기화 기반 프레임 합성을 지원하기 위한 메시지 큐 기반의 렌더링 스케줄링 알고리즘도 제안한다. 본 알고리즘을 적용한 실험은 본 알고리즘이 기존 알고리즘 대비 200% 이상 효율을 향상함을 확인하였다.

뇌혈관 추출과 대화형 가시화를 위한 다중 GPU기반 영상정합 (Multi GPU Based Image Registration for Cerebrovascular Extraction and Interactive Visualization)

  • 박성진;신영길
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권6호
    • /
    • pp.445-449
    • /
    • 2009
  • 본 논문에서는 조영전 CT 와 조영후 CTA 영상 의 움직임을 보정하기 위하여 연산에 효율적인 다중 GPU 기반 영상정합 기법을 제안한다. 제안방법은 크게 다중 GPU 기반 정합과 뇌혈관 가시화의 두 단계로 구성된다. 우선, 복셀기반정합을 수행하기 위하여 GPU 내부의 병렬성뿐 아니라 GPU 간 병렬성도 고려함으로써 유사도값을 계산한다. 그리고 나서 CTA 영상데이터에서 최적변환행렬에 의하여 변환된 CT 영상데이터를 다중 GPU를 이용하여 차감하고, 차감된 결과를 GPU 기반 볼륨렌더링기법을 이용하여 가시화한다. 본 논문에서 제안한 방법을 화질과 수행시간측면에서 기존방법에 대한 우수성을 나타내기 위하여 5쌍의 조영전 뇌 CT 영상과 조영후 뇌 CTA 영상데이터를 사용하여 비교하였다. 실험결과 제안방법은 뇌혈관이 잘 가시화되어 혈관질환을 정확히 진단할 수 있었다. 다중 GPU 기반 방법은 CPU 기반 방법에 비하여 11.6배, 단일 GPU 기반 방법에 비하여 1.4배 빠른 결과를 보여주었다.

Empirical Performance Evaluation of Communication Libraries for Multi-GPU based Distributed Deep Learning in a Container Environment

  • Choi, HyeonSeong;Kim, Youngrang;Lee, Jaehwan;Kim, Yoonhee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권3호
    • /
    • pp.911-931
    • /
    • 2021
  • Recently, most cloud services use Docker container environment to provide their services. However, there are no researches to evaluate the performance of communication libraries for multi-GPU based distributed deep learning in a Docker container environment. In this paper, we propose an efficient communication architecture for multi-GPU based deep learning in a Docker container environment by evaluating the performances of various communication libraries. We compare the performances of the parameter server architecture and the All-reduce architecture, which are typical distributed deep learning architectures. Further, we analyze the performances of two separate multi-GPU resource allocation policies - allocating a single GPU to each Docker container and allocating multiple GPUs to each Docker container. We also experiment with the scalability of collective communication by increasing the number of GPUs from one to four. Through experiments, we compare OpenMPI and MPICH, which are representative open source MPI libraries, and NCCL, which is NVIDIA's collective communication library for the multi-GPU setting. In the parameter server architecture, we show that using CUDA-aware OpenMPI with multi-GPU per Docker container environment reduces communication latency by up to 75%. Also, we show that using NCCL in All-reduce architecture reduces communication latency by up to 93% compared to other libraries.

다중 GPU를 이용한 R-tree의 병렬 범위 질의 처리 기법 (Parallel Range Query Processing with R-tree on Multi-GPUs)

  • 류홍수;김민철;최원익
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.522-529
    • /
    • 2015
  • 다차원의 데이터를 색인하기 위해 처음 R-tree가 제안된 이후 다양한 방법으로 질의 성능을 향상시키기 위한 많은 연구가 이루어졌다. 그 가운데 다중프로세서를 이용한 병렬 기법으로 질의 성능을 향상시킨 GPU기반의 R-tree가 제안되었다. 하지만 GPU가 갖는 물리적 메모리 크기의 한계가 있어 데이터의 크기가 제한된다. 이에 본 논문에서는 다중 GPU를 이용한 R-tree의 병렬 범위 질의 처리 기법인 MGR-tree 제안한다. 제안하는 MGR-tree는 기존의 GPU기반의 R-tree 질의 처리 기법을 기반으로 하여 다중 GPU에서 질의 처리를 가능하게 R-tree의 노드를 다중 GPU상에 분할하여 분산 처리 하였다. 실험을 통해 MGR-tree는 GPU에서의 선형검색에 비해 최대 9.1배, GPU기반 R-tree에 비해 최대 1.6배 가량의 성능이 향상된 것을 확인하였다.

GPU를 이용한 함정용 다기능레이다 신호처리기 성능 개선 연구 (A Performance Enhancement of a Naval Multi-Function Radar Signal Processor)

  • 권세웅;홍성민;유성현;정채현;손성환;이기원;강연덕
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.141-147
    • /
    • 2020
  • 본 논문에서는 공간 및 전원에 제약사항이 존재하는 함정용 다기능레이다의 생존성 향상을 위해 고속 연산용 DSP를 GPU로 대체 가능성을 검토하기 위한 연구를 수행하였다. 성능비교를 위해 동일한 알고리즘으로 DSP와 GPU상에 신호처리기를 구현하였으며, 다기능 추적 레이다 비디오 신호에 대해 응답속도 측면에서 비교를 수행하였다. 성능비교 결과 전체 신호처리 응답속도는 최소 95 us에서 328 us로 GPU가 DSP대비 1.2배~4.1배 우세하였다. 이 연구를 통해 DSP대비 GPU의 성능은 향후 함정용 다기능레이다 뿐 아니라 고속연산이 필요한 레이다신호처리장치를 대체할 수 있을 것으로 예상된다.

Multi-GPU 기반의 고속 디지털 홀로그램 생성 (Fast Generation of Digital Hologram Based on Multi-GPU)

  • 송중석;박정식;서영호;박종일
    • 방송공학회논문지
    • /
    • 제16권6호
    • /
    • pp.1009-1017
    • /
    • 2011
  • 실시간 홀로그래피 방송을 제작하기 위해서는 디지털 홀로그램을 고속으로 생성하는 것이 중요하다. 본 논문에서는 디지털 홀로그램 생성을 위한 Computer-Generated Holography(CGH) 식의 병렬 구조를 최적화하고, Compute Unified Device Architecture(CUDA)와 Open Multi-Processing (OpenMP) 를 이용한 Multi Graphic Processing Unit(Multi-GPU) 기반의 디지털 홀로그램의 고속 생성을 위한 최적화 기법을 제안한다. 디지털 홀로그램을 생성하는 과정은 독립적인 연산을 할 수 있는 다수의 개체로 병렬화 할 수 있는 구조이기 때문에 이에 특화된 CUDA와 OpenMP를 사용함으로써 CGH식을 고속으로 연산할 수 있다. 여기서 더 나아가 이를 최적화하기 위해서 상수화, 벡터화, 루프풀기 등의 방법을 제안한다. 본 논문에서 제안된 기법을 통해서 기존 CPU에서의 CGH 연산속도에 비해 약 9,700배 정도의 속도를 개선할 수 있었다.

GPU를 이용한 DNA 컴퓨팅 기반 패턴 분류기의 효율적 구현 (Efficient Implementing of DNA Computing-inspired Pattern Classifier Using GPU)

  • 최선욱;이종호
    • 전기학회논문지
    • /
    • 제58권7호
    • /
    • pp.1424-1434
    • /
    • 2009
  • DNA computing-inspired pattern classification based on the hypernetwork model is a novel approach to pattern classification problems. The hypernetwork model has been shown to be a powerful tool for multi-class data analysis. However, the ordinary hypernetwork model has limitations, such as operating sequentially only. In this paper, we propose a efficient implementing method of DNA computing-inspired pattern classifier using GPU. We show simulation results of multi-class pattern classification from hand-written digit data, DNA microarray data and 8 category scene data for performance evaluation. and we also compare of operation time of the proposed DNA computing-inspired pattern classifier on each operating environments such as CPU and GPU. Experiment results show competitive diagnosis results over other conventional machine learning algorithms. We could confirm the proposed DNA computing-inspired pattern classifier, designed on GPU using CUDA platform, which is suitable for multi-class data classification. And its operating speed is fast enough to comply point-of-care diagnostic purpose and real-time scene categorization and hand-written digit data classification.

CUDA와 OPenMP를 이용한 빠르고 효율적인 신경망 구현 (Fast and Efficient Implementation of Neural Networks using CUDA and OpenMP)

  • 박안진;장홍훈;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.253-260
    • /
    • 2009
  • 컴퓨터 비전이나 패턴 인식 분야에서 이용되고 있는 많은 알고리즘들이 최근 빠른 수행시간을 위해 GPU에서 구현되고 있지만, GPU를 이용하여 알고리즘을 구현할 경우 크게 두 가지 문제점을 고려해야 한다. 첫째, 컴퓨터 그래픽스 분야의 지식이 필요한 쉐이딩(shading) 언어를 알아야 한다. 둘째, GPU를 효율적으로 활용하기 위해 CPU와 GPU간의 데이터 교환을 최소화해야 한다. 이를 위해 CPU는 GPU에서 처리할 수 있는 최대 용량의 데이터를 생성하여 GPU에 전송해야 하기 때문에 CPU에서 많은 처리시간을 소모하며, 이로 인해 CPU와 GPU 사이에 많은 오버헤드가 발생한다. 본 논문에서는 그래픽 하드웨어와 멀티코어(multi-core) CPU를 이용한 빠르고 효율적인 신경망 구현 방법을 제안한다. 기존 GPU의 첫 번째 문제점을 해결하기 위해 제안된 방법은 복잡한 쉐이팅 언어 대신 그래픽스적인 기본지식 없이도 GPU를 이용하여 응용프로그램 개발이 가능한 CUDA를 이용하였다. 두 번째 문제점을 해결하기 위해 멀티코어 CPU에서 공유 메모리 환경의 병렬화를 수행할 수 있는 OpenMP를 이용하였으며, 이의 처리시간을 줄여 CPU와 GPU 환경에서 오버 헤드를 최소화할 수 있다. 실험에서 제안된 CUDA와 OpenMP기반의 구현 방법을 신경망을 이용한 문자영역 검출 알고리즘에 적용하였으며, CPU에서의 수행시간과 비교하여 약 15배, GPU만을 이용한 수행시간과 비교하여 약 4배정도 빠른 수행시간을 보였다.

Multi-GPU 환경에서의 Convolution Layer 최적화 실험 (Empirical Experiments for Convolution Layer Optimization on Multi-GPUs)

  • 하지원;테오도라 아두푸;김윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.11-12
    • /
    • 2023
  • GPGPU 환경에서의 ML 모델이 다양한 분야에 지속적으로 활용되면서, 이미지 분할(image segmentation) 연구가 활발하다. multi-GPU 환경에서 성능 최적화를 위하여 병렬화 기법들이 활용되고 있다. 본 연구에서는 multi-GPU 환경에서 U-Net 모델의 전체 수행 시간을 단축하기 위해 convolution 연산을 최적화하는 기법을 적용하는 실험을 진행하였고 shared memory, data parallelism 를 적용하여 82% 성능 향상을 보여주었다.