• 제목/요약/키워드: GPGPU computing

검색결과 87건 처리시간 0.026초

동시에 실행되는 워크로드 조합에 따른 GPGPU 성능 분석 (Analysis of the GPGPU Performance for Various Combinations of Workloads Executed Concurrently)

  • 김동환;엄현상
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.165-170
    • /
    • 2017
  • GPGPU의 높은 연산 처리 능력을 활용하여 길고 복잡한 계산을 하려는 시도가 많이 있다. GPGPU 프로그램의 특성상 host와 device 사이에 메모리 복사가 필요하다. 해당 메모리 복사 latency가 길 경우 프로그램의 성능에 많은 영향을 준다. 그래서 GPGPU를 활용한 프로그래밍은 최적화에 따른 성능 차이가 크다. 여러 개의 GPGPU 프로그램을 동시에 실행시키면 메모리 복사와 GPGPU 컴퓨팅이 중첩이 되어 메모리 복사 latency hiding 효과를 기대할 수 있다. 이 논문에서는 메모리 복사 latency hiding을 분석한다. 또 메모리 복사의 성능을 높이기 위해 pinned memory를 사용했을 경우의 제약 조건에 따른 성능 예측 모델링 및 알고리즘을 제안하고 이를 바탕으로 실행할 워크로드를 선택하면 41%의 성능 향상을 보인다.

비x86 플랫폼 상에서의 CUDA 컴퓨팅을 위한 QEMU 및 GPGPU-Sim 기반 시뮬레이션 프레임워크 개발 (A Simulation Framework for CUDA Computing on Non-x86 Platforms based on QEMU and GPGPU-Sim)

  • 황재민;최종욱;최성림;남병규
    • 한국산업정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.15-22
    • /
    • 2014
  • 본 논문에서는 QEMU와 GPGPU-Sim에 기반하여 비x86 플랫폼을 위한 CUDA 시뮬레이션 프레임워크를 제안한다. 기존 CPU-GPU 이종 컴퓨팅 시뮬레이터는 x86 CPU 모델만을 지원하거나 CUDA를 지원하지 않는 한계를 가진다. 제안된 시뮬레이터는 이러한 문제를 해결하기 위해 x86을 포함하여 비x86 CPU 모델을 지원 가능한 QEMU와 CUDA를 지원하는 GPU 시뮬레이터인 GPGPU-Sim을 통합하였다. 이를 통해 비x86 기반의 CUDA 컴퓨팅 환경을 시뮬레이션할 수 있도록 하였다.

다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 (Thread Block Scheduling for Multi-Workload Environments in GPGPU)

  • 박소연;조경운;반효경
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.71-76
    • /
    • 2022
  • 대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 라운드 로빈 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해 제안하는 방식이 라운드 로빈 대비 평균 24.8%의 성능개선 효과가 있음을 보인다.

GPGPU 기반의 효율적인 카메라 ISP 구현 (Implementing Efficient Camera ISP Filters on GPGPUs Using OpenCL)

  • 박종태;;홍진건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1784-1787
    • /
    • 2010
  • General Purpose Graphic Processing Unit (GPGPU) computing is a technique that utilizes the high-performance many-core processors of high-end graphic cards for general-purpose computations such as 3D graphics, video/image processing, computer vision, scientific computing, HPC and many more. GPGPUs offer a vast amount of raw computing power, but programming is extremely challenging because of hardware idiosyncrasies. The open computing language (OpenCL) has been proposed as a vendor-independent GPGPU programming interface. OpenCL is very close to the hardware and thus does little to increase GPGPU programmability. In this paper we present how a set of digital camera image signal processing (ISP) filters can be realized efficiently on GPGPUs using OpenCL. Although we found ISP filters to be memory-bound computations, our GPGPU implementations achieve speedups of up to a factor of 64.8 over their sequential counterparts. On GPGPUs, our proposed optimizations achieved speedups between 145% and 275% over their baseline GPGPU implementations. Our experiments have been conducted on a Geforce GTX 275; because of OpenCL we expect our optimizations to be applicable to other architectures as well.

GPGPU를 이용한 영상 품질 측정 프로그램의 가속화 연구 (Research of accelerating method of video quality measurement program using GPGPU)

  • 이성욱;변기범;김기수;홍지만
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.69-74
    • /
    • 2016
  • 최근 그래픽 처리 장치(GPU)의 발전과 개발자 친화적인 GPGPU(General-Purpose computing on Graphics Processing Units)기술의 발전으로 인해 그래픽 처리 장치를 활용한 병렬 컴퓨팅의 사용이 확대되고 있다. 이를 통해 과학, 의학, 공학 등 많은 분야에 걸쳐 기존 CPU 컴퓨팅 환경보다 더 빠른 처리속도로 결과 값을 얻어 낼 수 있게 되었다. 본 논문은 CPU 기반 컴퓨팅과 GPU 기반 컴퓨팅의 연산처리 속도의 차이의 비교를 위해 기존 CPU 기반으로 구현된 영상 품질 측정 프로그램을 NVIDIA사의 GPGPU기술을 사용할 수 있도록 프로그램을 포팅한다. 포팅한 프로그램을 바탕으로 GPGPU기술을 통한 프로그램의 가속화에 대하여 연구한다. 가속화된 프로그램은 CPU 기반의 프로그램보다 약 1.83배 정도의 실행 속도를 가진다. 또한 CPU 기반의 프로그램을 GPU 기반으로 수정할 때 생기는 제약과 문제점에 대해서도 기술한다.

GPGPU 기반 조인 연산 병렬화 성능 비교 (Performance Comparison of Join Operations Parallelization by using GPGPU)

  • 이종섭;이상백;이규철
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.28-44
    • /
    • 2018
  • 데이터베이스 시스템 관계 연산자 중에서 연산 비용이 가장 비싼 연산은 조인 연산이다. 일반적으로 CPU 기반의 조인 연산의 경우에는 하나의 코어를 사용하거나 많게는 16개 정도의 코어를 사용하여 병렬 처리를 해서 병렬화에 따른 성능 향상이 크지 않다. 이에 반해, GPGPU(General-Purpose computing on Graphics Processing Units)는 수천 개의 프로세싱 유닛을 통한 병렬 처리가 가능해서 조인 연산 수행 시간을 크게 단축할 수 있다. 본 논문에서는 GPGPU 기반에서 조인 연산 병렬화를 구현하기 위해 NVIDIA의 CUDA SDK가 사용되며, CPU 기반과 GPGPU 기반에서의 조인 연산 성능을 측정한다. 사용되는 조인 연산은 NLJ (Nested Loop Join), SMJ (Merge Join), HJ (Hash Join)이며, GPGPU 장비는 TITAN Xp, GTX 1080 Ti 및 GTX 1080을 사용한다. CPU 기반과 GPGPU 기반의 성능을 비교하고, GPGPU 기반의 조인 연산과 이전 연구의 성능과의 성능을 비교한다. 마지막으로, 실험 결과는 GPGPU 기반의 성능이 CPU 기반의 성능보다 6~328 배 빠른 성능을 보였고 향후 연구의 방향성에 대하여 토의한다.

클라우드 환경에서 GPU 연산으로 인한 가상머신의 성능 저하를 완화하는 GPGPU 작업 관리 기법 (GPGPU Task Management Technique to Mitigate Performance Degradation of Virtual Machines due to GPU Operation in Cloud Environments)

  • 강지훈;길준민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권9호
    • /
    • pp.189-196
    • /
    • 2020
  • 최근 클라우드 환경에서는 고성능 연산이 가능한 GPU(Graphics Processing Unit) 장치를 가상머신에게 적용한 GPU 클라우드 컴퓨팅 기술이 많이 사용되고 있다. 클라우드 환경에서 가상머신에게 할당된 GPU 장치는 대규모 병렬 처리를 통해 CPU보다 더 빠르게 연산을 수행할 수 있으며, 이로 인해 다양한 분야의 고성능 컴퓨팅 서비스들을 클라우드 환경에서 운용할 때 많은 이점을 얻을 수 있다. 클라우드 환경에서 GPU 장치는 가상머신의 성능 향상에 많은 도움을 주지만 가상머신의 CPU 사용 시간을 기반으로 작동하는 가상머신 스케줄러에서는 GPU 장치의 사용 시간이 고려되지 않아 다른 가상머신들의 성능에 영향을 미친다. 본 논문에서는 클라우드 환경에서 가상머신에게 GPU를 할당할 때 많이 사용되는 직접 통로기반 GPU 가상화 환경에서 GPGPU(General-Purpose computing on Graphics Processing Units) 작업을 수행하는 가상머신으로 인한 다른 가상머신들의 성능 저하 현상을 검증하고 분석하며, 이를 해결하기 위한 가상머신의 GPGPU 작업 관리 기법을 제안한다.

OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크 (Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제67권2호
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

A PRICING METHOD OF HYBRID DLS WITH GPGPU

  • YOON, YEOCHANG;KIM, YONSIK;BAE, HYEONG-OHK
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제20권4호
    • /
    • pp.277-293
    • /
    • 2016
  • We develop an efficient numerical method for pricing the Derivative Linked Securities (DLS). The payoff structure of the hybrid DLS consists with a standard 2-Star step-down type ELS and the range accrual product which depends on the number of days in the coupon period that the index stay within the pre-determined range. We assume that the 2-dimensional Geometric Brownian Motion (GBM) as the model of two equities and a no-arbitrage interest model (One-factor Hull and White interest rate model) as a model for the interest rate. In this study, we employ the Monte Carlo simulation method with the Compute Unified Device Architecture (CUDA) parallel computing as the General Purpose computing on Graphic Processing Unit (GPGPU) technology for fast and efficient numerical valuation of DLS. Comparing the Monte Carlo method with single CPU computation or MPI implementation, the result of Monte Carlo simulation with CUDA parallel computing produces higher performance.

RPC 기반 GPU 가상화 환경에서 다중 가상머신의 GPU 메모리 입력으로 인한 커널 함수의 지연 문제 분석 (Analyzing delay of Kernel function owing to GPU memory input from multiple VMs in RPC-based GPU virtualization environments)

  • 강지훈;김수균
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.541-542
    • /
    • 2021
  • 클라우드 컴퓨팅 환경에서는 고성능 컴퓨팅을 지원하기 위해 사용자에게 GPU(Graphic Processing Unit)가 할당된 가상머신을 제공하여 사용자가 고성능 응용을 실행할 수 있도록 지원한다. 일반적인 컴퓨팅 환경에서 한 명의 사용자가 GPU를 독점해서 사용하기 때문에 자원 경쟁으로 인한 문제가 상대적으로 적게 발생하지만 독립적인 여러 사용자가 컴퓨팅 자원을 공유하는 클라우드 환경에서는 자원 경쟁으로 인해 서로 성능 영향을 미치는 문제를 발생시킨다. 본 논문에서는 여러 개의 가상머신이 단일 GPU를 공유하는 RPC(Remote Procedure Call) 기반 GPU 가상화 환경에서 다수의 가상머신이 GPGPU(General Purpose computing on Graphics Processing Units) 작업을 수행할 때 GPU 메모리 입력 경쟁으로 인해 발생하는 커널 함수의 실행 지연 문제를 분석한다.

  • PDF