DOI QR코드

DOI QR Code

A Study of The GPGPU Performance

범용 그래픽 처리장치 (GPGPU)의 성능에 대한 연구

  • Lee, Jongbok (Dept of Electronics and Information Eng., Hansung University)
  • 이종복 (한성대학교 전자정보공학과)
  • Received : 2018.11.01
  • Accepted : 2018.12.07
  • Published : 2018.12.31

Abstract

As the artificial intelligence and big data technology has been developed recently, the importance of GPGPU, which is a general purpose graphics processing unit, is emphasized. In addition, by the demand for mining equipment to obtain bit coins, which is a block chain application technology, the price of GPGPU has increased sharply with scarcity. If a GPGPU can be precisely simulated, it is possible to conduct experiments on various GPGPU types and analyze performance without purchasing expensive ones. In this paper, we investigate the configuration of a GPGPU simulator and measure the performance of various benchmark programs using GPGPU-Sim.

최근에 이르러 인공지능과 빅데이터 기술이 발달함에 따라, 범용 그래픽 처리장치인 GPGPU에 대한 중요성이 강조되고 있다. 또한, 블럭체인의 응용기술인 비트코인을 얻기 위한 채굴기에 대한 수요가 급증하여 GPGPU의 가격이 급상승하는 등 품귀현상이 일어나고 있다. 만일 범용 그래픽 처리장치를 정밀하게 모의실행할 수 있다면, 고가의 범용 그래픽 처리장치를 구매하지 않고도 다양한 범용 그래픽 처리장치 유형에 대한 실험을 수행하여 그 성능을 분석할 수가 있다. 본 논문에서는 GPGPU-Sim을 이용하여 범용 그래픽 처리장치 모의실험기의 구성을 고찰하고, 다양한 벤치마크 프로그램에 대한 성능을 측정하였다.

Keywords

OTNBBE_2018_v18n6_201_f0001.png 이미지

그림 1. GPGPU 모델 Fig. 1. The GPGPU Model

OTNBBE_2018_v18n6_201_f0002.png 이미지

그림 2. 쉐이더 코어의 구조 Fig. 2. The Shader Core

OTNBBE_2018_v18n6_201_f0003.png 이미지

그림 3. GPGPU 모의실험 성능 결과 Fig. 3. GPGPU-Sim simulated performance results

OTNBBE_2018_v18n6_201_f0004.png 이미지

그림 4. GPGPU 모의실험 전력 소모량 Fig. 4. GPGPU-Sim simulated power dissipation

표 1. GPGPU-Sim의 입력 벤치마크 프로그램 Table 1. Benchmark Programs for GPGPU-Sim

OTNBBE_2018_v18n6_201_t0001.png 이미지

표 2. GPGPU 아키텍쳐 하드웨어의 사양 Table 2. The architecture specification of GPGPU

OTNBBE_2018_v18n6_201_t0002.png 이미지

References

  1. A. Bakhoda, G. L. Yuan, W. W. L. Fung, H. Wong, and T. M. Aamodt, "Analyzing CUDA Workloads Using a Detailed GPU Simulator," 2009 International Symposium on Performance Analysis of Systems and Software, pp.163-174, May. 2009.
  2. A. Lshagar, A Baniasadi, "Performance in GPU Architectures : Potentials and Distances," 9th Annual Workshop on Duplicating, 2001.
  3. W. W. L. Fung, I. Sham, G. Yuan, and T. M. Aamodt. Dynamic warp formation and scheduling for efficient GPU control flow. In Proc. 40th IEEE/ACM Int'l Symp. on Microarchitecture, 2007.
  4. S. Ryoo, C. I. Rodrigues, S. S. Baghsorkhi, S. S. Stone, D. B. Kirk, and W. W. Hwu. Optimization principles and application performance evaluation of a multithreaded GPU using CUDA. In Proc. 13th ACM SIGPLAN Symp. on Principles and Practice of Parallel Programming, pages 73-82, 2008.
  5. Z. S. Hakura and A. Gupta. The design and analysis of a cache architecture for texture mapping. In Proc. 24th Int'l Symp. on Computer Architecture, pages 108-120, 1997.
  6. W. W. L. Fung, I. Sham, G. Yuan, and T. M. Aamodt. Dynamic warp formation and scheduling for efficient GPU control flow. In Proc. 40th IEEE/ACM Int'l Symp. on Microarchitecture, 2007.
  7. NVIDIA Corporation. NVIDIA CUDA Programming Guide, 1.1 edition, 2007.
  8. P. Harish and P. J. Narayanan. Accelerating Large Graph Algorithms on the GPU Using CUDA. In HiPC, pages 197-208, 2007.
  9. M. Giles. Jacobi iteration for a Laplace discretisation on a 3D structured grid. http://people.maths.ox.ac.uk/gilesm/hpc/NVIDIA/laplace3d.pdf.
  10. J. Michalakes and M. Vachharajani. GPU acceleration of numerical weather prediction. IPDPS 2008: IEEE Int'l Symp. on Parallel and Distributed Processing, pages 1-7, April 2008.