• Title/Summary/Keyword: Parallel GPU

검색결과 284건 처리시간 0.025초

국방정보시스템 성능향상을 위한 효율적인 GPU적용방안 연구 (The study on the Efficient methodology to apply the GPU for military information system improvement)

  • 고장혁;이동호
    • 디지털산업정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.27-35
    • /
    • 2015
  • Increasing the number of GPU (Graphic Processor Unit) cores, the studies on High Performance Computing Platform using GPU have actively been made in recent. This trend has led to the development of GPGPU (General Purpose GPU) and CUDA (Compute Unified Device Architecture) Framework. In this paper, we explain the many benefits of the GPU based system, and propose the ICIDF(Identify Compute-Intensive Data set and Function) methodology to apply GPU technology to legacy military information system for performance improvement. To demonstrate the efficiency of this methodology, we applied this method to AES CPU based program obtained from the Internet web site. Simply changing the data structure made improved the performance of AES program. As a result, the performance of AES based GPU program is improved gradually up to 10 times. Depending on the developer's ability, additional performance improvement can be expected. The problem to be solved is heat issue, but this problem has been much improved by the development of the cooling technology.

클라우드 환경에서 GPU 연산으로 인한 가상머신의 성능 저하를 완화하는 GPGPU 작업 관리 기법 (GPGPU Task Management Technique to Mitigate Performance Degradation of Virtual Machines due to GPU Operation in Cloud Environments)

  • 강지훈;길준민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권9호
    • /
    • pp.189-196
    • /
    • 2020
  • 최근 클라우드 환경에서는 고성능 연산이 가능한 GPU(Graphics Processing Unit) 장치를 가상머신에게 적용한 GPU 클라우드 컴퓨팅 기술이 많이 사용되고 있다. 클라우드 환경에서 가상머신에게 할당된 GPU 장치는 대규모 병렬 처리를 통해 CPU보다 더 빠르게 연산을 수행할 수 있으며, 이로 인해 다양한 분야의 고성능 컴퓨팅 서비스들을 클라우드 환경에서 운용할 때 많은 이점을 얻을 수 있다. 클라우드 환경에서 GPU 장치는 가상머신의 성능 향상에 많은 도움을 주지만 가상머신의 CPU 사용 시간을 기반으로 작동하는 가상머신 스케줄러에서는 GPU 장치의 사용 시간이 고려되지 않아 다른 가상머신들의 성능에 영향을 미친다. 본 논문에서는 클라우드 환경에서 가상머신에게 GPU를 할당할 때 많이 사용되는 직접 통로기반 GPU 가상화 환경에서 GPGPU(General-Purpose computing on Graphics Processing Units) 작업을 수행하는 가상머신으로 인한 다른 가상머신들의 성능 저하 현상을 검증하고 분석하며, 이를 해결하기 위한 가상머신의 GPGPU 작업 관리 기법을 제안한다.

지배되지 않는 점을 찾는 GPU기반 병렬 알고리즘 (Computing Non-Dominated Points using a GPUBased Parallel Algorithm)

  • 황윤호;손완빈;안희갑
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.493-496
    • /
    • 2010
  • 본 논문은 평면 위의 점 집합에서 지배되지 않는 점 집합을 찾아내는 병렬 알고리즘을 제안한다. 우리는 먼저 기존의 지배되지 않는 점을 계산하는 문제가 SIMD형 병렬계산 장치인 GPU에서 병렬화가 가능하다는 사실을 보이고, 실제 GPU를 이용한 병렬 알고리즘을 설계 구현하였다. 또한 실험 결과 직렬 알고리즘에 비해 2배 이상의 성능 향상을 얻을 수 있었다.

  • PDF

조합에서 모든 경우의 수를 만들기 위한 CPU와 GPU의 효율적 협업 방법 (Efficient Collaboration Method Between CPU and GPU for Generating All Possible Cases in Combination)

  • 손기봉;손민영;김영학
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권9호
    • /
    • pp.219-226
    • /
    • 2018
  • 조합에서 모든 경우의 수를 생성하는 체계적인 방법 중 하나는 조합 트리를 구성 하는 것이며 조합 트리를 구성하는 시간 복잡도는 O($2^n$)이다. 조합 트리는 그래프 동형 문제나 빈발 항목집합을 계산하는 초기 모델 등 다양한 목적으로 활용된다. 그러나 조합의 모든 경우의 수를 탐색해야 하는 알고리즘은 높은 시간 복잡도로 인해 현실적으로 활용되기 어렵다. 그럼에도 불구하고 데이터의 양이 방대해지고 이를 활용하기 위한 다양한 연구가 진행되면서 모든 경우의 수를 탐색해야만 하는 경우가 늘고 있다. 최근 GPU환경이 보급되고 쉽게 접할 수 있게 되면서 직렬 환경에서 높은 시간 복잡도를 가지는 알고리즘들을 병렬화 하여 시간을 줄이려는 다양한 시도가 이루어지고 있다. 조합에서 모든 경우의 수를 생성하는 방법은 순차적으로 진행되고 하부 작업의 크기가 편향되기 때문에 병렬 구현에 적합하지 않다. 병렬 알고리즘의 성능은 모든 스레드가 비슷한 크기의 작업을 가질 때 극대화될 수 있다. 본 논문에서는 모든 경우의 수를 구하는 문제를 병렬화하기 위하여 CPU와 GPU가 효율적으로 협업하기 위한 방법을 제안한다. 제안한 알고리즘의 성능을 검증하기 위하여 이론적인 측면에서 시간 복잡도를 분석하고, CPU와 GPU환경에서 다른 알고리즘과 본 연구에서 제안한 알고리즘의 실험 시간을 비교한다. 실험 결과 본 연구에서 제안한 CPU와 GPU의 협업 알고리즘은 이전 알고리즘에 비하여 CPU의 수행시간과 GPU의 수행시간의 균형을 유지하였고 아이템의 개수가 커질수록 괄목할 만한 시간 개선을 보였다.

OpenACC와 GPU를 이용한 3차원 파동 전파 모델링 (Three-dimensional Wave Propagation Modeling using OpenACC and GPU)

  • 김아름;이종우;하완수
    • 지구물리와물리탐사
    • /
    • 제20권2호
    • /
    • pp.72-77
    • /
    • 2017
  • 3차원 주파수 영역과 라플라스 영역 파동장을 얻기 위해 시간 영역에서 파동 전파 모델링을 하는 동시에 푸리에 변환과 라플라스 변환을 수행하였다. 이 과정에서 효율적인 계산을 위해 OpenACC와 GPU를 이용한 병렬 연산을 수행하였다. OpenACC를 이용하면 기존의 C, C++, Fortran 등 프로그래밍 언어에 간단한 지시어(directive)를 추가하여 GPU 연산 가속기를 사용할 수 있기 때문에 CUDA 또는 OpenCL과 같은 GPGPU 프로그래밍 언어를 배우지 않고도 GPU를 이용한 프로그래밍을 할 수 있다. OpenACC 프로그램은 GPU 메모리 공간 할당, 호스트와 디바이스 간의 데이터 복사 및 GPU 연산 과정을 자동으로 또는 사용자 정의에 따라 수행하게 된다. 수치 실험으로 OpenACC와 GPU를 사용한 3차원 파동 전파 모델링 프로그램과 단일 CPU 코어를 사용한 프로그램의 성능을 비교하였다. 상속도 모델과 SEG/EAGE 암염돔 속도 모델을 이용한 결과, OpenACC와 GPU를 사용한 경우 단일 CPU 코어를 사용하였을 때보다 계산 속도가 각각 53배와 30배 정도 향상되었다.

OpenCL을 활용한 CPU와 GPU 에서의 CMMB LDPC 복호기 병렬화 (Parallel LDPC Decoder for CMMB on CPU and GPU Using OpenCL)

  • 박주열;홍정현;정기석
    • 대한임베디드공학회논문지
    • /
    • 제11권6호
    • /
    • pp.325-334
    • /
    • 2016
  • Recently, Open Computing Language (OpenCL) has been proposed to provide a framework that supports heterogeneous computing platforms. By using an OpenCL framework, digital communication systems can support various protocols in a unified computing environment to achieve both high portability and high performance. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes for China Multimedia Mobile Broadcasting (CMMB) on a heterogeneous platform. Each step of LDPC decoding has different parallelization characteristics. In this paper, steps suitable for task-level parallelization are executed on the CPU, and steps suitable for data-level parallelization are processed by the GPU. To improve the performance of the proposed OpenCL kernels for LDPC decoding operations, explicit thread scheduling, loop-unrolling, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance by using heterogeneous multi-core processors on a unified computing framework.

Thickness and clearance visualization based on distance field of 3D objects

  • Inui, Masatomo;Umezun, Nobuyuki;Wakasaki, Kazuma;Sato, Shunsuke
    • Journal of Computational Design and Engineering
    • /
    • 제2권3호
    • /
    • pp.183-194
    • /
    • 2015
  • This paper proposes a novel method for visualizing the thickness and clearance of 3D objects in a polyhedral representation. The proposed method uses the distance field of the objects in the visualization. A parallel algorithm is developed for constructing the distance field of polyhedral objects using the GPU. The distance between a voxel and the surface polygons of the model is computed many times in the distance field construction. Similar sets of polygons are usually selected as close polygons for close voxels. By using this spatial coherence, a parallel algorithm is designed to compute the distances between a cluster of close voxels and the polygons selected by the culling operation so that the fast shared memory mechanism of the GPU can be fully utilized. The thickness/clearance of the objects is visualized by distributing points on the visible surfaces of the objects and painting them with a unique color corresponding to the thickness/clearance values at those points. A modified ray casting method is developed for computing the thickness/clearance using the distance field of the objects. A system based on these algorithms can compute the distance field of complex objects within a few minutes for most cases. After the distance field construction, thickness/clearance visualization at a near interactive rate is achieved.

유전 알고리즘과 게임 트리를 병합한 오목 인공지능 설계 및 GPU 기반 병렬 처리 기법 (Design of Omok AI using Genetic Algorithm and Game Trees and Their Parallel Processing on the GPU)

  • 안일준;박인규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권2호
    • /
    • pp.66-75
    • /
    • 2010
  • 본 논문에서는 GPU(graphics processing unit)를 이용하여 오목의 인공지능 알고리즘 연산을 고속으로 수행하기 위한 효율적인 알고리즘 설계와 구현 방법을 제안한다. 본 논문에서 제안하는 게임 인공지능은 최소-최대 게임 트리(min-max game tree)와 유전 알고리즘(genetic algorithm)의 협업적 구조로 설계된다. 게임 트리와 유전 알고리즘의 평가함수(evaluation function) 부분은 많은 계산 량을 소모하지만 해 공간(solution space)의 수많은 후보 벡터에 대해 독립적으로 수행되기 때문에 본 논문에서는 이를 GPU 상에서의 대량 병렬처리를 통해 수행한다. NVIDIA CUDA(compute unified device architecture)환경에서의 실제 구현을 통해 CPU에서의 처리에 비해 게임 트리는 400배 이상의 수행 속도의 향상을, 유전 알고리즘은 300배 이상의 수행 속도의 향상을 각각 보였다. 본 논문에서는 스레드(thread)의 넘침(overflow)을 피하고 보다 효과적인 해 공간 탐색을 위해, 게임 트리를 이용하여 근방의 몇 단계까지 전역 탐색(full search)을 수행한 후 이후 단계는 유전 알고리즘을 이용하여 선별 탐색을 수행하는 협업적 인공지능을 제안한다. 다양한 실험 결과를 통해 제안하는 알고리즘은 게임의 인공지능을 향상시키고 게임의 규칙으로부터 주어진 시간 내에 문제를 해결할 수 있음을 보인다.

3D 게임의 실시간 렌더링 속도 향상을 위한 소프트웨어적 기법 (A Software Method for Improving the Performance of Real-time Rendering of 3D Games)

  • 황석민;성미영;유용희;김남중
    • 한국게임학회 논문지
    • /
    • 제6권4호
    • /
    • pp.55-61
    • /
    • 2006
  • 그래픽스 렌더링 파이프라인 (응용, 기하, 레스터화)은 컴퓨터 게임에서 가장 중요한 기능인 실시간 그래픽스 렌더링의 핵심이다. 일반적으로 그래픽스 렌더링은 CPU와 GPU의 두 장치의 협조에 의해 완성되며 이 협조 과정에서 병목이 발생할 수 있다. 본 논문에서는 CPU와 GPV 사이에 발생하는 병목현상을 줄이는 데 초점을 맞추어, 보통은 하나의 스레드로 처리되는 CPU 연산을 순수 CPU 연산과 GPV와 연관된 연산의 두 가지로 구분하여 서로 독립적인 스레드로 병렬처리 되게 함으로써 실시간 그래픽스 렌더링의 성능을 향상시키는 방법을 제안한다. 이 방법은 CPU와 GPV사이의 협조를 위한 전송 과정에서의 병렬성을 극대화한다. 실험을 통하여 제안하는 방법이 기존의 방법 보다 더 빠르게 그래픽스 렌더링을 수행함을 검증하였다. 또한 본 논문에서는 CPU와 GPU의 협조 과정에서 생기는 병목현상으로 인한 유휴시간을 잘 활용하여 렌더링 파이프라인의 균형을 맞추면서 렌더링의 질을 높이는 방법도 제안한다. 제안하는 방법들을 우리가 개발한 네트워크 게임 엔진에 적용하여 실제 시스템에서도 효과가 있음을 확인하였다.

  • PDF

타일 기반 그래픽 파이프라인 구조를 사용한 SIMT 구조 GP-GPU 설계 (Design of a SIMT architecture GP-GPU Using Tile based on Graphic Pipeline Structure)

  • 김도현;김치용
    • 전기전자학회논문지
    • /
    • 제20권1호
    • /
    • pp.75-81
    • /
    • 2016
  • 본 논문은 SIMT(Single Instruction Multi Thread)구조 GP-GPU(General Purpose Graphic Processing Unit)에서 그래픽 어플리케이션 성능을 향상시키기 위해 타일 기반 그래픽 파이프라인 구조를 제안한다. 타일 기반 그래픽 파이프라인 구조는 병렬적으로 Rasterization 단계를 처리하고, 불필요한 그래픽 처리 연산은 수행하지 않는다. SIMT구조를 통해 대용량 데이터를 병렬로 처리하여 연산 성능을 향상시켰고, 이는 3D 그래픽 파이프라인 처리의 성능을 향상하였다. 제안하는 구조를 통해 3D 그래픽 어플리케이션을 처리할 때 3D 모델을 구성하는 정점 데이터가 많아 질수록 높은 효율을 보인다. 제안하는 구조는 'RAMP'와 기존의 선행 연구를 비교하여 약 1.18배에서 최대 3배까지의 처리 성능 향상을 확인하였다.