• Title/Summary/Keyword: GPU 병렬처리

Search Result 250, Processing Time 0.035 seconds

Optimization Technique for Vertex Programming on Programmable GPU (프로그래밍이 가능한 GPU 상에서의 버텍스 프로그래밍의 최적화 기법)

  • Oh, Jinsang;Ihm, Insung
    • Journal of the Korea Computer Graphics Society
    • /
    • v.8 no.3
    • /
    • pp.25-34
    • /
    • 2002
  • 최근 프로그래밍이 가능한 그래픽스 프로세서(GPU)의 등장은 렌더링 속도의 향상은 물론 기존의 GPU가 할 수 없었던 다양한 그래픽스 계산을 효과적으로 수행할 수 있도록 해주고 있다. 이로 인하여 기존에 CPU 상에서 수행해야만 했던 그래픽스 계산들의 일부를 GPU 상에서 수행하도록 해주는 기법들에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 선형식에 기반을 둔 여러 응용 문제들을 GPU 상에서 효율적으로 구현할 수 있도록 도와주는 쉐이더 코드 최적화 기법을 제안한다. 이 기법은 SIMD 형태의 병렬 처리 능력을 가진 버텍스 쉐이더의 명령어에 맞게 고안되었다. 본 기법의 활용 가능성을 보이기 위하여 미분 방정식을 풀기 위한 4차 런지-쿠타 방법, 선형방정식을 풀기 위한 가우스-자이델 방법, 자연스러운 유체 모델링을 위한 파동 방정식 등의 문제에 적용하여 보았다. 본 논문에서 제안한 최적화 기법은 버텍스 쉐이더 용 컴파일러 구현에 쓰일 수 있으며, 향후 프로그래밍이 가능한 GPU 상에서의 실시간 그래픽스 소프트웨어 개발에 유용하게 사용될 수 있을 것이다.

  • PDF

Approximating the Convex Hull for a Set of Spheres (구 집합에 대한 컨벡스헐 근사)

  • Kim, Byungjoo;Kim, Ku-Jin;Kim, Young J.
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.3 no.1
    • /
    • pp.1-6
    • /
    • 2014
  • Most of the previous algorithms focus on computing the convex hull for a set of points. In this paper, we present a method for approximating the convex hull for a set of spheres with various radii in discrete space. Computing the convex hull for a set of spheres is a base technology for many applications that study structural properties of molecules. We present a voxel map data structures, where the molecule is represented as a set of spheres, and corresponding algorithms. Based on CUDA programming for using the parallel architecture of GPU, our algorithm takes less than 40ms for computing the convex hull of 6,400 spheres in average.

CUDA-based Object Oriented Programming Techniques for Efficient Parallel Visualization of 3D Content (3차원 콘텐츠의 효율적인 병렬 시각화를 위한 CUDA 환경 기반 객체 지향 프로그래밍 기법)

  • Park, Tae-Jung
    • Journal of Digital Contents Society
    • /
    • v.13 no.2
    • /
    • pp.169-176
    • /
    • 2012
  • This paper presents a parallel object-oriented programming (OOP) platform for efficient visualization of three-dimensional content in CUDA environments. For this purpose, this paper discusses the features and limitations in implementing C++ object-oriented codes using CUDA and proposes the solutions. Also, it presents how to implement a 3D parallel visualization platform based on the MVC (Model/View/Controller) design pattern. Also, it provides sample implementations for integral MLS (iMLS) and signed distance fields (SDFs) based on the Marching Cubes and Raytracing. The proposed approach enables GPU parallel processing only by implementing simple interfaces. Based on this, developers can expect general benefits that are common in general OOP techniques including abstractization and inheritance. Though I implemented only two specific samples in this paper, I expect my approach can be widely applied to general computer graphics problems.

Introduction to general purpose GPU computing (GPU를 이용한 범용 계산의 소개)

  • Yu, Donghyeon;Lim, Johan
    • Journal of the Korean Data and Information Science Society
    • /
    • v.24 no.5
    • /
    • pp.1043-1061
    • /
    • 2013
  • Recent advances in computer technology introduce massive data and their analysis becomes important. The high performance computing is one of the most essential part in analysis of massive data. In this paper, we review the general purpose of the graphics processing unit and its application to parallel computing, which has been of great interest in statistics communities.

An Enhancement Method of Algorithms Visiting all Combinations by a CUDA Method (CUDA를 이용한 조합 전수조사 알고리즘의 속도 개선 방법)

  • Kim, Young-min
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2013.10a
    • /
    • pp.761-764
    • /
    • 2013
  • Visiting k-combinations of a set S which has n elements is the general representation of many engineering problems. The performance of algorithms visiting all combinations, however, dramatically degrades with growing cases and the time to evaluate each combination. This paper presents the method to enhance the performance of these algorithms by a CUDA method. The experimental results show that the parallel algorithm running on GPU is approximately 900 times faster than the serial algorithm running on CPU.

  • PDF

모바일 GPU 기반의 고속 3차원 공간 정보 취득 기술

  • Jeong, Tae-Hyeon;Park, Jun-Hyeong;Park, In-Gyu
    • Broadcasting and Media Magazine
    • /
    • v.26 no.4
    • /
    • pp.48-60
    • /
    • 2021
  • 복잡한 알고리즘을 요구하는 3차원 공간 정보 취득 기술은 대부분 고성능의 하드웨어를 필요로 한다. 그러나 최근 스마트폰과 같은 모바일 플랫폼의 성능이 급격히 발전하면서 기존 알고리즘을 가속화해 온 디바이스로 이식하는 연구가 증가하고 있다. 이러한 추세에 따라 본 기고문은 플랫폼 제한 없는 GPU 병렬처리 프레임워크 OpenCL을 활용한 3차원 공간 정보 취득 기술의 가속화 방법을 소개하고자 한다. 본 고의 구성은 다음과 같다. 먼저 모바일 GPU 환경에서의 OpenCL 최적화 방법을 살펴본다. 이후 고전적인 기하학 기반의 스테레오 정합 알고리즘을 가속화한 방법을 소개한다. 마지막으로는 심층 신경망 네트워크와 가속화된 고전적 스테레오 알고리즘을 결합한 온 디바이스 친화적인 융합 알고리즘을 소개한다.

Acceleration for Removing Sea-fog using Graphic Processors and Parallel Processing (그래픽 프로세서를 이용한 병렬연산 기반 해무 제거 고속화)

  • Kim, Young-doo;Kwak, Jae-min;Seo, Young-ho;Choi, Hyun-jun
    • Journal of Advanced Navigation Technology
    • /
    • v.21 no.5
    • /
    • pp.485-490
    • /
    • 2017
  • In this paper, we propose a technique for high speed removal of sea-fog using a graphic processor. This technique uses a host processor(CPU) and several graphics processors(GPU) capable of parallel processing to remove sea-fog from the input image. In the process of removing sea-fog, the dark channel extraction, the maximum brightness channel extraction, and the calculation of the transmission are performed by the host processor, and the process of refining the transmission by applying the bidirectional filter is performed in parallel through the graphic processor. To verify the proposed parallel processing method, three NVIDIA GTX 1070 GPUs were used to construct the verification environment. As a result, it takes about 140ms when implemented with one graphics processor, and 26ms when implemented using OpenMP and multiple GPGPUs. The proposed a parallel processing algorithm based on the graphics processor unit can be used for safe navigation, port control and monitoring system.

An Optimization for fast digital hologram generation based on GPU (GPU기반의 디지털 홀로그램 고속 생성을 위한 최적화 기법)

  • Song, Joong-Seok;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2011.07a
    • /
    • pp.18-21
    • /
    • 2011
  • 디지털 홀로그램은 일반적으로 computer generated hologram(CGH)기법에 의해서 생성된다. 하지만 원리적으로 CGH 기법은 많은 연산량과 복잡도를 요구하고 있기 때문에 실시간으로 디지털 홀로그램을 생성하는 것은 매우 어렵다. 본 논문에서는 CGH 고속연산을 위해 graphics processing unit(GPU)의 병렬처리구조인 CUDA를 사용하였고, 추가적으로 다중 GPU 연산처리를 위해 OpenMP를 사용하였다. 더 나아가 이를 최적화하기 위해서 상수화, 벡터화, 루프풀기 등의 기법들을 제안한다. 결과적으로, 본 논문에서 제안된 기법을 통해서 기존 CPU에서의 CGH 연산속도에 비해 약 8,300배 정도의 속도를 개선할 수 있었다.

  • PDF

A GPU Accelerated Algorithm for Predicting Stop Intervals (GPU를 이용한 예측 정지 구간 생성 알고리즘)

  • Lee, Hyungseok;Yeo, Eunji;Lim, Hyo-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1254-1257
    • /
    • 2015
  • 최근 위치기반서비스에 관심이 집중되면서 GPS 궤적에 관심 지점(POI: Point of Interest) 정보를 결합한 시맨틱 궤적(Semantic Trajectory)이 주목 받고 있다. 기존 연구에서는 GPS 궤적으로부터 속력을 계산하여 사용자가 정지했을 만한 예측 정지 구간(PSI: Predictive Stop Interval)과 실제로 방문했을 것이라 예상되는 POI를 선정하여 시맨틱 궤적을 생성하였다. 그러나 CPU에서는 대용량의 GPS 궤적에 대해서 PSI를 구할 시 많은 연산 때문에 시간이 오래 걸리는 문제가 있다. 이에 본 논문에서는 GPU의 병렬성을 이용하여 PSI를 생성하는 알고리즘을 제안한다. 제안하는 GPU를 이용한 PSI 생성 알고리즘은 기존의 CPU를 사용한 PSI 알고리즘보다 최대 5배 이상 속도 향상이 있으며, PSI의 개수가 많을수록 성능상의 이득이 더 큰 장점을 가지고 있다.

A study on comparison and analysis of interconnect network communication performance between computing nodes in GPU cluster system (GPU 클러스터 시스템의 계산노드 간 인터커넥트 네트워크 통신 성능 비교 분석 연구)

  • Min-Woo Kwon;Do-Sik An;TaeYoung Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.2-4
    • /
    • 2023
  • KISTI의 GPU 클러스터 시스템인 뉴론은 NVIDIA의 A100과 V100 GPU가 총 260개 탑재되어 있는 클러스터 시스템이다. 뉴론의 계산노드들은 고성능의 인터커넥트인 Infiniband(IB) 케이블로 연결되어 있어 멀티 노드 작업 수행 시에 고대역 병렬통신이 가능하다. 본 논문에서는 NVIDIA사에서 제공하는 NCCL의 벤치마크 코드를 이용하여 인터커넥트 네트워크의 통신 성능을 비교분석하는 방안에 대해서 소개한다.