• 제목/요약/키워드: GPU 최적화

검색결과 106건 처리시간 0.023초

GCN 아키텍쳐 상에서의 OpenCL을 이용한 GPGPU 성능향상 기법 연구 (A Study on GPGPU Performance Improvement Technique on GCN Architecture Using OpenCL API)

  • 우동희;김윤호
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.37-45
    • /
    • 2018
  • 현재 프로그램이 운용되는 시스템은 기존의 싱글코어 및 멀티코어 환경을 넘어서 매니코어, 부가 프로세스 및 이기종 환경까지 그 영역이 확장되고 있는 중이다. 하지만, 기존 연구의 경우 NVIDIA 벤더에서 나온 아키텍쳐 및 CUDA로의 병렬화가 주로 이루어졌고 AMD에서 나온 범용 GPU 아키텍쳐인 GCN 아키텍쳐에 대한 성능향상에 관한 연구는 제한적으로 이루어졌다. 이런 점을 고려해 본 논문에서는 GCN 아키텍쳐의 GPGPU 환경인 OpenCL 내에서의 성능향상 기법에 대해 연구하고 실질적인 성능향상을 보였다. 구체적으로, 행렬 곱셈과 컨볼루션을 적용한 GPGPU 프로그램을 본 논문에서 제시한 성능향상 기법을 통해 최대 30% 이상의 실행시간을 감소시켰으며, 커널 이용률 또한 40% 이상 높였다.

GPU 기반의 부채꼴 요소법을 이용한 햅틱 도자기 모델링 시스템 (A Haptic Pottery Modeling System Using GPU-Based Circular Sector Element Method)

  • 이재봉;한갑종;최승문
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권8호
    • /
    • pp.611-619
    • /
    • 2010
  • 본 논문에서는 사용자가 실제와 같은 촉감을 느끼면서 가상 도자기의 물레 성형을 체험할 수 있는 E-Learning 시스템을 제안한다. 원통형으로 대칭을 이루는 도자기 모양의 특징에 착안하여 부채꼴 모양을 가진 요소의 집합으로 3차원 도자기를 모델링하였다. 부채꼴 요소법에 최적화된 충돌 처리와 인접요소간 상호작용 알고리즘을 고안하였으며, GPU 기반의 빠른 햅틱 모델과 시각 모델의 동기화를 구현하였다. 성능 평가 결과 부채꼴 요소법은 기존의 변형체 렌더링 기법에 비해 훨씬 더 조밀한 도자기 모델의 현실적인 실시간 햅틱 렌더링이 가능한 것을 확인하였다. 우리가 구현한 시스템을 도자기와 관련된 교육적인 컨텐츠와 잘 결합한다면 초등학생들을 대상으로 한 E-Learning 시스템으로 성공적인 활용이 가능할 것으로 예상된다.

유한요소 비압축성 유동장 해석을 위한 이중공액구배법의 GPU 기반 연산에 대한 연구 (A Study on GPU Computing of Bi-conjugate Gradient Method for Finite Element Analysis of the Incompressible Navier-Stokes Equations)

  • 윤종선;전병진;정혜동;최형권
    • 대한기계학회논문집B
    • /
    • 제40권9호
    • /
    • pp.597-604
    • /
    • 2016
  • 본 연구에서는 GPU를 이용한 비압축성 유동장의 병렬연산을 위하여, P2P1 유한요소를 이용한 분리 알고리즘 내의 행렬 해법인 이중공액구배법(Bi-Conjugate Gradient)의 CUDA 기반 알고리즘을 개발하였다. 개발된 알고리즘을 이용해 비대칭 협착관 유동을 해석하고, 단일 CPU와의 계산시간을 비교하여 GPU 병렬 연산의 성능 향상을 측정하였다. 또한, 비대칭 협착관 유동 문제와 다른 행렬 패턴을 가지는 유체구조 상호작용 문제에 대하여 이중공액구배법 내의 희소 행렬과 벡터의 곱에 대한 GPU의 병렬성능을 확인하였다. 개발된 코드는 희소 행렬의 1개의 행과 벡터의 내적을 병렬 연산하는 커널(Kernel)로 구성되며, 최적화는 병렬 감소 연산(Parallel Reduction), 메모리 코얼레싱(Coalescing) 효과를 이용하여 구현하였다. 또한, 커널 생성 시 워프(Warp)의 크기에 따른 성능 차이를 확인하였다. 표준예제들에 대한 GPU 병렬연산속도는 CPU 대비 약 7배 이상 향상됨을 확인하였다.

OpenCL을 이용한 임베디드 GPGPU환경에서의 AES 암호화 성능 개선과 평가 (Performance Enhancement and Evaluation of AES Cryptography using OpenCL on Embedded GPGPU)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.303-309
    • /
    • 2016
  • 최근, ARM Mali와 같은 여러 임베디드 프로세서들이 OpenCL과 같은 GPGPU 프레임워크를 지원함에 따라 기존 PC 환경에서 활용되던 GPGPU 기술이 임베디드 시스템 영역으로 확대 되고 있다. 그러나 임베디드 시스템은 PC와는 상이한 구조를 갖으며, 저전력이나 실시간성과 같은 성능이 더욱 중요하다. 본 논문에서는 임베디드 GPGPU환경에서 AES 암호화 알고리즘을 개방형 범용 병렬 컴퓨팅 프레임워크인 OpenCL을 사용하여 구현하고 이를 CPU만을 이용한 구현과 비교한다. 실험결과, 1000KByte의 데이터 사이즈의 128비트 AES 암호화 시에 OpenCL을 사용하여 GPU로 병렬 처리하는 것이 OpenMP를 사용하여 CPU상에서 병렬 처리한 방식보다 응답 시간은 최대 1/150, 에너지 소비량은 최대 1/290로 감소함을 확인하였다. 또한 호스트와 GPU 디바이스 간에 메모리를 공유하는 임베디드 구조의 특성에 최적화하여 메모리 복제를 하지 않는 기법을 적용하는 경우 응답시간과 에너지 소비량에서 최대 100% 이상의 추가적인 성능개선을 이룰 수 있었으며, 연구에서 사용한 데이터의 크기에 비례하여 더 높은 성능의 개선이 나타나는 것을 확인하였다.

GPGPU를 이용한 고속 영상 합성 기법 (Fast View Synthesis Using GPGPU)

  • 신홍창;박한훈;박종일
    • 방송공학회논문지
    • /
    • 제13권6호
    • /
    • pp.859-874
    • /
    • 2008
  • 본 논문은 3차원 디스플레이 시스템에서 카메라의 기하 정보 및 참조 영상들의 깊이 맵 정보가 주어졌을 때, 다수의 중간 시점 영상을 실시간으로 생성하는 고속 영상 합성 기법을 제안한다. 기본적으로 본 논문에서는 영상 합성 기법의 모든 과정을 GPU에 서 병렬 처리함으로써 고속화 할 수 있었다. 병렬처리를 이용한 고속화 효율을 높이기 위해 최근 NVIDIA사에서 발표한 $CUDA^{TM}$를 이용하였다. 영상 합성을 위한 모든 중간 과정을 CUDA로 처리하기 위해 병렬구조로 변환하고, GPU 상의 고속메모리의 사용을 극대화하고, 알고리즘 구현을 최적화함으로써 고속화 효율을 높일 수 있었다. 결과적으로 본 논문에서는 양안 영상과 깊이 지도를 이용하여 가로 720, 세로 480 크기의 9개의 시점 영상을 0.128초 이내에 생성할 수 있었다.

Dynamic Remeshing for Real-Time Representation of Thin-Shell Tearing Simulations on the GPU

  • Jong-Hyun Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.89-96
    • /
    • 2023
  • 본 논문에서는 GPU기반으로 옷감을 찢는 데 필요한 동적 재메싱를 실시간으로 처리할 수 있는 방법을 제안한다. 얇은 쉘 재질은 물리 기반 시뮬레이션/애니메이션, 게임, 가상현실 등 다양한 분야에서 활용되고 있다. 옷감을 찢는 것은 기하학과 연결 구조를 동적으로 갱신해야 되기 때문에 그 처리 과정이 복잡하고 계산양이 크다. 특히 인터랙티브 콘텐츠를 다루는 분야에서는 이 과정이 빠르게 수행되어야 한다. 대부분의 방법에서는 실시간을 유지하기 위해 저해상도 시뮬레이션을 통해 재메싱을 수행하거나 이미 분할된 패턴을 그대로 이용하기 때문에 동적 재메싱이라고 보기 어려우며, 찢어진 패턴의 품질이 낮다. 본 논문에서는 GPU에 최적화된 동적 재메싱 알고리즘을 새롭게 제안함으로써 고해상도 옷감 찢어짐을 실시간으로 처리할 수 있게 한다. 본 논문에서 제안하는 방법은 사전에 쪼개진 메쉬 형태가 아닌 동적 재메싱이 가능하기 때문에 가상 수술시뮬레이션이나, 실시간을 요구하는 게임 및 가상환경에서 물리 기반 모델링울 할 때 활용될 수 있다.

CUDA 환경에서 CUSUM 검증의 병렬화 (Parallelization of CUSUM Test in a CUDA Environment)

  • 손창환;박우열;김형균;한경숙;표창우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.476-481
    • /
    • 2015
  • NIST통계적 난수 검증 모음에 속한 누적 합(CUSUM) 검증을 CUDA 환경에서 병렬화하였다. 배열 사유화를 적용하여 스칼라 변수에 저장하던 랜덤 워크(random walk) 값을 배열 변수에 저장하여 데이터 의존성을 제거하였다. 자료 구조 변경에 따라 알고리즘 각 단계에 병렬 스캔, 스캐터 및 병렬 축약 적용이 가능하게 되었다. 또한 CPU를 사용하여 진행되던 부분을 GPU가 담당하게 하여 두 프로세서 사이의 데이터 이동으로 인해 발생하는 직렬화를 해소하였다. 마지막으로 전역 메모리 접근을 최적화하여 전체적으로 순차적 구현 대비 약 23배에 달하는 성능 향상을 달성하였다. 이 결과는 검증 모음의 실행시간 단축과 더불어 암호 키 보안 향상을 위한 난수 연구에 기여할 것으로 예상된다.

GPU 클러스터를 이용한 VKH 데이터의 빠른 볼륨 렌더링 (Fast Volume Rendering of VKH dataset using GPU Cluster)

  • 이중연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.763-765
    • /
    • 2005
  • 볼륨 렌더링은 3차원이나 그 이상의 차원의 볼륨 데이터에서 의미있는 정보를 추출해 내어 직관적으로 표출하는 가시화 기법을 말하며 의료영상 기상학, 유체역학 등 다양한 분야에서 널리 사용되고 있다. 한편, 최근 PC 하드웨어의 급격한 발전으로 과거에는 슈퍼컴퓨터에서나 가능했던 대용량 볼륨 데이터의 가시화가 일반 PC 환경에서도 가능하게 되었다. PC 그래픽스 하드웨어의 꼭지점 및 픽셀 세이더의 수치 계산에 최적화된 벡터 연산으로 빠른 볼륨 가시화를 가능하게 한 것이다. 그러나 그래픽스 하드웨어의 메모리 용량의 한계로 대용량의 볼륨 데이터를 빠르게 가시화하는 것은 지금까지 어려운 문제로 남아있다. 본 논문에서는 한국과학기술정보연구원에서 제작한 대용량의 인체영상 데이터인 Visible Korean Human 데이터를 여러 개의 그래픽스 하드웨어 메모리에 분산시키고 이를 꼭지점 및 픽셀 쉐이더를 이용하여 빠르게 가시화하여 고해상도의 이미지를 얻고자 하였다.

  • PDF

GPGPU를 이용한 고속 디지털 홀로그램 생성 기법 (Fast Generating of Digital Hologram Using GPGPU)

  • 송중석;최지윤;서영호;박종일
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 추계학술대회
    • /
    • pp.34-35
    • /
    • 2010
  • 본 논문은 깊이영상(depth-map image)으로 만든 3차원 객체를 가지고, 디지털 홀로그램을 고속으로 생성하는 기법을 제안한다. 디지털 홀로그램을 생성하는 과정은 여러개의 독립적 처리로 병렬화 할 수 있는 구조이기 때문에 GPU에서 병렬처리함으로써 고속화 할 수 있다. 병렬처리를 이용한 고속화의 효율을 높이기 위해 최근 NVIDIA사에서 발표한 CUDA를 이용하였다. 디지털 홀로그램의 고속 재생을 위한 중간과정에서 GPU상의 고속 메모리의 사용을 극대화하고, 알고리즘 구현을 최적화함으로써 고속화 효율을 높일 수 있었다. 결과적으로 본 논문에서는 기존 CPU에서의 처리속도에 비해 약 64배 정도 속도를 개선할 수 있었다.

  • PDF

VR 영상 스티칭을 위한 SIFT 알고리즘에서의 OpenMP 고속화 방법 (High Speed OpenMP Method in SIFT Algorithm for VR Image Stitching)

  • 이용석;강이슬;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.349-351
    • /
    • 2016
  • 본 논문에서는 VR 영상의 스티칭을 위한 특징점 추출 방식의 하나인 SIFT 알고리즘의 고속화 방법을 제안한다. 이 방법은 SIFT 의 각 단계 모두에 최적화 방법을 적용하여 CPU 에 최적화된 알고리즘을 구축하였다. 그리고 비독립적인 과정들로 이루어진 SIFT 특징점 추출 연산을 병렬화하기 위한 방법으로, 영상 분할 방법을 제시하며 SIFT 의 새로운 병렬화 방법을 제안한다. 특히 최적화 과정을 통해 Scale-space Extrema Detection 과 Orientation Assignment 과정에서 큰 시간 단축 효과를 보여 총 75.5%의 시간을 단축하였다. 이를 OpenMP 와 영상 분할 방법을 활용한 CPU 병렬화로 FullHD($1920{\times}1080$)해상도 영상에서 약 4000 개의 특징점을 추출하는 데 평균 91ms 의 성능을 보이며 기존 GPU 고속화 논문 대비 약 30%의 성능 개선 효과를 보였다.

  • PDF