• 제목/요약/키워드: GPU 최적화

검색결과 103건 처리시간 0.029초

워크 그룹 구성 변화에 따른 GPU 기반 천 시뮬레이션의 성능 분석 (The Performance Analysis of GPU-based Cloth simulation according to the Change of Work Group Configuration)

  • 최영환;홍민;이승현;최유주
    • 인터넷정보학회논문지
    • /
    • 제18권3호
    • /
    • pp.29-36
    • /
    • 2017
  • 오늘날 3D 다이내믹 시뮬레이션은 많은 산업들과 밀접한 관계를 가지고 있다. 과거에는 자동차 충돌, 건축물 분야에서 주로 사용되었으나 최근에는 영화나 게임 분야에도 물리 시뮬레이션이 중요한 역할을 하고 있다. 일반적으로 3D 물체를 사실적으로 표현하기 위해서는 많은 수학적 연산이 필요하기 때문에 기존의 CPU 기반의 응용 프로그램들은 이러한 많은 연산량을 실시간으로 처리하는데 무리가 있다. 최근 그래픽 하드웨어의 발전과 아키텍쳐의 개선으로 GPU는 기존의 렌더링 연산뿐만 아니라 범용 목적의 연산 기능을 제공하고 있고 이러한 GPU를 활용하는 연구가 활발히 진행되고 있다. 본 논문에서는 GPU를 이용한 천 시뮬레이션 수행시 수행 성능을 최적화하기 위하여, GPU 셰이더의 실행 환경 변화에 따른 천 시뮬레이션 알고리즘의 수행 성능의 변화를 분석하였다. GPU를 이용한 천 시뮬레이션은 GLSL 4.3의 Compute shader를 사용하여 스프링 중심 알고리즘과 노드 중심 알고리즘을 PC기반으로 구현하였고, GLSL Compute shader의 다양한 워크 그룹 (Work Group) 크기와 차원 분배에 따른 연산 속도의 변화를 비교 분석하였다. 실험은 5,000 프레임까지 10회 반복 수행하여 FPS(Frame Per Second)의 평균을 구하여 진행하였다. 실행결과, 노드 중심의 알고리즘이 오히려 스프링 중심의 알고리즘 보다 빠른 수행속도를 보여 주었다.

GPU를 이용한 소프트웨어 디지털 필터의 성능개선에 관한 연구 (A Study on the Performance Improvement of Software Digital Filter using GPU)

  • 염재환;오세진;노덕규;정동규;황주연;오충식;김효령
    • 융합신호처리학회논문지
    • /
    • 제19권4호
    • /
    • pp.153-161
    • /
    • 2018
  • 본 논문은 GPU를 이용한 소프트웨어(SW) 디지털 필터의 성능개선에 대해 기술한다. 기존에 개발한 SW 디지털 필터는 CPU 기반에서 동작하여 속도가 느린 문제점이 있었는데, EAVN 관측데이터의 디지털 필터링을 위해 GPU를 도입하여 연산속도를 개선하였고, 필터링을 통하여 다른 관측국과의 데이터 처리가 가능하도록 하였다. SW 디지털 필터의 연산속도를 개선하기 위해 Tensor Core가 내장된 NVIDIA Titan V GPU 보드를 사용하였으며, 2Gbps (512 MHz BW, 1-IF)의 95초 관측데이터를 필터링하는데 관측시간의 약 1.1배, 1Gbps (16MHz BW, 16-IF)로 필터링하는데 약 0.78배 처리속도를 각각 달성하였다. 또한 KVN으로 1, 2Gbps 동시관측한 데이터에 대해 2Gbps 데이터를 디지털 필터링하여 기존 1Gbps와 비교한 결과, 교차전력스펙트럼, 위상, SNR 등이 유사한 값을 얻어 본 연구에서 개발한 SW 디지털 필터를 활용한 데이터 처리와 분석을 수행하는데 유효함을 확인하였다. 향후에는 여러 개의 GPU 보드를 사용하기 위한 소스 코드의 분산처리 최적화를 수행할 경우 실시간으로 관측데이터를 필터링할 수 있을 것으로 기대된다.

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘 (An efficient acceleration algorithm of GPU ray tracing using CUDA)

  • 지중현;윤동호;고광희
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.469-474
    • /
    • 2009
  • 본 논문은 CUDA를 이용하여 GPU에서의 최적화된 kd-tree 탐색구조 환경과 광선/삼각형의 교차검사 알고리즘을 통한 실시간의 광선추적 시스템을 제안한다. 기존의 GPU 기반 kd-tree 탐색 알고리즘은 대부분 스택이 없는 GPU 하드웨어의 특성상 임의의 단말노드에서 기하요소의 교차검사가 실패할 경우 상위노드로 상향식 탐색을 진행하기 때문에 노드에 대한 중복 방문이 반드시 필요하거나 혹은 불필요한 메모리의 적재가 필요하기 때문에 큰 장면에 대한 광선추적은 어렵게 된다. 본 논문에서 제안하는 알고리즘은 CPU 방식의 kd-tree 탐색과 비슷하게 동작하도록 stack을 CUDA 프레임워크를 이용하여 GPU의 지역메모리로 구현하였기 때문에 기존의 방법 등에서의 문제점을 해결하였다. 또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 2배의 성능 향상이 있음을 보여 준다.

  • PDF

PDF 버전 1.4-1.6의 CUDA GPU 환경에서 암호 해독 최적 구현 (PDF Version 1.4-1.6 Password Cracking in CUDA GPU Environment)

  • 김현준;엄시우;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권2호
    • /
    • pp.69-76
    • /
    • 2023
  • 매년 수십만 개의 암호를 분실하거나 잊어버리면서 합법적인 소유자나 권한을 부여받은 법 집행 담당자가 필요한 정보를 사용할 수 없게 된다. 이러한 암호를 되찾기 위해 암호 해독(Password Cracking)이 사용된다. 암호 해독에 CPU 대신 GPU를 사용하면 복구 과정에서 필요한 많은 양의 계산을 신속하게 처리할 수 있다. 본 논문은 현재 가장 많이 사용되는 PDF 1.4 -1.6 버전의 암호 해독에 중점을 두고 CUDA를 사용하여 GPU에서 최적화한다. MD5 알고리즘의 불필요 연산 제거, RC4 알고리즘의 32비트 워드 통합 구현, 공유메모리 사용의 기법을 사용하였다. 또한 성능향상에 영향을 미치는 블록, 스레드 수 탐색을 위해 오토튠 기법을 사용하였다. 결과적으로 RTX 3060, RTX 3090 환경에서 블록 크기 65,536, 스레드 크기 96에서 31,460 kp/s(kilo passwords per second), 66,351 kp/s의 처리량을 보였으며, 기존 최고 처리량을 보여주는 해시캣의 처리량보다 각각 22.5%, 15.2%를 향상시켰다.

GPU 기반 콘텐츠 품질검사 실시간 고속화 시스템 개발 (Development of GPU Based High-speed Contents Quality Check System)

  • 이문식;최성우;안기옥;김민기;정병희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.55-58
    • /
    • 2014
  • 방송 제작 환경은 고품질의 콘텐츠를 빠르고 효율적으로 서비스하기 위하여 IT 기반 시스템으로의 전환을 진행하여 완성 단계에 이르렀으며, 대부분의 방송 콘텐츠는 파일 기반으로 제작 및 보관되고 있다. 과거 테이프 기반에서 파일 기반 콘텐츠로 전환되면서 신호 레벨로 진행되던 전통적인 품질 관리에 대한 새로운 방안이 요구되었으며, 이를 위하여 파일 기반 콘텐츠에 최적화된 콘텐츠 품질검사 시스템 개발이 진행되어 왔다. 이미지 처리에 기반하는 오류 검출 알고리듬의 복잡성으로 인하여 실시간 검사를 지원하지 못하여 HD 실시간 시스템에의 적용에 어려움이 있었으며, 대용량의 아카이브 시스템에서는 품질검사 시간에 대한 단축이 지속적으로 요구되고 있다. 이에 본 논문에서는 방송 환경에서 발생하는 블록 오류 등 다양한 A/V 오류를 고속으로 검출하기 위하여 최근에 급부상하고 있는 GPU 기반의 병렬처리를 이용하는 품질검사 실시간 고속화 시스템의 구현에 대하여 기술하고자 한다.

  • PDF

Regular Mesh 기반 지리정보 3D 합성모델 (Geographic information 3D Synthetic Model based on Regular Mesh)

  • 정지환;황선명;김성호
    • 한국항행학회논문지
    • /
    • 제15권4호
    • /
    • pp.616-625
    • /
    • 2011
  • 본 연구에서는 지형을 Rendering 기법의 대표적인 방법인 Geometry Clipmaps와 ROAM 2.0을 분석하여 Rendering 연산에 소요되는 연산을 CPU가 아닌 GPU에 중점을 두어 보다 빠르고 넓은 가시화 영역을 보장하는 확장된 Geometry Clipmaps 알고리즘을 제안한다. 확장된 알고리즘은 LOD(Level of Detail)을 통한 각 레벨의 Mesh 구성 방법, 레벨간의 연결망 Mesh 구성 방법, VFC(View Frustum Culling)을 사용하여 Rendering을 최적화 할 수 있는 Mesh Block화 방안 그리고 최대 1m 해상도를 갖는 고해상도 영상 Mapping 방안 등을 포함하고 있다.

모바일 GPU 기반의 고속 3차원 공간 정보 취득 기술

  • 정태현;박준형;박인규
    • 방송과미디어
    • /
    • 제26권4호
    • /
    • pp.48-60
    • /
    • 2021
  • 복잡한 알고리즘을 요구하는 3차원 공간 정보 취득 기술은 대부분 고성능의 하드웨어를 필요로 한다. 그러나 최근 스마트폰과 같은 모바일 플랫폼의 성능이 급격히 발전하면서 기존 알고리즘을 가속화해 온 디바이스로 이식하는 연구가 증가하고 있다. 이러한 추세에 따라 본 기고문은 플랫폼 제한 없는 GPU 병렬처리 프레임워크 OpenCL을 활용한 3차원 공간 정보 취득 기술의 가속화 방법을 소개하고자 한다. 본 고의 구성은 다음과 같다. 먼저 모바일 GPU 환경에서의 OpenCL 최적화 방법을 살펴본다. 이후 고전적인 기하학 기반의 스테레오 정합 알고리즘을 가속화한 방법을 소개한다. 마지막으로는 심층 신경망 네트워크와 가속화된 고전적 스테레오 알고리즘을 결합한 온 디바이스 친화적인 융합 알고리즘을 소개한다.

실시간 탄도 궤적 목표물 추적을 위한 GPU 기반 병렬적 입자군집최적화 기법 (Parallelized Particle Swarm Optimization with GPU for Real-Time Ballistic Target Tracking)

  • 한윤호;이헌철;권혁훈;최원석;정보라
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.355-365
    • /
    • 2022
  • This paper addresses the problem of real-time tracking a high-speed ballistic target. Particle filters can be considered to overcome the nonlinearity in motion and measurement models in the ballistic target. However, it is difficult to apply particle filters to real-time systems because particle filters generally require much computation time. This paper proposes an accelerated particle filter using graphics processing unit (GPU) for real-time ballistic target tracking. The real-time performance of the proposed method was tested and analyzed on a widely-used embedded system. The comparison results with the conventional particle filter on CPU (central processing unit) showed that the proposed method improved the real-time performance by reducing computation time significantly.

바이토닉 정렬 기반의 GPU 해싱을 이용한 인접 입자의 빠른 접근 기법과 그 응용 사례 (Fast Access Method of Neighboring Particles Using Bitonic Sort Based GPU Hashing, and Its Applications)

  • 이수빈;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.357-360
    • /
    • 2022
  • 본 논문에서는 대용량 데이터에서 빠르게 주변 데이터를 접근하기 위한 자료구조인 최근접 이웃 탐색(Nearest neighbor search, NNS) 문제를 빠르게 풀 수 있는 바이토닉 정렬(Bitonic sort) 기반 해시 테이블을 GPU기반에서 설계하는 방법과 이를 통해 입자 기반 물리 시뮬레이션을 고속화할 수 있는 방법에 대해 살펴본다. 본 논문에서는 CUDA 아키텍처를 이용하여 해시 테이블을 설계하였으며, 계산양이 가장 큰 데이터 정렬부분을 최적화함으로써 NVIDIA에서 제공하는 CUDA 해시 테이블보다 빠른 결과를 얻을 수 있으며, 이 자료구조를 입자 기반 시뮬레이션에 통합함으로써 고성능 시뮬레이션을 쉽게 제작할 수 있다.

  • PDF

GCN 아키텍쳐 상에서의 OpenCL을 이용한 GPGPU 성능향상 기법 연구 (A Study on GPGPU Performance Improvement Technique on GCN Architecture Using OpenCL API)

  • 우동희;김윤호
    • 한국전자거래학회지
    • /
    • 제23권1호
    • /
    • pp.37-45
    • /
    • 2018
  • 현재 프로그램이 운용되는 시스템은 기존의 싱글코어 및 멀티코어 환경을 넘어서 매니코어, 부가 프로세스 및 이기종 환경까지 그 영역이 확장되고 있는 중이다. 하지만, 기존 연구의 경우 NVIDIA 벤더에서 나온 아키텍쳐 및 CUDA로의 병렬화가 주로 이루어졌고 AMD에서 나온 범용 GPU 아키텍쳐인 GCN 아키텍쳐에 대한 성능향상에 관한 연구는 제한적으로 이루어졌다. 이런 점을 고려해 본 논문에서는 GCN 아키텍쳐의 GPGPU 환경인 OpenCL 내에서의 성능향상 기법에 대해 연구하고 실질적인 성능향상을 보였다. 구체적으로, 행렬 곱셈과 컨볼루션을 적용한 GPGPU 프로그램을 본 논문에서 제시한 성능향상 기법을 통해 최대 30% 이상의 실행시간을 감소시켰으며, 커널 이용률 또한 40% 이상 높였다.