• 제목/요약/키워드: NVIDIA CUDA

검색결과 80건 처리시간 0.01초

NVIDIA GPU 상에서의 난수 생성을 위한 CUDA 병렬프로그램 (Efficient Parallel CUDA Random Number Generator on NVIDIA GPUs)

  • 김영태;황규현
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1467-1473
    • /
    • 2015
  • 본 논문에서는 고성능 병렬 계산 장치로 주목받고 있는 GPU에서의 선형 합동 방식(linear congruential)의 병렬 난수 생성 프로그램을 구현하였다. 난수는 임의성을 필요로 하는 모든 분야에서 중요하게 사용되며, 선형 합동 난수 방식은 컴퓨터 계산을 통하여 생성되는 의사 난수(pseudo random numbers) 생성 방식 중에 가장 많이 사용되는 방식이다. 본 논문에서는 NVIDIA CUDA 프로그래밍 모델을 사용하여 구현된 프로그램 및 MPI를 사용한 다중 GPU를 구동하는 병렬프로그램을 설명하고, 생성된 난수들의 임의성과 성능을 알아보았다. 또한 원주율(${\pi}$)을 계산하기 위한 몬테카를로 알고리즘을 사용하여 CUDA 라이브러리 함수인 cuRAND와 성능을 비교하였으며, 다수의 GPU를 동시에 계산한 성능의 변화도 알아보았다.

NVIDIA CUDA PTX를 활용한 SPECK, SIMON, SIMECK 병렬 구현 (Parallel Implementation of SPECK, SIMON and SIMECK by Using NVIDIA CUDA PTX)

  • 장경배;김현준;임세진;서화정
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.423-431
    • /
    • 2021
  • SPECK과 SIMON은 NSA(National Security Agency)에서 개발한 경량블록암호이며 SIMECK은 SPECK과 SIMON의 장점을 결합하여 만든 새로운 경량블록암호이다. 본 논문에서는 SPECK, SIMON, SIMECK을 사용한 대용량 암호화를 구현 하는데 있어 병렬 처리에 용이한 GPU를 활용하였다. NVIDIA에서 제공하는 CUDA 라이브러리를 활용하였으며 불필요한 연산들을 제거하기 위해 CUDA 어셈블리 언어 PTX를 사용하여 성능을 극대화 하였다. 단순 CPU 구현과 GPU를 활용한 구현 결과를 비교해보았을 때, 더 빠른 속도로 대용량 암호화를 수행할 수 있었다. 또한 GPU 구현 시, C언어를 사용한 구현과 PTX를 사용한 구현을 비교해 보았을 때, PTX 사용 시, 성능이 더욱 증가하는 것을 확인하였다.

CUDA 를 이용한 실시간 Free Viewpoint TV System 구현 (Real-Time Free Viewpoint TV System Using CUDA)

  • 양윤모;이진혁;오병태
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 추계학술대회
    • /
    • pp.71-73
    • /
    • 2015
  • 본 논문에서는 여러 대의 Microsoft Kinect 와 NVidia 사의 GPGPU 라이브러리 CUDA 를 사용하여 실시간 Free Viewpoint TV System 을 제안한다. Kinect 로부터 얻어진 컬러 및 깊이 영상을 통하여 두 카메라 사이의 가상시점에서 영상을 실시간으로 출력하는 시스템을 설계한다. 이 과정에서 많은 연산량을 요구하는 좌표계 변환 과정과 IR 패턴의 간섭문제를 해결하기 위해 사용되는 Nearest Neighbor 홀 채움 방식을 CUDA 를 이용해 병렬화시켰다. 실험 결과 CUDA 를 이용해 구성한 시스템이 기존의 CPU 만을 이용해 구성한 시스템보다 같은 시간 동안 더 많은 합성영상을 만들 수 있었다.

  • PDF

처리 속도 향상을 위해 OpenCV CUDA를 활용한 도로 영역 검출 (A Road Region Extraction Using OpenCV CUDA To Advance The Processing Speed)

  • 이태희;황보현;윤종호;최명렬
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.231-236
    • /
    • 2014
  • 본 논문은 호스트(PC) 기반의 직렬처리 방식으로 도로영역 추출 방식에 디바이스(Graphic Card) 기반의 병렬 처리 방식을 추가함으로써 보다 향상된 처리 속도를 가지는 도로영역검출을 제안하였다. OpenCV CUDA는 기존의 OpenCV와 CUDA를 연동하여 병렬 처리 방식의 많은 함수들을 지원한다. 또한 OpenCV와 CUDA 연동 시 환경 설정이 완료된 OpenCV CUDA 함수들은 사용자의 디바이스(Graphic Card) 사양에 최적화된다. 따라서 OpenCV CUDA 사용은 알고리즘 검증 및 시뮬레이션 결과 도출의 용이성을 제공한다. 제안된 방법은 OpenCV CUDA 와 NVIDIA GeForce GTX 560 Ti 모델의 그래픽 카드를 사용하여 기존 방식보다 3.09배 빠른 처리 속도를 가짐을 실험을 통해 검증한다.

최적화된 CUDA 소프트웨어 제작을 위한 프로그래밍 기법 분석 (Analysis of Programming Techniques for Creating Optimized CUDA Software)

  • 김성수;김동헌;우상규;임인성
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권7호
    • /
    • pp.775-787
    • /
    • 2010
  • GPU(Graphics Processing Unit)는 범용 CPU와는 달리 다수코어 스트리밍 프로세서(manycore streaming processor) 형태로 특화되어 발전되어 왔으며, 최근 뛰어난 병렬 처리 연산 능력으로 인하여 점차 많은 영역에서 CPU의 역할을 대체하고 있다. 이러한 추세에 따라 최근 NVIDIA 사에서는 GPGPU(General Purpose GPU) 아키텍처인 CUDA(Compute Unified Device Architecture)를 발표하여 보다 유연한 GPU 프로그래밍 환경을 제공하고 있다. 일반적으로 CUDA API를 사용한 프로그래밍 작업시 GPU의 계산구조에 관한 여러 가지 요소들에 대한 특성을 정확히 파악해야 효율적인 병렬 소프트웨어를 개발할 수 있다. 본 논문에서는 다양한 실험과 시행착오를 통하여 획득한 CUDA 프로그래밍에 관한 최적화 기법에 대하여 설명하고, 그러한 방법들이 프로그램 수행의 효율에 어떠한 영향을 미치는지 알아본다. 특히 특정 예제 문제에 대하여 효과적인 계층 구조 메모리의 접근과 코어 활성화 비율(occupancy), 지연 감춤(latency hiding) 등과 같이 성능에 영향을 미치는 몇 가지 규칙을 실험을 통해 분석해봄으로써, 향후 CUDA를 기반으로 하는 효과적인 병렬 프로그래밍에 유용하게 활용할 수 있는 구체적인 방안을 제시한다.

GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현 (Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs)

  • 김영태;김두한;유명한
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPU는 그래픽 처리를 위한 GPU의 다중쓰레드를 일반 수치 계산에 활용하여 초고속으로 계산하는 장치이다. GP-GPU에서는 CPU의 캐시메모리와는 달리 다중쓰레드가 공유하는 공유메모리의 형태로 캐시메모리를 제공하며, 공유메모리는 사용자 프로그램에서 직접 제어할 수 있다. 본 연구에서는 GP-GPU의 캐시메모리를 사용하여 계산 성능을 향상시키기 위한 블록 구조의 병렬 LU 분해 프로그램을 구현하였다. Nvidia CUDA C로 구현된 병렬 블록 LU 분해 프로그램은 동일한 GP-GPU 상에서 일반 LU 분해 프로그램에 비교하여 7~8배 이상의 속도 개선을 보였다.

GPU를 이용한 위상 측정법의 가속화 (Acceleration of Phase Measuring Profilometry using GPU)

  • 김호중;조태훈
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2285-2290
    • /
    • 2017
  • 최근 산업의 여러 분야에서 자동화 시스템이 발전함에 따라 3D 측정에 의한 물체의 높이 검사의 필요성이 점차 대두되고 있다. 여러 3D 측정 방법 중에서 본 논문에서 다루는 방법은 위상 측정법으로, 위상 측정법이란 프린지 패턴의 위상값을 이용하여 물체의 높이를 구하는 방법이다. 위상 측정법은 연산량이 많이 필요한 알고리즘이기 때문에 이를 효율적으로 해결할 방법이 필요하다. 본 논문에서는 이를 위해 NVIDIA에서 나온 CUDA를 사용할 것을 제안했다. 또 CUDA에서 제공하는 Pinned memory와 Stream을 사용할 것을 제안하였다. 이를 통해 정확도를 유지하면서 측정 속도는 크게 향상시킬 수 있었고 실험을 통해 성능을 입증하였다.

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

GPU용 연산 라이브러리 CUDA를 이용한 블록암호 고속 구현 (High-Speed Implementations of Block Ciphers on Graphics Processing Units Using CUDA Library)

  • 염용진;조용국
    • 정보보호학회논문지
    • /
    • 제18권3호
    • /
    • pp.23-32
    • /
    • 2008
  • 그래픽 프로세서(GPU)의 연산 능력은 이미 CPU를 능가하고 있으며, 그 격차는 점점 벌어지고 있다. 따라서, 범용 계산에 그래픽 프로세서를 활용하는 GPGPU 연구가 활발히 전개되고 있으며, 병렬 처리가 필요한 분야에서 특히 두드러진 성과를 보이고 있다. GPU를 이용한 암호 알고리즘의 구현은 2005년 Cook 등에 의하여 처음 시도되었으며, OpenGL, DirectX 등의 라이브러리를 이용하여 개선된 결과들이 속속 발표되고 있다. 본 논문에서는 2007년 발표된 NVIDIA의 CUDA 라이브러리를 이용한 블록암호 구현 기법과 그 결과를 소개하고자한다. 또한, 소프트웨어로 구현된 블록암호 소스를 GPU 프로그램으로 이식하는 일반적인 방법을 제공하고자 한다. 8800GTX GPU에서 블록암호 AES, ARIA, DES를 구현했으며, 속도는 각각 4.5Gbps, 7.0Gbps, 2.8Gbps로 CPU보다 고속 구현이 가능하였다.