• 제목/요약/키워드: CUDA(CUDA)

검색결과 295건 처리시간 0.031초

GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현 (Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs)

  • 김영태;김두한;유명한
    • 인터넷정보학회논문지
    • /
    • 제14권6호
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPU는 그래픽 처리를 위한 GPU의 다중쓰레드를 일반 수치 계산에 활용하여 초고속으로 계산하는 장치이다. GP-GPU에서는 CPU의 캐시메모리와는 달리 다중쓰레드가 공유하는 공유메모리의 형태로 캐시메모리를 제공하며, 공유메모리는 사용자 프로그램에서 직접 제어할 수 있다. 본 연구에서는 GP-GPU의 캐시메모리를 사용하여 계산 성능을 향상시키기 위한 블록 구조의 병렬 LU 분해 프로그램을 구현하였다. Nvidia CUDA C로 구현된 병렬 블록 LU 분해 프로그램은 동일한 GP-GPU 상에서 일반 LU 분해 프로그램에 비교하여 7~8배 이상의 속도 개선을 보였다.

평면 다물체 동역학 해석에서 GPU 병렬 프로그래밍의 계산효과 (Calculation Effect of GPU Parallel Programing for Planar Multibody System Dynamics)

  • 전철웅;손정현
    • 동력기계공학회지
    • /
    • 제16권4호
    • /
    • pp.12-16
    • /
    • 2012
  • In this paper, the equations of motions for planar multibody dynamics are established for considering the parallel programming based on GPU. Cartesian coordinates are used to formulate the equations of motion and implicit integration method called HHT-alpha is employed. Open chain multibody system is considered for computer simulation. CUDA toolkit is employed for establishing the GPU parallel programming. The exactness of the analysis is verified from the comparison with ADAMS. The results from parallel computing based on GPU are compared with the results from the sequential programming based on CPU in terms of calculation time. The multiple pendulum with bodies and joints is employed for the computer simulation. In the pendulum system that has 290 bodies, the parallel program indicates an improved efficiency of about 25.5 second(15.5% improvement). It is noted that the larger the size of system is, the time efficiency is better.

Performance Study of Satellite Image Processing on Graphics Processors Unit Using CUDA

  • Jeong, In-Kyu;Hong, Min-Gee;Hahn, Kwang-Soo;Choi, Joonsoo;Kim, Choen
    • 대한원격탐사학회지
    • /
    • 제28권6호
    • /
    • pp.683-691
    • /
    • 2012
  • High resolution satellite images are now widely used for a variety of mapping applications including photogrammetry, GIS data acquisition and visualization. As the spectral and spatial data size of satellite images increases, a greater processing power is needed to process the images. The solution of these problems is parallel systems. Parallel processing techniques have been developed for improving the performance of image processing along with the development of the computational power. However, conventional CPU-based parallel computing is often not good enough for the demand for computational speed to process the images. The GPU is a good candidate to achieve this goal. Recently GPUs are used in the field of highly complex processing including many loop operations such as mathematical transforms, ray tracing. In this study we proposed a technique for parallel processing of high resolution satellite images using GPU. We implemented a spectral radiometric processing algorithm on Landsat-7 ETM+ imagery using CUDA, a parallel computing architecture developed by NVIDIA for GPU. Also performance of the algorithm on GPU and CPU is compared.

CUDA based parallel design of a shot change detection algorithm using frame segmentation and object movement

  • Kim, Seung-Hyun;Lee, Joon-Goo;Hwang, Doo-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권7호
    • /
    • pp.9-16
    • /
    • 2015
  • This paper proposes the parallel design of a shot change detection algorithm using frame segmentation and moving blocks. In the proposed approach, the high parallel processing components, such as frame histogram calculation, block histogram calculation, Otsu threshold setting function, frame moving operation, and block histogram comparison, are designed in parallel for NVIDIA GPU. In order to minimize memory access delay time and guarantee fast computation, the output of a GPU kernel becomes the input data of another kernel in a pipeline way using the shared memory of GPU. In addition, the optimal sizes of CUDA processing blocks and threads are estimated through the prior experiments. In the experimental test of the proposed shot change detection algorithm, the detection rate of the GPU based parallel algorithm is the same as that of the CPU based algorithm, but the average of processing time speeds up about 6~8 times.

주행로봇을 위한 GPU 기반의 고속 인공표식 인식 (GPU based Fast Recognition of Artificial Landmark for Mobile Robot)

  • 권오성;김영균;조영완;서기성
    • 한국지능시스템학회논문지
    • /
    • 제20권5호
    • /
    • pp.688-693
    • /
    • 2010
  • 주행 로봇 환경에서 비전 기반의 물체 인식은 물체의 주변 요소와 동적인 환경에 대한 다양한 영상처리 문제를 포함한다. SURF(Speeded Up Robust Features)는 영상의 크기와 회전변화에 강인하게 물체를 인식하는 알고리즘으로 많은 연구자에 의해 사용되고 있다. 하지만 SURF 기반의 영상처리 방법은 고차원의 벡터 성분을 사용하기 때문에 연산 과정에서 많은 시간을 소비하며, 그로 인해 실시간 시스템에서 수행의 어려움을 가지고 있다. 본 연구에서는 이러한 문제점을 해결하기 위해서, 연산량이 많은 SURF 처리 과정을 GPU(Graphics Processing Unit)에서 수행하도록 하여, 보다 빠른 영상 인식을 구현하고자 한다. NVIDIA의 CUDA 라이브러리를 이용하여 GPU 상의 수행 프로그램을 구현하고, 실험을 통해 이동 로봇의 속도와 영상의 크기변화에 따른 표식의 인식률 및 수행시간에 대해서 CPU와 성능을 비교한다.

GPU를 이용한 스테레오 정합 알고리즘의 구현 (Implementation of Stereo Matching Algorithm using GPU)

  • 최현준;서영호;김동욱
    • 한국정보통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.583-588
    • /
    • 2011
  • 본 논문에서는 최종 변이영상의 정확도를 높이기 위해 영상의 특징점을 이용한 적응적 가변 정합창 방법과 교차 일치성 검사의 신뢰도를 높이는 방법을 제안한다. 제안한 적응적 가변 정합창 방법은 색상정보를 이용하여 영상을 분할하고 분할된 각 영상의 특징점을 찾아 그 특징점들의 유무에 따라 정합창의 크기를 적응적으로 가변시키는 방법이다. 또한 제안한 알고리즘을 GPU를 기반으로 구현하여 연산속도가 평균 128배 빨라졌다. GPU는 NVIDIA의 GeForce GTX296를 사용하였고, CUDA를 기반으로 프로그래밍 하였다.

CPU와 GPU의 병렬 처리를 이용한 고속 물체 인식 알고리즘 구현 (The Implementation of Fast Object Recognition Using Parallel Processing on CPU and GPU)

  • 김준철;정용한;박은수;최학남;김학일;허욱렬
    • 제어로봇시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.488-495
    • /
    • 2009
  • This paper presents a fast feature extraction method for autonomous mobile robots utilizing parallel processing and based on OpenMP, SSE (Streaming SIMD Extension) and CUDA programming. In the first step on CPU version, the algorithms and codes are optimized and then implemented by parallel processing. The parallel algorithms are debugged to maintain the same level of performance and the process for extracting key points and obtaining dominant orientation with respect to key points is parallelized. After extraction, a parallel descriptor via SSE instructions is constructed. And the GPU version also implemented by parallel processing using CUDA based on the SIFT. The GPU-Parallel descriptor achieves an acceleration up to five times compared with the CPU-Parallel descriptor, but it shows the lower performance than CPU version. CPU version also speed-up the four and half times compared with the original SIFT while maintaining robust performance.

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

라이다 점군의 효율적 검색을 위한 CUDA 기반 옥트리 알고리듬 구현 (Implementation of CUDA-based Octree Algorithm for Efficient Search for LiDAR Point Cloud)

  • 김형우;이양원
    • 대한원격탐사학회지
    • /
    • 제34권6_1호
    • /
    • pp.1009-1024
    • /
    • 2018
  • 라이다의 활용 증가와 함께 점군 자료의 양이 급증할 것으로 예상되며, 이에 따라 효율적인 점군 검색 및 자료 분석을 위한 차원 축소 방법의 중요성이 강조되고 있다. 이에 따라 본 연구에서는 입력된 원점과 방향 벡터를 이용해 옥트리 노드를 조회하는 파라메트릭 알고리듬의 특징에 따른 기존 CPU, GPU 기반 옥트리의 한계를 정의하고, 이를 극복할 수 있는 검색 기법을 제시한다. GPU 옥트리 환경을 활용할 수 있는 파라메트릭 알고리듬을 구현하고 이에 대한 성능평가를 수행하였으며, 또한 검색된 지점을 활용하여 잡음이 제거된 2차원 영상 투영 방법을 구현하였다.

CUDA GPGPU 상에서 경량 블록 암호 PIPO의 최적 구현 (Optimal Implementation of Lightweight Block Cipher PIPO on CUDA GPGPU)

  • 김현준;엄시우;서화정
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1035-1043
    • /
    • 2022
  • 사물인터넷(IoT), 클라우드 컴퓨팅, 빅데이터 등의 확산으로 애플리케이션에 대한 고속 암호화의 필요성이 대두되고 있다. GPU 최적화는 GPU가 이론적으로 얻은 암호 분석 결과 또는 축소된 버전을 합리적인 시간에 검증하는데 사용될 수 있다. 본 논문에서는 다양한 환경에서 구현되고 있는 PIPO 경량암호를 대상으로 GPU 상에서 구현하였다. PIPO에 대한 무차별 대입 공격을 고려하여 최적 구현하였다. 특히 비트 슬라이싱 기법을 적용한 최적화 구현과 GPU 요소를 최대한 사용하였다. 결과적으로 제안 기법의 구현은 RTX 3060 환경에서 초당 약 195억의 처리량을 보여 이전 연구 보다 약 122배 높은 처리량을 달성하였다.