• 제목/요약/키워드: CUDA(CUDA)

검색결과 295건 처리시간 0.03초

GPU를 이용한 위상 측정법의 가속화 (Acceleration of Phase Measuring Profilometry using GPU)

  • 김호중;조태훈
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2285-2290
    • /
    • 2017
  • 최근 산업의 여러 분야에서 자동화 시스템이 발전함에 따라 3D 측정에 의한 물체의 높이 검사의 필요성이 점차 대두되고 있다. 여러 3D 측정 방법 중에서 본 논문에서 다루는 방법은 위상 측정법으로, 위상 측정법이란 프린지 패턴의 위상값을 이용하여 물체의 높이를 구하는 방법이다. 위상 측정법은 연산량이 많이 필요한 알고리즘이기 때문에 이를 효율적으로 해결할 방법이 필요하다. 본 논문에서는 이를 위해 NVIDIA에서 나온 CUDA를 사용할 것을 제안했다. 또 CUDA에서 제공하는 Pinned memory와 Stream을 사용할 것을 제안하였다. 이를 통해 정확도를 유지하면서 측정 속도는 크게 향상시킬 수 있었고 실험을 통해 성능을 입증하였다.

CUDA를 이용한 FDTD 알고리즘의 병렬처리 (Parallel Computation of FDTD algorithm using CUDA)

  • 이호영;박종현;김준성
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.82-87
    • /
    • 2010
  • CPU를 능가하는 GPU의 연산능력 향상으로 범용 계산에 그래픽 프로세서를 사용하는 GP-GPU연구가 활발히 전개되고 있으며, 그 응용분야가 확대되고 있다. 본 논문에서는 전자기학 관련 분야에서 널리 사용되는 FDTD 알고리즘을 nVIDIA에서 제공하는 소프트웨어 플랫폼인 CUDA를 사용하여 구현한다. FDTD 알고리즘의 주요 연산과정을 병렬화하고, 그래픽 카드 내각기 다른 메모리의 사용에 따라 최적화하며, 단일 프로세서에서 FDTD 알고리즘을 실행시킨 경우와 비교하여 그 성능 향상 정도를 측정한다. 실험결과 단일 프로세서로 구현하였을 때에 비해 실행시간이 45배까지 향상됨을 확인할 수 있었다.

CUDA를 이용한 최대-최소 8진트리 생성 기법 (Min-Max Octree Generation Using CUDA)

  • 임종현;신병석
    • 한국게임학회 논문지
    • /
    • 제9권6호
    • /
    • pp.191-196
    • /
    • 2009
  • 볼륨 렌더링은 볼륨 데이터로부터 유용한 정보를 추출하여 시각화 하는 방법이다. 일반적으로 볼륨 렌더링에서 사용하는 데이터가 크기 때문에 실시간 처리가 가능한 수준의 빠른 렌더링을 위한 가속기법들이 중요하다. 최대-최소 8진트리는 고속 볼륨 렌더링을 위한 자료구조이지만, 볼륨데이터가 클수록 생성시간이 오래 걸리는 문제가 있다. 본 논문에서는 CUDA를 이용하여 GPU에서 최대-최소 8진트리의 생성을 가속화 하는 방법을 제안한다. 먼저 볼륨데이터에 Space Filling Curve를 적용하여 3차원의 데이터를 연속적인 1차원 배열형태로 변환한다. 이렇게 변환된 데이터로부터 최대-최소 8진트리 자료구조를 만들어 빈공간 도약기법에 적용함으로써 렌더링 속도를 향상시킬 수 있다.

  • PDF

CUDA 기반의 병렬 프로그래밍을 통한 H.264/AVC 부호화 속도 향상 및 CPU 부하 경감 (Enhancement of H.264/AVC Encoding Speed and Reduction of CPU Load through Parallel Programming Based on CUDA)

  • 장은빈;하윤수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제34권6호
    • /
    • pp.858-863
    • /
    • 2010
  • H.264/AVC를 이용한 동영상의 부호화에서 그 속도를 높이기 위해서는 움직임 예측시간을 줄이는 것이 매우 중요하다. 본 논문에서는 H.264/AVC 부호기의 오픈 소스인 x.264를 대상으로 움직임 예측 알고리즘을 CUDA 기반에서 구현함으로서 기존의 압축 기술 이상의 속도 향상 및 CPU의 점유율을 경감 시킬 수 있음을 검증한다.

Accelerating Group Fusion for Ligand-Based Virtual Screening on Multi-core and Many-core Platforms

  • Mohd-Hilmi, Mohd-Norhadri;Al-Laila, Marwah Haitham;Hassain Malim, Nurul Hashimah Ahamed
    • Journal of Information Processing Systems
    • /
    • 제12권4호
    • /
    • pp.724-740
    • /
    • 2016
  • The performance issues of screening large database compounds and multiple query compounds in virtual screening highlight a common concern in Chemoinformatics applications. This study investigates these problems by choosing group fusion as a pilot model and presents efficient parallel solutions in parallel platforms, specifically, the multi-core architecture of CPU and many-core architecture of graphical processing unit (GPU). A study of sequential group fusion and a proposed design of parallel CUDA group fusion are presented in this paper. The design involves solving two important stages of group fusion, namely, similarity search and fusion (MAX rule), while addressing embarrassingly parallel and parallel reduction models. The sequential, optimized sequential and parallel OpenMP of group fusion were implemented and evaluated. The outcome of the analysis from these three different design approaches influenced the design of parallel CUDA version in order to optimize and achieve high computation intensity. The proposed parallel CUDA performed better than sequential and parallel OpenMP in terms of both execution time and speedup. The parallel CUDA was 5-10x faster than sequential and parallel OpenMP as both similarity search and fusion MAX stages had been CUDA-optimized.

교통신호제어를 위한 CUDA기반 보행자 행동판단 (Pedestrians Action Interpretation based on CUDA for Traffic Signal Control)

  • 이홍창;이상용;김영백
    • 한국지능시스템학회논문지
    • /
    • 제20권5호
    • /
    • pp.631-637
    • /
    • 2010
  • 본 연구에서는 교통 신호를 능동적으로 제어하기 위하여 횡단보도영역에서 보행자의 행동을 판단하는 방법을 제안한다. 코드북기법을 이용하여 보행자 객체를 검출하고, 외곽선을 정보를 획득한다. 신속한 객체 검출을 위하여 CUDA(Compute Unified Device Architecture)기반 병렬화 처리한다. 해당 객체의 형상정보에 왜곡을 일으키는 투영 음영을 제거한 후, 보행자 객체가 보행자인지 혹은 차량, 동물인지를 식별하기 위해 힐버트 스캔 거리값(Hilbert Scan Distance)을 이용한 형판정합 기법을 수행한다. 정합 후에는 보행자 객체의 움직임, 얼굴영역의 특징, 대기 시간의 분석을 통하여 보행자의 횡단보도 이용 의지를 판단하고 교통신호를 제어한다.

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

Weather Radar Image Gener ation Method Using Inter polation based on CUDA

  • Yang, Liu;Jang, Bong-Joo;Lim, Sanghun;Kwon, Ki-Chang;Lee, Suk-Hwan;Kwon, Ki-Ryong
    • 한국멀티미디어학회논문지
    • /
    • 제18권4호
    • /
    • pp.473-482
    • /
    • 2015
  • Doppler weather radar is an important tool for meteorological research. Through several decades of development, Doppler weather radar has enormous progress in understanding, detection and warning of meso and micro scale weather system. It makes a significant contribution to weather forecast and weather disaster warning. But the large amount of data process limits the application of Doppler weather radar. This paper proposed for fast weather radar data processing based on CUDA. CDUA is a powerful platform for highly parallel programming developed by NVIDIA. Through running plenty of threads, radar data can be calculated at same time. In experiment, CUDA parallel program can significantly improve weather data processing time.

CUDA로 구현한 FDTD알고리즘의 OpenMP기술 적용 및 성능 측정 (OpenMP application to implement CUDA for FDTD algorithm and performance measurement)

  • 정복재;오승택;이철훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제47차 동계학술대회논문집 21권1호
    • /
    • pp.3-6
    • /
    • 2013
  • 반도체 공정에서 소자의 제조 비용 감소를 위해 제조 공정 검증을 위한 시뮬레이션을 수행하게 된다. 이 시뮬레이션은 반도체 소자 내부의 물리량 계산을 통해 반도체 소자 내부의 불순물의 거동을 해석하게 된다. 이를 위해 사용되는 알고리즘으로 3차원적 형상을 표현하는 물리적 미분 미분방정식을 계산하게 되는데, 정확한 계산을 위해 유한 차분 시간 영역법(이하 FDTD)과 같은 수치해석 기법을 이용한다. 실제적으로 반도체 공정의 시뮬레이션에서 FDTD연산의 실행 시간은 90% 이상을 소요하게 된다. 이러한 연산에서 더욱 빠른 성능을 확보하기 위해 본 논문에서는 기존의 CUDA(Compute Unified Device Architecture)로 구현된 FDTD알고리즘을 OpenMP를 통한 다중 GPU제어를 이용하여 연산 수행시간을 감소하고, 그 결과물을 통하여 성능 향상도를 측정한다.

  • PDF

의료영상 분석을 위한 CUDA 기반의 고속 DRR 생성 기법 (CUDA-based Fast DRR Generation for Analysis of Medical Images)

  • 양상욱;최영;구승범
    • 한국CDE학회논문집
    • /
    • 제16권4호
    • /
    • pp.285-291
    • /
    • 2011
  • A pose estimation process from medical images is calculating locations and orientations of objects obtained from Computed Tomography (CT) volume data utilizing X-ray images from two directions. In this process, digitally reconstructed radiograph (DRR) images of spatially transformed objects are generated and compared to X-ray images repeatedly until reasonable transformation matrices of the objects are found. The DRR generation and image comparison take majority of the total time for this pose estimation. In this paper, a fast DRR generation technique based on GPU parallel computing is introduced. A volume ray-casting algorithm is explained with brief vector operations and a parallelization technique of the algorithm using Compute Unified Device Architecture (CUDA) is discussed. This paper also presents the implementation results and time measurements comparing to those from pure-CPU implementation and open source toolkit.