• 제목/요약/키워드: CUDA(CUDA)

검색결과 295건 처리시간 0.027초

효율적인 멀티 쓰레딩을 이용한 고해상도 깊이지도의 실시간 획득 (High Resolution Depth-map Estimation in Real-time using Efficient Multi-threading)

  • 조칠석;전지인;추현곤;박종일
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.945-953
    • /
    • 2012
  • 깊이지도를 구하는 방법 중 많이 사용되어지는 방법으로 줄무늬 패턴을 이용하는 방법이 존재한다. 이 방법은 프로젝터-카메라 시스템(Pro-Cam System)을 이용하며 프로젝터로 조사한 패턴을 카메라로 촬영하여 원래의 패턴과 촬영된 패턴간의 기하학적인 관계를 구하여 깊이지도를 구하는 방법이다. 본 논문에서는 이와 같이 구조광을 이용하는 깊이지도 획득 시스템에서 효과적으로 멀티 쓰레드를 사용하여 실시간 처리하는 것을 제안한다. 일반적으로 자주 사용되는 멀티 쓰레딩에는 CPU의 쓰레드를 이용하는 OpenMP와 GPU의 쓰레드를 이용하는 CUDA가 있다. 이 두 가지 기법은 수행하는데 차이점이 존재하기 때문에 상황에 따라 OpenMP가 더 좋은 효율을 보이는 부분이 있고 CUDA가 더 좋은 효율을 보이는 부분이 있다. 따라서 본 논문에서는 이 두 가지에 대해서 각 부분의 특성에 맞게 더 좋은 효율을 보이는 멀티 쓰레드를 적용하였다. 결과적으로 제안된 방법은 $1280{\times}800$의 영상에 대해 25fps 이상의 깊이지도를 획득할 수 있었다.

GPGPU를 이용한 고속 영상 합성 기법 (Fast View Synthesis Using GPGPU)

  • 신홍창;박한훈;박종일
    • 방송공학회논문지
    • /
    • 제13권6호
    • /
    • pp.859-874
    • /
    • 2008
  • 본 논문은 3차원 디스플레이 시스템에서 카메라의 기하 정보 및 참조 영상들의 깊이 맵 정보가 주어졌을 때, 다수의 중간 시점 영상을 실시간으로 생성하는 고속 영상 합성 기법을 제안한다. 기본적으로 본 논문에서는 영상 합성 기법의 모든 과정을 GPU에 서 병렬 처리함으로써 고속화 할 수 있었다. 병렬처리를 이용한 고속화 효율을 높이기 위해 최근 NVIDIA사에서 발표한 $CUDA^{TM}$를 이용하였다. 영상 합성을 위한 모든 중간 과정을 CUDA로 처리하기 위해 병렬구조로 변환하고, GPU 상의 고속메모리의 사용을 극대화하고, 알고리즘 구현을 최적화함으로써 고속화 효율을 높일 수 있었다. 결과적으로 본 논문에서는 양안 영상과 깊이 지도를 이용하여 가로 720, 세로 480 크기의 9개의 시점 영상을 0.128초 이내에 생성할 수 있었다.

CUDA를 이용한 웹캠 영상의 색상 형식 변환 최적화 (Optimization of Color Format Conversion of WebCam Images Using the CUDA)

  • 김진우;정윤혜;박진홍;박용진;한탁돈
    • 한국게임학회 논문지
    • /
    • 제11권1호
    • /
    • pp.147-157
    • /
    • 2011
  • 웹캠은 영상 데이터의 전송시간을 줄이기 위해 메모리 정렬은 고려하지 않는다. 메모리 정렬이 되지 않은 영상 데이터는 GPU에서 처리하기 부적합하며 고속의 영상처리를 위해서는 GPU에서 메모리 최적화가 가능한 색상 형식으로 변환되어야 한다. 본 논문은 웹캠 영상의 색상 형식 변환을 NVIDIA CUDA를 이용하여 가속하는 최적화 기법을 제안한다. 메모리 접근과 쓰레드 구성에 대한 최적화를 진행하였고, 제안하는 구조의 성능 측정과 최적화 정도를 분석하기 위해 GPU 메모리와 연산의 성능을 제한하여 실험하였다. 그 결과 최적화 방법에 따라 최대 68% 이상 성능이 향상됐다.

CUDA를 활용한 병렬 $B^+$-트리 벌크로드 기법 (A Parallel Bulk Loading Method for $B^+$-Tree Using CUDA)

  • 성주호;이윤우;한아;최원익;권동섭
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.707-711
    • /
    • 2010
  • 대부분의 관계형 데이터베이스 시스템은 대량의 키 값을 효율적으로 검색하고 관리하기 위하여 $B^+$-트리 기반의 인덱스 구조를 사용하며, $B^+$-트리를 효율적으로 생성하기 위해 일반적으로 상향식 벌크로드 기법을 사용한다. 비록 벌크로드 기법이 키를 하나씩 삽입하여 인덱스를 생성하는 방식보다 효율적이긴 하지만, 데이터가 클 경우 전체 데이터를 정렬해야하기 때문에 많은 시간을 필요로 한다. 벌크로드 기법의 성능을 개선하기 위하여, 본 논문에서는 NDIVIA에서 제공하는 병렬 컴퓨팅 아키텍쳐인 CUDA를 활용한 GPU 기반의 효율적인 $B^+$-트리 병렬 벌크로드 기법을 제안한다. 제안하는 병렬 벌크로드 기법의 성능을 증명하기 위하여 실험을 수행한 결과, 기존 CPU 벌크로드 방법보다 약 70% 이상 성능이 향상됨을 확인하였다.

CUDA를 기반한 볼륨데이터의 집적영상 생성을 위한 고속화 기법 (Acceleration Method for Integral Imaging Generation of Volume Data based on CUDA)

  • 박찬;정지성;박재형;권기철;김남;류관희
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.9-17
    • /
    • 2011
  • 최근 들어, 안경식 3D TV 등장으로 3D 입체 콘텐츠의 활성화가 기대된다. 안경식의 불편함을 해소하기 위해 무안경식 3차원 입체 영상 디스플레이에 대한 연구가 활발히 진행되고 있다. 이 연구에서 렌즈 어레이(lens array)로부터 만들어지는 기초영상(elemental images)을 생성하는 것이 필수적이다. 그러나 렌즈 어레이를 구성하는 렌즈의 개수가 증가함에 따라 기초영상을 생성하는데 많은 시간이 소요되고 있으며, 고용량의 볼륨데이터에 대해서는 더 많은 시간이 소요되고 있다. 본 논문에서는 이러한 문제를 좀 더 효율적으로 개선하기 위해 CUDA 기반의 OpenCL를 사용하여 집적영상을 생성하는 기법을 제시한다. 제안된 방법을 세 종류인 Tesla C1060, Geforce 9800GT와 Quadro FX 3800 그래픽 카드를 갖는 PC 환경에서 실험하였으며, 실험 결과 최근 연구 결과[11] 보다 약 20배 정도 성능 개선이 있었다.

CUDA를 이용한 Convolutional Neural Network의 구현 및 속도 비교 (Development and Speed Comparison of Convolutional Neural Network Using CUDA)

  • 기철민;조태훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.335-338
    • /
    • 2017
  • 현재 인공지능과 딥 러닝이 사회적인 이슈로 떠오르고 있는 추세이며, 다양한 분야에 이 기술들을 응용하고 있다. 인공지능 분야의 여러 알고리즘들 중에서 각광받는 방법 중 하나는 Convolutional Neural Network이다. Convolutional Neural Network는 일반적인 Neural Network 방법에 Convolution 연산을 하여 Feature를 추출하는 Convolution Layer를 추가한 형태이다. Convolutional Neural Network를 적은 양의 데이터에서 이용하거나, Layer의 구조가 복잡하지 않은 경우에는 학습시간이 길지 않아 속도에 크게 신경 쓰지 않아도 되지만, 학습 데이터의 크기가 크고, Layer의 구조가 복잡할수록 학습 시간이 상당히 오래 걸린다. 이로 인해 GPU를 이용하여 병렬처리를 하는 방법을 많이 사용하는데, 본 논문에서는 CUDA를 이용한 Convolutional Neural Network를 구현하였으며, CPU를 이용한 방법보다 학습 속도가 빨라지고 큰 데이터를 학습 시키는데 더욱 효율적으로 진행하도록 한다.

  • PDF

CUDA fortran을 이용한 GPU 가속 운동파모형 개발 (Development of GPU-accelerated kinematic wave model using CUDA fortran)

  • 김보람;박선량;김대홍
    • 한국수자원학회논문집
    • /
    • 제52권11호
    • /
    • pp.887-894
    • /
    • 2019
  • 분포형 강우유출모형의 수치모의 연산시간을 단축시키기 위해 GPU(Graphic Processing Unit)를 이용한 가속 운동파모형을 개발하고 정확성과 연산속도에 대한 성능을 검토하였다. 분포형모형의 지배방정식은 운동파모형과 Green-Ampt모형으로 구성되었고, 운동파모형은 유한체적법을 이용하여 이산화 하였다. GPU 가속 운동파모형 개발을 위해 CUDA fortran을 이용하였다. 개발된 모형을 이용하여 이상적인 유역에서 발생하는 강우유출현상을 모의 하였고, 다른 모형 및 실험결과와의 비교를 통하여 개발된 GPU 가속 운동파모형이 비교적 정확하게 유출량을 계산할 수 있음을 확인하였다. 동일한 유한체적법을 이용한 CPU(Central Processing Unit) 기반의 강우유출모형과 비교할 경우, GPU 가속모형의 연산시간 단축비율은 격자의 수가 증가할수록 높아졌으며, 본 연구에 사용된 장비를 기준으로 최대 450배 정도 단축됨을 확인하였다.

GPU용 연산 라이브러리 CUDA를 이용한 블록암호 고속 구현 (High-Speed Implementations of Block Ciphers on Graphics Processing Units Using CUDA Library)

  • 염용진;조용국
    • 정보보호학회논문지
    • /
    • 제18권3호
    • /
    • pp.23-32
    • /
    • 2008
  • 그래픽 프로세서(GPU)의 연산 능력은 이미 CPU를 능가하고 있으며, 그 격차는 점점 벌어지고 있다. 따라서, 범용 계산에 그래픽 프로세서를 활용하는 GPGPU 연구가 활발히 전개되고 있으며, 병렬 처리가 필요한 분야에서 특히 두드러진 성과를 보이고 있다. GPU를 이용한 암호 알고리즘의 구현은 2005년 Cook 등에 의하여 처음 시도되었으며, OpenGL, DirectX 등의 라이브러리를 이용하여 개선된 결과들이 속속 발표되고 있다. 본 논문에서는 2007년 발표된 NVIDIA의 CUDA 라이브러리를 이용한 블록암호 구현 기법과 그 결과를 소개하고자한다. 또한, 소프트웨어로 구현된 블록암호 소스를 GPU 프로그램으로 이식하는 일반적인 방법을 제공하고자 한다. 8800GTX GPU에서 블록암호 AES, ARIA, DES를 구현했으며, 속도는 각각 4.5Gbps, 7.0Gbps, 2.8Gbps로 CPU보다 고속 구현이 가능하였다.

PDF 버전 1.4-1.6의 CUDA GPU 환경에서 암호 해독 최적 구현 (PDF Version 1.4-1.6 Password Cracking in CUDA GPU Environment)

  • 김현준;엄시우;서화정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권2호
    • /
    • pp.69-76
    • /
    • 2023
  • 매년 수십만 개의 암호를 분실하거나 잊어버리면서 합법적인 소유자나 권한을 부여받은 법 집행 담당자가 필요한 정보를 사용할 수 없게 된다. 이러한 암호를 되찾기 위해 암호 해독(Password Cracking)이 사용된다. 암호 해독에 CPU 대신 GPU를 사용하면 복구 과정에서 필요한 많은 양의 계산을 신속하게 처리할 수 있다. 본 논문은 현재 가장 많이 사용되는 PDF 1.4 -1.6 버전의 암호 해독에 중점을 두고 CUDA를 사용하여 GPU에서 최적화한다. MD5 알고리즘의 불필요 연산 제거, RC4 알고리즘의 32비트 워드 통합 구현, 공유메모리 사용의 기법을 사용하였다. 또한 성능향상에 영향을 미치는 블록, 스레드 수 탐색을 위해 오토튠 기법을 사용하였다. 결과적으로 RTX 3060, RTX 3090 환경에서 블록 크기 65,536, 스레드 크기 96에서 31,460 kp/s(kilo passwords per second), 66,351 kp/s의 처리량을 보였으며, 기존 최고 처리량을 보여주는 해시캣의 처리량보다 각각 22.5%, 15.2%를 향상시켰다.

멀티-GPU 기반 MPI-CUDA 병렬 성능 확장성 (An MPI-CUDA Implementation for Parallel Scalability on Multi-GPU Clusters)

  • 이홍석;이승민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.13-15
    • /
    • 2012
  • 매우 빠른 GPU의 성능과 저가의 개발 비용으로, 최신 GPU는 대용량 계산과학 분야에 꼭 필수적인 자원으로 등장하였다. 이 논문에서는 멀티-GPU 클러스터 시스템에서 GPU 컴퓨팅 기술을 적용한 대용량 Monte Carlo 알고리즘을 개발하였다. MPI와 CUDA를 동시에 적용한 결과 8개 GPU까지 병렬 확장성을 얻을 수 있었다. 병렬 성능 확장성 분석 결과, 멀티-GPU 클러스터에서는 GPU 사이의 데이터 통신이 전체 프로그램 성능 향상을 결정하는 매우 중요한 요인임을 보였다.