• 제목/요약/키워드: GPU 병렬처리

검색결과 249건 처리시간 0.025초

CUDA 프로그래밍 기법 비교 연구 (A Comparison among Methods using CUDA Programming)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.138-139
    • /
    • 2013
  • GPU 를 활용하는 병렬 프로그래밍에 대한 관심이 높아지면서 이에 대한 연구가 활발히 진행되고 있다. GPU 의 성능이 높아지면서 이를 일반 연산에 사용하는 방법으로 NVIDIA 사에서 CUDA 프로그래밍 개발 환경을 제공하고 있다. 본 논문에서는 이 CUDA 프로그래밍 기법을 소개하고, 간단한 예제를 통해 CPU 와 GPU 를 사용하는 방법을 비교한다.

Multi-GPU 환경에서의 Convolution Layer 최적화 실험 (Empirical Experiments for Convolution Layer Optimization on Multi-GPUs)

  • 하지원;테오도라 아두푸;김윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.11-12
    • /
    • 2023
  • GPGPU 환경에서의 ML 모델이 다양한 분야에 지속적으로 활용되면서, 이미지 분할(image segmentation) 연구가 활발하다. multi-GPU 환경에서 성능 최적화를 위하여 병렬화 기법들이 활용되고 있다. 본 연구에서는 multi-GPU 환경에서 U-Net 모델의 전체 수행 시간을 단축하기 위해 convolution 연산을 최적화하는 기법을 적용하는 실험을 진행하였고 shared memory, data parallelism 를 적용하여 82% 성능 향상을 보여주었다.

대규모 신경회로망 분산 GPU 기계 학습을 위한 Caffe 확장 (Extending Caffe for Machine Learning of Large Neural Networks Distributed on GPUs)

  • 오종수;이동호
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권4호
    • /
    • pp.99-102
    • /
    • 2018
  • Caffe는 학술 연구용으로 널리 사용되는 신경회로망 학습 소프트웨어이다. 신경회로망 구조 결정에서 가장 중요한 요소에 GPU 기억 용량이 포함된다. 예를 들어 많은 객체 검출 소프트웨어는 신경회로망이 12GB 이하의 기억 용량을 사용하게 하여 하나의 GPU에 적합하게 설계되어 있다. 본 논문에서는 큰 신경회로망을 두 개 이상의 GPU에 분산 저장하여 12GB 이상의 기억 용량을 사용할 수 있게 Caffe를 확장하였다. 확장된 소프트웨어를 검증하기 위하여 3개 GPU를 가진 PC에서 최신 객체 검출 소프트웨어의 배치 크기에 따른 학습 효율을 실험하였다.

GPU 기반 콘텐츠 품질검사 실시간 고속화 시스템 개발 (Development of GPU Based High-speed Contents Quality Check System)

  • 이문식;최성우;안기옥;김민기;정병희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2014년도 하계학술대회
    • /
    • pp.55-58
    • /
    • 2014
  • 방송 제작 환경은 고품질의 콘텐츠를 빠르고 효율적으로 서비스하기 위하여 IT 기반 시스템으로의 전환을 진행하여 완성 단계에 이르렀으며, 대부분의 방송 콘텐츠는 파일 기반으로 제작 및 보관되고 있다. 과거 테이프 기반에서 파일 기반 콘텐츠로 전환되면서 신호 레벨로 진행되던 전통적인 품질 관리에 대한 새로운 방안이 요구되었으며, 이를 위하여 파일 기반 콘텐츠에 최적화된 콘텐츠 품질검사 시스템 개발이 진행되어 왔다. 이미지 처리에 기반하는 오류 검출 알고리듬의 복잡성으로 인하여 실시간 검사를 지원하지 못하여 HD 실시간 시스템에의 적용에 어려움이 있었으며, 대용량의 아카이브 시스템에서는 품질검사 시간에 대한 단축이 지속적으로 요구되고 있다. 이에 본 논문에서는 방송 환경에서 발생하는 블록 오류 등 다양한 A/V 오류를 고속으로 검출하기 위하여 최근에 급부상하고 있는 GPU 기반의 병렬처리를 이용하는 품질검사 실시간 고속화 시스템의 구현에 대하여 기술하고자 한다.

  • PDF

GPU의 병렬 처리 기능을 이용한 PSO(Particle Swarm Optimization) 알고리듬 구현 (Implementation of PSO(Particle Swarm Optimization) Algorithm using Parallel Processing of GPU)

  • 김은수;김조환;김종욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.181-182
    • /
    • 2008
  • 본 논문에서는 연산 최적화 알고리듬 중 PSO(Particle Swarm Optimization) 알고리듬을 NVIDIA사(社)에서 제공한 CUDA(Compute Unified Device Architecture)를 이용하여 새롭게 구현하였다. CUDA는 CPU가 아닌 GPU(Graphic Processing Unit)의 다양한 병렬 처리 능력을 사용해 복잡한 컴퓨팅 문제를 해결하는 소프트웨어 개발을 가능케 하는 기술이다. 이 기술을 연산 최적화 알고리듬 중 PSO에 적용함으로써 알고리듬의 수행 속도를 개선하였다. CUDA를 적용한 PSO 알고리듬의 검증을 위해 언어 기반으로 프로그래밍하고 다양한 Test Function을 통해 시뮬레이션 하였다. 그리고 기존의 PSO 알고리듬과 비교 분석하였다. 또한 알고리듬의 성능 향상으로 여러 가지 최적화 분야에 적용 할 수 있음을 보인다.

  • PDF

CUDA를 이용한 고속 영상 회전 알고리즘에 관한 연구 (A Study on High Speed Image Rotation Algorithm using CUDA)

  • 권희철;조형진;권희용
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 영상 회전은 영상 처리나 영상 패턴 인식에서 중요한 전처리 방법 중 하나이다. 영상 회전은 회전 행렬의 곱으로 이루어 진다. 그러나 기존의 방법은 대량의 실수 연산과 삼각 함수 계산을 필요로 하므로 수행 시간이 오래 걸린다. 본 논문에서는 이 같은 두가지 주요 지체 연산과정을 제거한 새로운 고속 영상 회전 알고리즘을 제안한다. 제안된 알고리즘은 단지 2개의 전단 연산을 행하므로 매우 빠르다. 또한 최신 병렬 처리 기술인 CUDA를 적용한다. CUDA는 최근 널리 보급된 GPU를 이용한 대용량 병렬처리 계산 아키텍쳐이다. GPGPU는 그래픽 전용프로세서이므로 화소 단위의 병렬처리에 탁월한 성능을 보인다. 제안된 알고리즘은 기존의 회전 알고리즘과 다양한 크기의 영상에 대해 비교 실험한다. 실험 결과는 제안된 알고리즘이 기존의 방법보다 8배 이상의 매우 우수한 성능을 보인다.

GPU를 이용한 신경망 구현 (Implementation of Neural Networks using GPU)

  • 오경수;정기철
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.735-742
    • /
    • 2004
  • 본 논문은 일반적인 그래픽스 하드웨어를 이용하여 더욱 빠른 신경망을 구현하고, 구현된 시스템을 영상 처리 분야에 적용함으로써 효용성을 검증한다. GPU의 병렬성을 효율적으로 사용하기 위하여, 다수의 입력벡터와 연결가중치벡터를 모아서 많은 내적연산을 하나의 행렬곱 연산으로 대체하였고, 시그모이드와 바이어스 항 덧셈 연산도 GPV 상에서 픽셀세이더로 구현하였다. ATI RADEON 9800 XT 보드를 이용하여 구현된 신경망 시스템은 CPU를 사용한 기존의 시스템과 비교하여 정확도의 차이 없이 30배 정도의 속도 향상을 얻을 수 있었다.

GPU 를 이용한 콘볼루션 뉴럴 네트워크 기반 초해상화 설계 및 구현 (Accelerating Deep learning based Super resolution algorithm using GPU)

  • 기세환;최재석;김수예;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2017년도 하계학술대회
    • /
    • pp.190-191
    • /
    • 2017
  • 본 논문에서는 딥 콘볼루션 신경망 구조를 사용하여 학습된 초해상화 알고리즘을 GPU 프로그래밍을 통해 실시간 동작이 가능하도록 하는 방법을 제시하였다. 딥 러닝이 많이 대중화 되면서 많은 영상처리 알고리즘이 딥러닝을 기반으로 연구가 되었다. 하지만 계산 량이 많이 필요로 하는 딥 러닝 기반 알고리즘은 UHD 이상의 고해상도 영상처리에는 실시간 처리가 어려웠다. 이런 문제를 해결하기 위해서 고속 병렬 처리가 가능한 GPU 를 사용해서 2K 입력영상을 4K 출력 영상으로 확대하는 딥 초해상화 알고리즘을 30 fps 이상의 처리 속도로 동작이 가능하도록 구현을 하였다.

  • PDF

GPU 를 통한 얼굴인식 가속화 (FAST FACE RECOGNITION ON GPUS)

  • 이청용;이영민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.10-12
    • /
    • 2012
  • 얼굴인식은 보안 등 다수의 응용분야에서 중요하게 이용되는데, 얼굴인식을 위한 학습은 많은 계산시간이 소요되기 때문에 신속한 학습이 필요한 경우 가속화가 필요하다. 한편, 그래픽스 프로세서 유닛(GPU)은 대용량 정보처리를 빠르게 수행할 수 있어 최근 폭넓은 분야에서 널리 이용되고 있다. 본 논문에서는 주성분 기반의 얼굴인식 알고리즘을 GPU 에서 병렬 수행하여 가속하는 기법을 제안하였다. 주성분 기반의 얼굴인식 각각의 과정들의 병렬성을 분석하여 가속화 이득을 최대하였고, C/OpenCV[2]로 구현된 순차적인 버전[3]과 비교했을 때, 전체 학습시스템에서 최대 약 40 배의 성능이득을 얻었다.

GPU 기반 행렬 곱셈 병렬처리 알고리즘 (Parallel Algorithm for Matrix-Matrix Multiplication on the GPU)

  • 박상근
    • 융복합기술연구소 논문집
    • /
    • 제9권1호
    • /
    • pp.1-6
    • /
    • 2019
  • Matrix multiplication is a fundamental mathematical operation that has numerous applications across most scientific fields. In this paper, we presents a parallel GPU computation algorithm for dense matrix-matrix multiplication using OpenGL compute shader, which can play a very important role as a fundamental building block for many high-performance computing applications. Experimental results on NVIDIA Quad 4000 show that the proposed algorithm runs about 208 times faster than previous CPU algorithm and achieves performance of 75 GFLOPS in single precision for dense matrices with matrix size 4,096. Such performance proves that our algorithm is practical for real applications.