• 제목/요약/키워드: GPU Programming

검색결과 60건 처리시간 0.036초

GPU 기반의 MPEG-2 디코더의 구현 (Implementation of GPU based MPEG-2 Decoder)

  • 김경수;김홍식;김정길;박우찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권3호
    • /
    • pp.371-377
    • /
    • 2008
  • 최근 GPU 성능은 CPU 성장 속도에 비하여 급속도로 증가하고 있으며 계산이 많이 요구되는 다양한 응용 프로그램에서 GPU를 이용하려는 시도가 활발히 진행되고 있다. 본 논문에서는 GPU 프로그래밍 언어인 CG를 이용하여 MPEG-2 디코더를 구현하였다. 제안된 방법은 텍스쳐 데이터를 사용하여 비디오 표준에 맞춘 블록 렌더링을 하는 방식이며, 이는 스트림 프로세싱 구조인 GPU의 파이프라인을 이용하여 높은 병렬성을 가지고 실행된다. 또한 시스템 메모리와 GPU 사이의 데이터 대역폭을 줄이기 위해 그래픽 카드의 지역 메모리를 사용한다. 제안한 방법을 적용한 결과 CPU 보다 2배 이상의 성능 향상을 볼 수 있었다.

  • PDF

프로그래밍이 가능한 GPU 상에서의 버텍스 프로그래밍의 최적화 기법 (Optimization Technique for Vertex Programming on Programmable GPU)

  • 오진상;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제8권3호
    • /
    • pp.25-34
    • /
    • 2002
  • 최근 프로그래밍이 가능한 그래픽스 프로세서(GPU)의 등장은 렌더링 속도의 향상은 물론 기존의 GPU가 할 수 없었던 다양한 그래픽스 계산을 효과적으로 수행할 수 있도록 해주고 있다. 이로 인하여 기존에 CPU 상에서 수행해야만 했던 그래픽스 계산들의 일부를 GPU 상에서 수행하도록 해주는 기법들에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 선형식에 기반을 둔 여러 응용 문제들을 GPU 상에서 효율적으로 구현할 수 있도록 도와주는 쉐이더 코드 최적화 기법을 제안한다. 이 기법은 SIMD 형태의 병렬 처리 능력을 가진 버텍스 쉐이더의 명령어에 맞게 고안되었다. 본 기법의 활용 가능성을 보이기 위하여 미분 방정식을 풀기 위한 4차 런지-쿠타 방법, 선형방정식을 풀기 위한 가우스-자이델 방법, 자연스러운 유체 모델링을 위한 파동 방정식 등의 문제에 적용하여 보았다. 본 논문에서 제안한 최적화 기법은 버텍스 쉐이더 용 컴파일러 구현에 쓰일 수 있으며, 향후 프로그래밍이 가능한 GPU 상에서의 실시간 그래픽스 소프트웨어 개발에 유용하게 사용될 수 있을 것이다.

  • PDF

GPU를 이용한 SDR 시스템 용 LTE MIMO 기지국 기능 구현 (Implementation of $2{\times}2$ MIMO LTE Base Station using GPU for SDR System)

  • 이승학;김경훈;안치영;최승원
    • 디지털산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.91-98
    • /
    • 2012
  • This paper implements 2X2 MIMO Long Term Evolution (LTE) base station using Software defined radio (SDR) technology. The implemented base station system processes baseband signals on a Graphics Processor Unit(GPU). GPU is a high-speed parallel processor which provides very important advantage of using a very powerful C-based programming environment that is Compute Unified Device Architecture (CUDA). The implemented software-based base station system processes baseband signals through GPU. It utilizes USRP2 as its RF transceiver. In order to guarantee a real-time processing of LTE baseband signals, we have adopted well-known signal processing algorithms such as frame synchronization algorithms, ML detection, etc. using GPU operating in parallel processing.

멀티코어와 매니코어 환경에서의 2 차원 DCT 가속 (Accelerating 2D DCT in Multi-core and Many-core Environments)

  • 홍진건;정성욱;김정길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.250-253
    • /
    • 2011
  • Chip manufacture nowadays turned their attention from accelerating uniprocessors to integrating multiple cores on a chip. Moreover desktop graphic hardware is now starting to support general purpose computation. Desktop users are able to use multi-core CPU and GPU as a high performance computing resources these days. However exploiting parallel computing resources are still challenging because of lack of higher programming abstraction for parallel programming. The 2-dimensional discrete cosine transform (2D-DCT) algorithms are most computational intensive part of JPEG encoding. There are many fast 2D-DCT algorithms already studied. We implemented several algorithms and estimated its runtime on multi-core CPU and GPU environments. Experiments show that data parallelism can be fully exploited on CPU and GPU architecture. We expect parallelized DCT bring performance benefit towards its applications such as JPEG and MPEG.

대규모 신경회로망 분산 GPU 기계 학습을 위한 Caffe 확장 (Extending Caffe for Machine Learning of Large Neural Networks Distributed on GPUs)

  • 오종수;이동호
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권4호
    • /
    • pp.99-102
    • /
    • 2018
  • Caffe는 학술 연구용으로 널리 사용되는 신경회로망 학습 소프트웨어이다. 신경회로망 구조 결정에서 가장 중요한 요소에 GPU 기억 용량이 포함된다. 예를 들어 많은 객체 검출 소프트웨어는 신경회로망이 12GB 이하의 기억 용량을 사용하게 하여 하나의 GPU에 적합하게 설계되어 있다. 본 논문에서는 큰 신경회로망을 두 개 이상의 GPU에 분산 저장하여 12GB 이상의 기억 용량을 사용할 수 있게 Caffe를 확장하였다. 확장된 소프트웨어를 검증하기 위하여 3개 GPU를 가진 PC에서 최신 객체 검출 소프트웨어의 배치 크기에 따른 학습 효율을 실험하였다.

CUDA 프로그래밍 기법 비교 연구 (A Comparison among Methods using CUDA Programming)

  • 임선영;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.138-139
    • /
    • 2013
  • GPU 를 활용하는 병렬 프로그래밍에 대한 관심이 높아지면서 이에 대한 연구가 활발히 진행되고 있다. GPU 의 성능이 높아지면서 이를 일반 연산에 사용하는 방법으로 NVIDIA 사에서 CUDA 프로그래밍 개발 환경을 제공하고 있다. 본 논문에서는 이 CUDA 프로그래밍 기법을 소개하고, 간단한 예제를 통해 CPU 와 GPU 를 사용하는 방법을 비교한다.

GPU의 스레드와 공유메모리를 이용한 LEA 최적화 방안 (Optimization of Lightweight Encryption Algorithm (LEA) using Threads and Shared Memory of GPU)

  • 박무규;윤지원
    • 정보보호학회논문지
    • /
    • 제25권4호
    • /
    • pp.719-726
    • /
    • 2015
  • 최근 빅데이터와 클라우드 보안에 대한 관심이 증가함에 따라 이를 효율적으로 암호화하기 위해 경량화된 고속 암호에 대한 연구가 진행되어 왔다. 그 결과, 국가보안기술연구소에서는 경량 고속 블록 암호인 LEA를 개발하였다. 경량화 암호인 LEA를 효율적으로 암 복호화를 위해 CPU가 아닌 GPU를 이용한 고속화 연구들이 최근에 소개되었다. 그럼에도 불구하고, GPU사용에 있어서의 가이드라인에 대한 연구는 여전히 미흡하다. 본 논문에서는 LEA알고리즘이 대용량 처리를 위해 사용될 때, 효율적인 GPU를 활용한 LEA 최적화방안에 대해 제안한다.

헤테로지니어스 멀티코어 성능 최적화를 위한 하이브리드 병렬 프로그래밍 (Hybrid parallel programming for Heterogeneous Multi-core performance optimization)

  • 임주호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.7-9
    • /
    • 2012
  • CPU는 싱글 코어 구조에서 클록 속도를 높여 성능을 향상 시키려는 노력을 해왔으나 한계에 도달하자 하나의 칩에 코어를 여러 개 둔 멀티코어 형태로 발전하였다. CPU의 성능 향상을 위해 이제는 3D그래픽을 연산처리하기 위해 만들어진 GPU와 결합하기에 이르렀다. CPU와 GPU의 결합은 CPU간의 결합보다 훨씬 더 좋은 성능을 보였고 전력의 사용량도 더 적었으며 비용면에서도 경제적이라는 장점을 가지고 있다. 본 논문에서는 CPU와 GPU의 Heterogeneous multicore상에서 성능을 최적화하기 위해 기존의 병렬화 모델을 조합하고 최적화를 시도하였다. CPU상에서는 성능 향상을 위해 기존의 병렬 프로그램 모델인 SIMD와 공유메모리 병렬 프로그래밍 모델 그리고 메시지 패싱 병렬 프로그래밍 모델을 조합하는 실험을 했다. GPU에서는 CUDA를 최적화 하였다. 이렇게 CPU와 GPU를 최적화하고 조합하여 고성능 연산을 요구하는 어플리케이션을 위한 Heterogeneous multicore 성능 최적화 방법을 제안한다.

도시기상모델 CFD_NIMR의 GP-GPU 실행을 위한 병렬 프로그램의 구현 (GP-GPU based Parallelization for Urban Terrain Atmospheric Model CFD_NIMR)

  • 김영태;박혜자;최영진
    • 인터넷정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.41-47
    • /
    • 2014
  • 본 논문은 도시기상모델인 전산유체역학모델(CFD_NIMR)을 GP-GPU에서 실행시키기 위해 CUDA Fortran 병렬프로그램을 구현하였다. GP-GPU는 원래 PCI 카드 형태의 그래픽 처리 장치이지만 저비용, 저전력으로 대량의 계산을 초고속으로 수행할 수 있는 일반 계산 가속기이다. 모델을 단일 Intel XEON 2.0 GHz CPU에서 실행한 결과와 Nvidia Tesla C1060 GPU에서 실행한 성능을 비교하였을 때 GP-GPU에서 15배 정도의 빠른 속도를 보였다. 또한 다중 CPU를 사용한 MPI 병렬프로그램과 비교한 경우에도 GP-GPU에서 보다 더 효율적인 성능을 보였다. 본 논문에서 제시한 프로그램 방식은 유사한 구조를 가진 수치모델을 GP-GPU 병렬 프로그램으로 구현하는데 쉽게 적용할 수 있을 것으로 기대한다.

3차원 콘텐츠의 효율적인 병렬 시각화를 위한 CUDA 환경 기반 객체 지향 프로그래밍 기법 (CUDA-based Object Oriented Programming Techniques for Efficient Parallel Visualization of 3D Content)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권2호
    • /
    • pp.169-176
    • /
    • 2012
  • 본 논문에서는 3차원 콘텐츠의 효율적인 병렬 시각화 프로그래밍을 위한 CUDA(Compute Unified Device Architecture) 환경에서의 객체 지향 플랫폼을 제안한다. 이러한 목적을 위해 GPU 프로그래밍을 위한 CUDA 환경에서의 C++ 객체 지향 프로그래밍의 특성과 제약을 논의하고 그 해결 방안을 제시하며 MVC (Model/View/Controller) 디자인 패턴에 기초한 3차원 병렬 시각화 플랫폼의 구현을 제안한다. 또한 이 MVC 디자인 패턴에 따라 적분형 MLS(iMLS)와 부호 거리장(SDF)을 이용한 3차원 모델링 기법을 Marching Cubes 및 Raytracing으로 시각화하는 예제의 구현을 논의한다. 제안하는 방법은 간단한 인터페이스의 구현만으로 GPU 병렬 처리가 자동화된다는 특징이 있으며 개발자 입장에서 객체 지향 프로그래밍의 일반적인 장점들, 즉, 코드 관리 용이성, 코드 재활용 등의 이점을 추상화와 상속을 통해 병렬 환경에서도 실현한다. 본 논문에서는 제안하는 플랫폼에 대해 두 가지 사례만 구현했으나 다양한 모델링 기법과 시각화 기법을 조합할 수 있기 때문에 컴퓨터 그래픽스 전반에서 널리 활용 가능할 것으로 기대한다.