• 제목/요약/키워드: Graphics processing unit(GPU)

검색결과 153건 처리시간 0.027초

GP-GPU 개발을 위한 3차원 그래픽 시뮬레이터 구현 (Implementation of a 3D Graphics Simulator for GP-GPU)

  • 여동영;김우영;정형기;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.337-340
    • /
    • 2009
  • 3차원 그래픽 처리를 위한 가속기 하드웨어가 발표된 이후 GPU(Graphics Processing Unit)의 성능은 끊임없이 개선되어 왔다. 이는 복잡한 그래픽 어플리케이션의 연산을 효율적으로 처리하기 위한 추세이나 실제로 GPU의 리소스를 100% 활용하는 경우는 드물다. 최근 주목받고 있는 GP-GPU(General-Purpose GPU)는 GPU에서 담당하는 연산을 포함하고 CPU가 처리하는 일반적인 연산의 처리도 가능하여 프로세서 자원의 분배에 따라 효율적인 제어가 가능하다. 본 논문에서는 GP-GPU 기반 환경을 가상으로 구현하여 프로그램의 설계 및 디버깅이 가능한 시뮬레이터를 구현하였다. 이를 통해 동시 설계(Co-Design) 환경을 구성하여 동시적 개발 환경을 지원하고 3차원 그래픽 컨텐츠의 디스플레이가 가능한 인터페이스를 구축하여 빠르고 안정적인 검증이 가능하다.

  • PDF

GPU를 사용한 효율적인 공간 데이터 처리 (An Efficient Technique for Processing of Spatial Data Using GPU)

  • 이재일;오병우
    • Spatial Information Research
    • /
    • 제17권3호
    • /
    • pp.371-379
    • /
    • 2009
  • 최근 그래픽 프로세서(GPU)의 발전에 따라 대량의 프로세서를 탑재한 고성능 그래픽 카드가 개인 컴퓨터에서 널리 사용되고 있다. GPU를 사용하여 CPU의 부하를 줄이면서도 성능을 향상시킬 수 있어서 복잡한 연산을 처리해야 하는 다양한 응용 프로그램에 적용하는 연구가 활발히 진행되고 있다. 본 논문에서는 복잡한 연산이 필요한 공간 데이터 처리의 성능을 향상시키기 위하여 GPU의 병렬 처리 기술을 활용하는 방법을 제안하였다. 원본 공간 데이터를 화면에 출력하기 위해서는 그래픽 처리 연산이 필요하며 같은 종류의 연산을 모든 데이터에 적용해야 하므로 GPU의 SIMD 병렬 처리를 사용하여 성능을 향상시킬 수 있다.

  • PDF

Graphics Processing Unit를 이용한 섬기반 Real-Valued Genetic Algorithm의 체계적 평가 (Systematic Evaluation of Island based Real-Valued Genetic Algorithm with Graphics Processing Unit)

  • 박현수;김경중
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.328-333
    • /
    • 2010
  • 최적해를 구하는 효과적인 방법 중 하나인 GA (Genetic Algorithm)은 높은 품질의 해를 구하기 위해서 많은 연산시간이 필요하지만, GPU (Graphics Processing Unit)의 높은 데이터 병렬처리 능력과 우수한 부동소수 연산능력을 이용하면 빠르게 처리 가능하다. 이 논문에서는 GPU를 이용하여 가속한 섬 기반의 RVGA (Real-Valued Genetic Algorithm)와 GPU를 이용하지 않는 RVGA를 비교하여 평가하였으며, 또한 GPU를 이용하지만 RVGA가 아닌 Simple GA인 경우와도 비교하여 평가 하였다. 그 결과, GPU를 이용한 경우 속도 향상을 할 수 있었으며, Simple GA보다 RVGA가 더 속도가 향상되었다.

  • PDF

내장형 GPU 환경에서 CPU-GPU 간의 공유 캐시에서의 캐시 분할 방식의 필요성 (The Need of Cache Partitioning on Shared Cache of Integrated Graphics Processor between CPU and GPU)

  • 성한울;엄현상;염헌영
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.507-512
    • /
    • 2014
  • 최근 전력의 한계 때문에 많은 트랜지스터를 모두 이용할 수 없는 '다크실리콘' 문제가 발생했다. 이 문제를 효율적으로 해결하기 위하여 CPU(Central processing unit)와 GPU(Graphic processing unit)를 함께 사용하여 분산처리하기 시작했다. 최근에는 CPU(Central processing unit)와 GPU(Graphic processing unit)가 메모리와 Last Level Cache를 공유하는 내장형 GPU 프로세서(Integrated graphic processing unit processor)가 등장했다. 하지만 CPU 프로세스와 GPU 프로세스가 LLC(Last level cache)로 접근하기 위한 어떠한 규칙이 없기 때문에, 동시에 CPU 프로세스와 GPU 프로세스 수행될 때 LLC(Last level cache)를 차지하기 위한 경쟁이 일어나 성능 저하가 발생한다. 본 논문에서는 캐시 접근 빈도가 큰 여러 개의 프로세스들이 수행됨에 따라 캐시 오염이 발생한 상황에서 GPU 프로세스의 성능 보장을 위하여 GPU 프로세스만을 위한 고정된 Last Level Cache 공간을 주는 캐시 분할방식이 필요함을 증명하고 캐시를 분할하기 위한 페이지 컬러링 기법을 소개하고 디자인한다.

클라우드 환경에서 GPU 연산으로 인한 가상머신의 성능 저하를 완화하는 GPGPU 작업 관리 기법 (GPGPU Task Management Technique to Mitigate Performance Degradation of Virtual Machines due to GPU Operation in Cloud Environments)

  • 강지훈;길준민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권9호
    • /
    • pp.189-196
    • /
    • 2020
  • 최근 클라우드 환경에서는 고성능 연산이 가능한 GPU(Graphics Processing Unit) 장치를 가상머신에게 적용한 GPU 클라우드 컴퓨팅 기술이 많이 사용되고 있다. 클라우드 환경에서 가상머신에게 할당된 GPU 장치는 대규모 병렬 처리를 통해 CPU보다 더 빠르게 연산을 수행할 수 있으며, 이로 인해 다양한 분야의 고성능 컴퓨팅 서비스들을 클라우드 환경에서 운용할 때 많은 이점을 얻을 수 있다. 클라우드 환경에서 GPU 장치는 가상머신의 성능 향상에 많은 도움을 주지만 가상머신의 CPU 사용 시간을 기반으로 작동하는 가상머신 스케줄러에서는 GPU 장치의 사용 시간이 고려되지 않아 다른 가상머신들의 성능에 영향을 미친다. 본 논문에서는 클라우드 환경에서 가상머신에게 GPU를 할당할 때 많이 사용되는 직접 통로기반 GPU 가상화 환경에서 GPGPU(General-Purpose computing on Graphics Processing Units) 작업을 수행하는 가상머신으로 인한 다른 가상머신들의 성능 저하 현상을 검증하고 분석하며, 이를 해결하기 위한 가상머신의 GPGPU 작업 관리 기법을 제안한다.

Computationally Efficient Implementation of a Hamming Code Decoder Using Graphics Processing Unit

  • Islam, Md Shohidul;Kim, Cheol-Hong;Kim, Jong-Myon
    • Journal of Communications and Networks
    • /
    • 제17권2호
    • /
    • pp.198-202
    • /
    • 2015
  • This paper presents a computationally efficient implementation of a Hamming code decoder on a graphics processing unit (GPU) to support real-time software-defined radio, which is a software alternative for realizing wireless communication. The Hamming code algorithm is challenging to parallelize effectively on a GPU because it works on sparsely located data items with several conditional statements, leading to non-coalesced, long latency, global memory access, and huge thread divergence. To address these issues, we propose an optimized implementation of the Hamming code on the GPU to exploit the higher parallelism inherent in the algorithm. Experimental results using a compute unified device architecture (CUDA)-enabled NVIDIA GeForce GTX 560, including 335 cores, revealed that the proposed approach achieved a 99x speedup versus the equivalent CPU-based implementation.

GPU를 이용한 실시간 이미지 프로세싱 시스템 (Development of Real-Time Image Processing System Using GPU)

  • 오재홍;강훈;이자용
    • 제어로봇시스템학회논문지
    • /
    • 제11권5호
    • /
    • pp.393-397
    • /
    • 2005
  • When a real-time image processing application is implemented with a general-purpose computer, CPU (Central Processing Unit) is usually heavily loaded and in many cases that CPU alone cannot meet the real-time requirement at all. Most modern computers are equipped with powerful Graphics Processing Units (GPUs) to accelerate graphics operations. There is a trend that the power of GPU outgrows that of CPU. If we take advantage of the powerful GPU for more general operations other than pure graphics operations, the processing time can be reduced. In this study, we will present techniques that apply GPU to general operations such as image processing procedures. Our experiment results show that significant speed-up can be achieved by using GPU.

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

CUDA의 메모리 복사로 인한 성능 저하 연구 (A Study on a Declines in Performance by Memory Copy in CUDA)

  • 강지훈;이대원;강인성;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.135-138
    • /
    • 2013
  • GPGPU(General Purpose Graphics Processing Unit) 병렬처리 시스템인 CUDA(Compute Unified Device Architecture)는 컴퓨터에서의 고속 연산 처리를 위해 많이 사용되어왔다. CUDA에서 연산 처리를 하기 위해서는 CUDA의 특성을 이해해야 한다. CUDA는 CPU(Central Processing Unit)가 처리하는 Host 영역과 GPU(Graphics Processing Unit)가 처리하는 영역인 Device 영역이 존재하며, 이 두 영역간의 데이터 복사를 통해 연산 처리를 진행한다. 이런 구조적인 특성상 메인 메모리에서 GPU 메모리로 입력 데이터를 전달해야 GPU를 이용해 연산을 처리할 수 있는 구조를 가지고 있다. 하지만 이러한 처리 구조로 인해 연산 시간과 별도로 메인 메모리와 GPU 메모리간의 데이터 복사시간이 존재하며, 추가적으로 발생하는 메모리 복사 시간으로 인해 오버헤드가 발생하게 된다. 본 논문에서는 실험을 통해 메모리 복사 시간, 연산의 반복 횟수 그리고 연산의 복잡성이 전체 성능에 어떤 영향을 미치는지 논하고자 한다.

GPU를 이용한 실시간 BCC 볼륨 등가면 레이 캐스팅 (Real-time BCC Volume Isosurface Ray Casting on the GPU)

  • 김민호;이영준
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제18권4호
    • /
    • pp.25-34
    • /
    • 2012
  • 본 논문에서는 BCC (body-centered cubic) 볼륨 데이터의 등 가면을 GPU(graphics processing unit)에서 실시간으로 레이 캐스팅 렌더링하는 방법을 제시한다. 우선 준-보합 전치필터를 적용한 후 7-방향 박스-스플라인 필터를 기반으로 하여 4차 스플라인 함수로 볼륨데이터를 복구한다. 그래픽스 하드웨어에서 실시간 렌더링을 하기 위해, 참조테이블 및 조건 분기를 사용하지 않고 데이터 인출시의 비용을 줄이도록 쉐이더 코드를 최적화하였다. 본 방법을 기존의 BCC 레이 캐스팅과 비교해 본 결과, 비슷한 성능의 기존 방법에 비해 렌더링 속도는 20% 이상 빨라졌고 렌더링 이미지의 품질은 가장 좋았다.