• Title/Summary/Keyword: 병렬 GPU

Search Result 315, Processing Time 0.028 seconds

Numerical Computing on Graphics Hardware

  • 임인성
    • 한국가시화정보학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.57-63
    • /
    • 2004
  • 최근 일반 범용 PC 에 장착되고 있는 ATI 나 NVIDIA 등의 그래픽스 가속기의 성능은 수년전과 비교할 때 비교가 안 될 정도의 빠른 속도를 자랑하고 있다. 이러한 속도 향상과 함께 급격하게 일어나고 있는 변화 중의 하나는 바로 기존의 고정된 기능의 그래픽스 파이프라인(fixed-function graphics pipeline)과는 달리 프로그래머가 가속기의 기능을 자유자재로 프로그래밍할 수 있도록 해주는 프로그래밍이 가능한 파이프라인(programmable graphics pipeline)의 출현이라 할 수 있다. 이러한 가속기에 장착되고 있는 GPU (Graphics Processing Unit)는 간단한 형태의 SIMD 프로세서라 할 수 있는데, 특히 GPU 의 한 부분인 픽셀 쉐이더는 그 처리 속도가 매우 높기 때문에 이를 통하여 기존의 수치 알고리즘을 병렬화 하려는 시도가 활발히 일어나고 있다. 본 강연에서는 다양한 수치 계산을 그래픽스 가속기를 사용하여 해결하려는 시도에 대하여 간단히 살펴본다.

  • PDF

GPGPU Based Real-Time Image Processing Framework on a Smartphone (스마트폰에서의 실시간 영상처리를 위한 GPGPU 기반 프레임워크 구축)

  • Lee, Man Hee;Kang, Seungheon;Park, In Kyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.11a
    • /
    • pp.17-18
    • /
    • 2012
  • 본 논문에서는 스마트폰에서 해당 기기에 장착된 카메라로부터 실시간으로 입력되는 프리뷰 영상에 대하여 실시간으로 영상처리를 수행할 수 있는 프레임워크를 제안한다. 본 논문에서 제안하는 프레임워크의 경우 OpenGL ES 2.0 기반의 Shading Language 를 이용하여 모바일 GPU 에서 병렬처리를 수행함으로써 영상처리 알고리즘을 고속으로 적용할 수 있으며, 매 프레임의 입력 영상을 텍스처로 지정하고 연산 결과가 저장된 프레임 버퍼의 내용을 그대로 화면에 출력함으로써 메인 메모리와 GPU 메모리 사이의 자료 이동을 최소화 하였다. 현재 상용화 된 스마트폰에 제안하는 프레임워크를 이용하여 적용시킨 결과 필터링 기반의 여러 가지 영상처리 알고리즘의 실시간 처리가 가능함을 보여줌으로써 본 논문에서 제안하는 프레임워크의 실시간 활용을 확인할 수 있다.

  • PDF

Real-time Depth Image Refinement using Joint Bilateral Filter (결합형 양방향 필터를 이용한 실시간 깊이 영상 보정 방법)

  • Shin, Dong-Won;Lee, Sang-Beom;Ho, Yo-Sung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.11a
    • /
    • pp.116-119
    • /
    • 2013
  • 본 논문에서는 결합형 양방향 필터를 이용하여 실시간으로 깊이 영상을 구하는 방법을 제안한다. 제안한 방법에서는 Kinect 깊이 카메라로부터 얻은 깊이 영상의 화질을 실시간으로 향상시키기 위해 GPU 내의 상수 메모리와 2차원 영상 처리에 적합한 텍스쳐 메모리를 사용했다. 또한, 단일 화소에 대한 결합형 양방향 필터 연산을 각 GPU 쓰레드(thread)에 할당한 다음 병렬로 처리하여 계산량을 현저히 감소시킨다. 실험 결과를 통해, 제안한 실시간 깊이 영상 보정 방법이 깊이 영상의 화질을 향상시켰고, 초당 260화면의 속도로 동작하는 것을 확인했다.

  • PDF

Implementation of DES Algorithm using CUDA (CUDA를 이용한 DES 구현)

  • Kim, Juho;Park, Neungsoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1086-1087
    • /
    • 2012
  • GPU를 이용하여 병렬 처리 연산을 하는 연구는 활발히 진행되고 있고, 이미 많은 곳에서 사용되고 있다. 본 논문에서는 엔비디아에서 개발한 CUDA를 사용하여 DES 알고리즘을 고속으로 구현하기 위해 CUDA overlapping을 이용했다. 이것은 GPU 에서 연산을 하는 동시에 연산 결과를 바로 Host로 보내어 연산시간과 전송시간을 Overlap 하여 시간을 더 단축 하도록 하는 구현방법이다. 그 결과 Overlap 하기 전보다 약 30%의 성능향상을 확인 할 수 있었다. 향후 DES 뿐만 아니라 3DES, AES, SEED 등 여러 암호화 알고리즘들도 적용할 예정이다.

Performance Improvement in Observation Probability Computation of Gaussian Mixture Models Using GPGPU (GPGPU를 이용한 가우시안 혼합 모델의 관측확률 계산 성능 향상)

  • Kim, Hyeong-Ju;Kim, Seung-Hi;Kim, Sanghun;Jang, Gil-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.148-151
    • /
    • 2012
  • 범용 GPU (general-purpose computing on graphics processing units, GPGPU)는 GPU를 일반적인 목적으로 사용하고자 하는 병렬 컴퓨터 구조로써, 과학 연산 등 여러 분야에서 응용 프로그램의 성능을 향상시키기 위하여 사용되고 있다. 본 연구에서는 음성인식기에서 주로 사용되는 가우시안 혼합 모델(Gaussian mixture model, GMM)에서 많은 연산시간을 차지하는 관측확률 계산의 성능을 향상시키고자 GPGPU를 이용하는 알고리즘을 구현하였으며, 기존 CPU 기반 알고리즘 대비 약 13배 연산시간을 단축하였다.

Open Distributed Cloud Computing based on High-Speed Big Data Transfer (고속 빅데이터 전송 기반의 오픈 분산 컴퓨팅 플랫폼 개발 및 연구)

  • Kim, Ki-Hyeon;Moon, Junghoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.38-41
    • /
    • 2021
  • 최근 빅데이터, 인공지능 키워드를 이용한 다양한 연구들이 진행되고 있으며, 인공지능 연구를 통해 자동화 자율화를 위한 연구들이 주를 이루고 있다. 인공지능 연구를 수행하기 위해서는 거대한 데이터를 빠르게 전송해야하며, 인공지능을 손쉽게 수행하기 위한 플랫폼이 필요하다. 하지만 많은 연구기관에서는 빅데이터 전송 속도의 한계가 존재하며, 인공지능 알고리즘 수행을 위한 플랫폼 또한 부족한 것이 현실이다. 이를 해결하기 위해 ScienceDMZ 기술을 활용하여 고속의 빅데이터 전송을 위한 인프라를 구축하고, 엣지 컴퓨팅 기반의 오픈 분산 컴퓨팅 플랫폼을 개발한다. 이 시스템을 통해 사용자들에게 빅데이터를 빠르게 전송하고 전송된 데이터를 이용하여 바로 인공지능 연구를 수행하여 결과를 도출할 수 있는 시스템을 구축하고자 한다. 이 시스템을 이용하여 GPU 분산 컴퓨팅을 수행하였을 때 성능과 GPU 병렬 컴퓨팅을 수행하였을 때의 결과를 비교하여 성능을 검증하고자 한다.

Study of parallelization methods for real-time HEVC encoder implementation (실시간 HEVC 인코더 구현을 위한 병렬화 기법에 관한 연구)

  • Ahn, Yongjo;Hwang, Taejin;Lee, Dongkyu;Kim, Sangmin;Oh, Seoung-Jun;Sim, Dong-Gyu
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.119-122
    • /
    • 2013
  • ITU-T VCEG 과 ISO/IEC MPEG 이 공동으로 구성한 JCT-VC (Joint Collaborative Team on Video Coding)이 표준화를 진행 중인 HEVC (High Efficiency Video Coding)은 H.264/AVC 대비 약 2 배의 압축효율을 갖는다. 하지만, 계층적 구조를 갖는 가변크기 블록의 사용과 재귀적 부호화 구조에 따른 인코더의 복잡도 증가는 개선해야 할 문제점으로 지적되고 있다. 본 논문에서는 현재 표준화가 진행 중인 HEVC 인코더의 실시간 구현을 위한 SIMD 명령어를 이용한 data-level 병렬화 기법, CPU 및 GPU 를 이용한 multi-threading 기법과 같은 다양한 병렬화 기법을 소개한다. 또한, 이러한 병렬화 기법들을 HEVC 인코더에 적용하기 위해 적합한 연산 및 기능 모듈에 대하여 소개한다. 본 연구를 통하여 HM (HEVC reference model)에 적용한 결과 $832{\times}480$ 영상의 경우 20-30fps 의 부호화 속도를 나타냈으며, $1920{\times}1080$ 영상의 경우 5-10fps 의 부호화 속도를 나타내었다.

  • PDF

Bit Operation Optimization and DNN Application using GPU Acceleration (GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용)

  • Kim, Sang Hyeok;Lee, Jae Heung
    • Journal of IKEEE
    • /
    • v.23 no.4
    • /
    • pp.1314-1320
    • /
    • 2019
  • In this paper, we propose a new method for optimizing bit operations and applying them to DNN(Deep Neural Network) in software environment. As a method for this, we propose a packing function for bitwise optimization and a masking matrix multiplication operation for application to DNN. The packing function converts 32-bit real value to 2-bit quantization value through threshold comparison operation. When this sequence is over, four 32-bit real values are changed to one 8-bit value. The masking matrix multiplication operation consists of a special operation for multiplying the packed weight value with the normal input value. And each operation was then processed in parallel using a GPU accelerator. As a result of this experiment, memory saved about 16 times than 32-bit DNN Model. Nevertheless, the accuracy was within 1%, similar to the 32-bit model.

Analysis on Memory Characteristics of Graphics Processing Units for Designing Memory System of General-Purpose Computing on Graphics Processing Units (범용 그래픽 처리 장치의 메모리 설계를 위한 그래픽 처리 장치의 메모리 특성 분석)

  • Choi, Hongjun;Kim, Cheolhong
    • Smart Media Journal
    • /
    • v.3 no.1
    • /
    • pp.33-38
    • /
    • 2014
  • Even though the performance of microprocessor is improved continuously, the performance improvement of computing system becomes hard to increase, in order to some drawbacks including increased power consumption. To solve the problem, general-purpose computing on graphics processing units(GPGPUs), which execute general-purpose applications by using specialized parallel-processing device representing graphics processing units(GPUs), have been focused. However, the characteristics of applications related with graphics is substantially different from the characteristics of general-purpose applications. Therefore, GPUs cannot exploit the outstanding computational resources sufficiently due to various constraints, when they execute general-purpose applications. When designing GPUs for GPGPU, memory system is important to effectively exploit the GPUs since typically general-purpose applications requires more memory accesses than graphics applications. Especially, external memory access requiring long latency impose a big overhead on the performance of GPUs. Therefore, the GPU performance must be improved if hierarchical memory architecture which can reduce the number of external memory access is applied. For this reason, we will investigate the analysis of GPU performance according to hierarchical cache architectures in executing various benchmarks.

Numerical Integration based on Harmonic Oscillation and Jacobi Iteration for Efficient Simulation of Soft Objects with GPU (GPU를 활용한 고성능 연체 객체 시뮬레이션을 위한 조화진동 모델과 야코비 반복법 기반 수치 적분 기술)

  • Kang, Young-Min
    • Journal of Korea Game Society
    • /
    • v.18 no.5
    • /
    • pp.123-132
    • /
    • 2018
  • Various methods have been proposed to efficiently animate the motion of soft objects in realtime. In order to maintain the topology between the elements of the objects, it is required to employ constraint forces, which limit the size of the time steps for the numerical integration and reduce the efficiency. To tackle this, an implicit method with larger steps was proposed. However, the method is, in essence, a linear system with a large matrix, of which solution requires heavy computations. Several approximate methods have been proposed, but the approximation is obtained with an increased damping and the loss of accuracy. In this paper, new integration method based on harmonic oscillation with better stability was proposed, and it was further stabilized with the hybridization with approximate implicit method. GPU parallelism can be easily implemented for the method, and large-scale soft objects can be simulated in realtime.