• 제목/요약/키워드: GPU Parallelization

검색결과 29건 처리시간 0.03초

OpenCL 및 Embedded GPU를 이용한 영상 특징 추출 및 파노라마 영상 생성의 병렬화 (Parallelization of Feature Detection and Panorama Image Generation using OpenCL and Embedded GPU)

  • 강승헌;이승재;이만희;박인규
    • 방송공학회논문지
    • /
    • 제19권3호
    • /
    • pp.316-328
    • /
    • 2014
  • 본 논문에서는 최신 embedded GPU를 사용하여 영상의 특징 추출 알고리즘(SIFT, SURF)을 병렬화하고, 특징 추출 및 정합 결과를 이용하여 파노라마 영상을 GPU에서 고속으로 생성하는 방법을 제안한다. 병렬화 된 알고리즘의 GPGPU(general purpose computation on GPU) 구현은 최신 스마트폰의 embedded GPU에서 지원하기 시작한 OpenCL을 이용하였다. 본 논문에서는 GPU에서 OpenGL Shading Language(GLSL)를 이용한 기존의 병렬화와 OpenCL을 이용한 새로운 병렬화 구현 결과를 효과적인 코드 구현 방법과 수행속도 관점에서 비교하였다. 실험결과, OpenCL은 GLSL과 유사한 수행 속도를 보였으며 embedded CPU와 비교하여 약 3~4배 빠른 수행속도를 보였다. 구현한 특징 추출 결과의 응용 사례로써, 특징 정합을 통한 영상 정합을 GPU상에서 병렬 수행하여 여러 장의 영상으로부터 파노라마 영상을 고속으로 생성하는 사례를 보인다.

Accelerating Molecular Dynamics Simulation Using Graphics Processing Unit

  • Myung, Hun-Joo;Sakamaki, Ryuji;Oh, Kwang-Jin;Narumi, Tetsu;Yasuoka, Kenji;Lee, Sik
    • Bulletin of the Korean Chemical Society
    • /
    • 제31권12호
    • /
    • pp.3639-3643
    • /
    • 2010
  • We have developed CUDA-enabled version of a general purpose molecular dynamics simulation code for GPU. Implementation details including parallelization scheme and performance optimization are described. Here we have focused on the non-bonded force calculation because it is most time consuming part in molecular dynamics simulation. Timing results using CUDA-enabled and CPU versions were obtained and compared for a biomolecular system containing 23558 atoms. CUDA-enabled versions were found to be faster than CPU version. This suggests that GPU could be a useful hardware for molecular dynamics simulation.

다중 GPGPU를 이용한 컴퓨터 생성 홀로그램의 병렬화 구현 (Implementation of Parallel Computer Generated Hologram Using Multi-GPGPU)

  • 서영호;이윤혁;김동욱
    • 한국정보통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.1177-1186
    • /
    • 2014
  • 컴퓨터생성홀로그램은 수학적으로 모델링된 광학적인 현상을 컴퓨터로 연산한 것이다. 이때 방대한 량의 연산이 필요하기 때문에 실시간으로 고해상도의 홀로그램을 얻기 위해서는 고속 기법이 필요하다. 본 논문에서는 CGH를 위한 두 가지 병렬화를 제안한다. 첫 번째는 GPU 내에서 CGH 알고리즘을 병렬화하는 것이고, 두 번째는 다수의 GPU를 위한 병렬화이다. 제안한 알고리즘 구조는 CUDA를 이용하여 GTX780 Ti GPU에 구현하였다. 약 10K의 입체 정보를 이용하여 $1,024{\times}1,024$의 컬러 홀로그램을 생성하는데 약 106ms가 소요된다.

모바일 멀티 코어 GP-GPU를 이용한 H.264/AVC 디코더 구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using Mobile Multi-Core GPGPU)

  • 김동한;이광엽;정준모
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2010
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어를 이용한 다양한 병렬화 기법들이 제안되고 있다. 모바일 환경에서도 멀티코어 구조를 적용한 프로세서들이 등장하면서 병렬화 기법들이 연구되고 있다. 하지만, 아직까지 모바일 환경에서의 CPU의 성능은 한계가 있다. 이를 병렬처리와 실수 연산이 뛰어난 GPGPU(General-Purpose computing in Graphics Processing Units)를 멀티코어 구조로 설계함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 멀티코어 GPGPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. 멀티코어 GPGPU를 이용한 H.264 전체 시스템 동작 시 50%의 성능 향상이 있었다.

  • PDF

Parallel LDPC Decoding on a Heterogeneous Platform using OpenCL

  • Hong, Jung-Hyun;Park, Joo-Yul;Chung, Ki-Seok
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2648-2668
    • /
    • 2016
  • Modern mobile devices are equipped with various accelerated processing units to handle computationally intensive applications; therefore, Open Computing Language (OpenCL) has been proposed to fully take advantage of the computational power in heterogeneous systems. This article introduces a parallel software decoder of Low Density Parity Check (LDPC) codes on an embedded heterogeneous platform using an OpenCL framework. The LDPC code is one of the most popular and strongest error correcting codes for mobile communication systems. Each step of LDPC decoding has different parallelization characteristics. In the proposed LDPC decoder, steps suitable for task-level parallelization are executed on the multi-core central processing unit (CPU), and steps suitable for data-level parallelization are processed by the graphics processing unit (GPU). To improve the performance of OpenCL kernels for LDPC decoding operations, explicit thread scheduling, vectorization, and effective data transfer techniques are applied. The proposed LDPC decoder achieves high performance and high power efficiency by using heterogeneous multi-core processors on a unified computing framework.

이동 목표물의 효율적인 위치 추정을 위한 파티클 필터 신호 처리의 GPU 기반 가속화 (GPU-based Acceleration of Particle Filter Signal Processing for Efficient Moving-target Position Estimation)

  • 김성섭;조정훈;박대진
    • 대한임베디드공학회논문지
    • /
    • 제12권5호
    • /
    • pp.267-275
    • /
    • 2017
  • Time of difference of arrival (TDOA) method using passive sonar sensor array has normally been used to estimate the location of a concealed moving target in underwater environment. Particle filter has been introduced for effective target estimation for non-Gaussian and nonlinear systems. In this paper, we propose a GPU-based acceleration of target position estimation using particle filter and propose efficient embedded system and software architecture. For the TDOA measurement from the passive sonar sensor, we use the generalized cross correlation phase transform (GCC-PHAT) method to obtain the correlation coefficient of the signal using FFT and we try to accelerate the calculation of GCC-PHAT based TDOA measurements using FFT with GPU CUDA. We also propose parallelization method of the target position estimation algorithm using the GPU CUDA to update the state of each particle for the target position estimation using the measured values. The target estimation algorithm was verified using Matlab and implemented using GPU CUDA. Then, we realized the proposed signal processing acceleration system using NVIDIA Jetson TX1 as the target board to analyze in terms of the execution time. The execution time of the algorithm is reduced by 55% to the CPU standalone-operation on the target board. Experiment results show that the proposed architecture is a feasible solution in terms of high-performance and area-efficient architecture.

CUDA 환경에서 CUSUM 검증의 병렬화 (Parallelization of CUSUM Test in a CUDA Environment)

  • 손창환;박우열;김형균;한경숙;표창우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권7호
    • /
    • pp.476-481
    • /
    • 2015
  • NIST통계적 난수 검증 모음에 속한 누적 합(CUSUM) 검증을 CUDA 환경에서 병렬화하였다. 배열 사유화를 적용하여 스칼라 변수에 저장하던 랜덤 워크(random walk) 값을 배열 변수에 저장하여 데이터 의존성을 제거하였다. 자료 구조 변경에 따라 알고리즘 각 단계에 병렬 스캔, 스캐터 및 병렬 축약 적용이 가능하게 되었다. 또한 CPU를 사용하여 진행되던 부분을 GPU가 담당하게 하여 두 프로세서 사이의 데이터 이동으로 인해 발생하는 직렬화를 해소하였다. 마지막으로 전역 메모리 접근을 최적화하여 전체적으로 순차적 구현 대비 약 23배에 달하는 성능 향상을 달성하였다. 이 결과는 검증 모음의 실행시간 단축과 더불어 암호 키 보안 향상을 위한 난수 연구에 기여할 것으로 예상된다.

실시간 렌더링을 위한 MPEG-I RVS 가속화 기법 (MPEG-I RVS Software Speed-up for Real-time Application)

  • 안희준;이명진
    • 방송공학회논문지
    • /
    • 제25권5호
    • /
    • pp.655-664
    • /
    • 2020
  • 자유시점 영상합성기술은 MPEG-I(Immersive) 표준에서 중요한 기술 중 하나이다. 현재 MPEG-I에서 개발하여 사용하는 RVS (Reference View Synthesizer) 프로그램은 다수의 시점의 컬러영상과 깊이영상을 바탕으로 임의시점의 영상을 생성하는 DIBR (Depth Information-Based Rendering) 프로그램이다. RVS는 기존의 DIBR이 갖는 깊이정보 전달의 문제를 컴퓨터 그래픽스의 메쉬 표면 방식으로 접근하여 이전 화소방식에 비하여 2.5dB 이상의 성능향상을 보이며 OpenGL을 사용하면 CPU에서 동작하는 코드보다 10배 이상의 속도를 보인다. 그러나 여전히 2개의 2k 해상도 입력 영상에서 0.75fps 정도의 비실시간 처리속도를 보인다. 본 논문에서는 현 RVS의 내부 구현을 분석하고 이를 바탕으로 1) OpenGL 버퍼와 텍스쳐 객체의 재사용 2) 파일 입출력과 OpenGL 실행의 병렬화 3) GPU 셰이더 프로그램과 버퍼 데이터 전송의 병렬화를 적용하였다. 그 결과 두 개의 2k 해상도 입력 영상의 처리속도를 34배 이상 가속하여 22-28fps의 실시간 성능을 확보하였다.

A Study on Efficient User Management System of Combat System

  • Hee-Soo Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.191-198
    • /
    • 2024
  • 이 논문에서는 함정 내 전투체계 시스템을 효율적으로 운용하기 위한 사용자 관리 시스템을 제안한다. 최근 함정에는 다양한 센서, 기능 그리고 시스템의 지속적인 발전을 통해 성능이 강화되고 있다. 이러한 시스템의 발전은 함정 내 다양한 센서와 기능을 조작할 수 있는 다기능 콘솔의 증가로 이어지며, 이에 따라 다기능 콘솔의 운용자 수도 증가하고 있다. 따라서 함정 내 효율적인 관리를 위해 다기능 콘솔과 운용자를 실시간 통제 및 관리하는 사용자 관리 시스템이 요구된다. 본 논문에서는 다기능 콘솔에 접근하는 사용자의 실시간 상황에 대해 효율적으로 관리할 수 있는 사용자 관리 시스템을 제안한다. 또한, 전투체계 시스템의 다양한 기능을 운용하는 CPU의 부하를 줄일 수 있는 GPU를 이용한 병렬화 방법을 제안한다. 제안한 사용자 관리 시스템은 GPU를 활용한 결과 CPU를 활용한 결과에 비해 응답시간은 약 82%, 점유율은 약 20% 줄어드는 성능을 확인하였다.

Numerical simulation on jet breakup in the fuel-coolant interaction using smoothed particle hydrodynamics

  • Choi, Hae Yoon;Chae, Hoon;Kim, Eung Soo
    • Nuclear Engineering and Technology
    • /
    • 제53권10호
    • /
    • pp.3264-3274
    • /
    • 2021
  • In a severe accident of light water reactor (LWR), molten core material (corium) can be released into the wet cavity, and a fuel-coolant interaction (FCI) can occur. The molten jet with high speed is broken and fragmented into small debris, which may cause a steam explosion or a molten core concrete interaction (MCCI). Since the premixing stage where the jet breakup occurs has a large impact on the severe accident progression, the understanding and evaluation of the jet breakup phenomenon are highly important. Therefore, in this study, the jet breakup simulations were performed using the Smoothed Particle Hydrodynamics (SPH) method which is a particle-based Lagrangian numerical method. For the multi-fluid system, the normalized density approach and improved surface tension model (CSF) were applied to the in-house SPH code (single GPU-based SOPHIA code) to improve the calculation accuracy at the interface of fluids. The jet breakup simulations were conducted in two cases: (1) jet breakup without structures, and (2) jet breakup with structures (control rod guide tubes). The penetration depth of the jet and jet breakup length were compared with those of the reference experiments, and these SPH simulation results are qualitatively and quantitatively consistent with the experiments.