• Title/Summary/Keyword: GPU 병렬처리

Search Result 250, Processing Time 0.025 seconds

CUDA Implementation for the Four-Russian Algorithm (4-러시안 알고리즘의 CUDA 구현)

  • Kim, Young Ho;Jeong, Ju-Hui;Kang, Dae Woong;Sim, Jeong Seop;Kim, Minho;Park, Soo-jun;Lim, Myungeun;Jung, Ho-Youl
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.261-264
    • /
    • 2012
  • 상수 크기의 알파벳 ${\Sigma}$에 대해 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 상수 t라 할 때, 전처리 단계에서 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 시간과 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 CUDA를 이용하여 구현하고 실험을 통해 CPU 기반의 순차적인 수행시간과 GPU 기반의 병렬적인 수행시간의 비교결과를 제시한다. 본 논문의 병렬알고리즘은 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t=1일 때 약 10배 빠르고, t=2일 때 약 3배 빠른 결과를 보였다.

Deep Learning Based On-Device Augmented Reality System using Multiple Images (다중영상을 이용한 딥러닝 기반 온디바이스 증강현실 시스템)

  • Jeong, Taehyeon;Park, In Kyu
    • Journal of Broadcast Engineering
    • /
    • v.27 no.3
    • /
    • pp.341-350
    • /
    • 2022
  • In this paper, we propose a deep learning based on-device augmented reality (AR) system in which multiple input images are used to implement the correct occlusion in a real environment. The proposed system is composed of three technical steps; camera pose estimation, depth estimation, and object augmentation. Each step employs various mobile frameworks to optimize the processing on the on-device environment. Firstly, in the camera pose estimation stage, the massive computation involved in feature extraction is parallelized using OpenCL which is the GPU parallelization framework. Next, in depth estimation, monocular and multiple image-based depth image inference is accelerated using the mobile deep learning framework, i.e. TensorFlow Lite. Finally, object augmentation and occlusion handling are performed on the OpenGL ES mobile graphics framework. The proposed augmented reality system is implemented as an application in the Android environment. We evaluate the performance of the proposed system in terms of augmentation accuracy and the processing time in the mobile as well as PC environments.

Improving Spatial Resolution in Real-time for Ultra-thin Light Field Cameras (초박형 라이트필드 카메라의 실시간 분해능 향상 알고리즘 개발)

  • Kim, Donggun;Ryu, Jaekwan;Jo, Yongjin;Kim, Min H.
    • Journal of the Korea Computer Graphics Society
    • /
    • v.27 no.3
    • /
    • pp.25-29
    • /
    • 2021
  • 초박형 라이트필드 카메라 시스템은 이미지 센서 위에 렌즈 어레이를 부착하는 방식으로 만들어진다. 이러한 초박형 라이트필드 카메라는 하나의 이미지 센서를 여러 개의 sub-aperture가 나눠쓰는 방식으로 되어있어 개별 이미지의 분해능이 낮으며, sub-aperture 이미지들을 융합해 추가적인 분해능 향상이 수행되어야 한다. 본 연구에서는 초박형 라이트필드 카메라 시스템을 개발했으며, 개발된 카메라 시스템을 위한 실시간 분해능 향상 알고리즘을 개발, 실험을 통해 검증했다. 개발된 초박형 라이트필드 카메라는 두께 2mm, 24개(6×4)의 551×551 해상도의 sub-aperture로 구성되어 있으며, 임베디드 컴퓨팅 보드를 사용해 휴대가 가능하도록 제작되었다. 실시간 분해능 향상 알고리즘은 임베디드 컴퓨팅 보드의 GPU에서 병렬처리를 통해 라플라시안 피라미드 기반의 이미지 융합 알고리즘을 수행한다. 실험을 통해 검증한 결과로, 개발 시스템은 MTF50값이 평균 35% 정도 개선되었으며, 10.65fps의 처리속도로 실시간 처리가 가능함을 확인했다.

Bit Operation Optimization and DNN Application using GPU Acceleration (GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용)

  • Kim, Sang Hyeok;Lee, Jae Heung
    • Journal of IKEEE
    • /
    • v.23 no.4
    • /
    • pp.1314-1320
    • /
    • 2019
  • In this paper, we propose a new method for optimizing bit operations and applying them to DNN(Deep Neural Network) in software environment. As a method for this, we propose a packing function for bitwise optimization and a masking matrix multiplication operation for application to DNN. The packing function converts 32-bit real value to 2-bit quantization value through threshold comparison operation. When this sequence is over, four 32-bit real values are changed to one 8-bit value. The masking matrix multiplication operation consists of a special operation for multiplying the packed weight value with the normal input value. And each operation was then processed in parallel using a GPU accelerator. As a result of this experiment, memory saved about 16 times than 32-bit DNN Model. Nevertheless, the accuracy was within 1%, similar to the 32-bit model.

Real-time Depth Image Refinement using Hierarchical Joint Bilateral Filter (계층적 결합형 양방향 필터를 이용한 실시간 깊이 영상 보정 방법)

  • Shin, Dong-Won;Hoa, Yo-Sung
    • Journal of Broadcast Engineering
    • /
    • v.19 no.2
    • /
    • pp.140-147
    • /
    • 2014
  • In this paper, we propose a method for real-time depth image refinement. In order to improve the quality of the depth map acquired from Kinect camera, we employ constant memory and texture memory which are suitable for a 2D image processing in the graphics processing unit (GPU). In addition, we applied the joint bilateral filter (JBF) in parallel to accelerate the overall execution. To enhance the quality of the depth image, we applied the JBF hierarchically using the compute unified device architecture (CUDA). Finally, we obtain the refined depth image. Experimental results showed that the proposed real-time depth image refinement algorithm improved the subjective quality of the depth image and the computational time was 260 frames per second.

Processing Speed Improvement of Software for Automatic Corner Radius Analysis of Laminate Composite using CUDA (CUDA를 이용한 적층 복합재 구조물 코너 부의 자동 구조 해석 소프트웨어의 처리 속도 향상)

  • Hyeon, Ju-Ha;Kang, Moon-Hyae;Moon, Yong-Ho;Ha, Seok-Wun
    • Journal of Convergence for Information Technology
    • /
    • v.9 no.7
    • /
    • pp.33-40
    • /
    • 2019
  • As aerospace industry has been activated recently, it is required to commercialize composite analysis software. Until now, commercial software has been mainly used for analyzing composites, but it has been difficult to use due to high price and limited functions. In order to solve this problem, automatic analysis software for both in-plane and corner radius strength, which are all made on-line and generalized, has recently been developed. However, these have the disadvantage that they can not be analyzed simultaneously with multiple failure criteria. In this paper, we propose a method to greatly improve the processing speed while simultaneously handling the analysis of multiple failure criteria using a parallel processing platform that only works with a GPU equipped with a CUDA core. We have obtained satisfactory results when the analysis speed is experimented on the vast structure data.

Development and Speed Comparison of Convolutional Neural Network Using CUDA (CUDA를 이용한 Convolutional Neural Network의 구현 및 속도 비교)

  • Ki, Cheol-min;Cho, Tai-Hoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.335-338
    • /
    • 2017
  • Currently Artificial Inteligence and Deep Learning are social issues, and These technologies are applied to various fields. A good method among the various algorithms in Artificial Inteligence is Convolutional Neural Network. Convolutional Neural Network is a form that adds convolution layers that extracts features by convolution operation on a general neural network method. If you use Convolutional Neural Network as small amount of data, or if the structure of layers is not complicated, you don't have to pay attention to speed. But the learning time is long as the size of the learning data is large and the structure of layers is complicated. So, GPU-based parallel processing is a lot. In this paper, we developed Convolutional Neural Network using CUDA and Learning speed is faster and more efficient than the method using the CPU.

  • PDF

Technique Development of Realtime Movement, Reaction and Photorealistic Rendering of Virtual Objects (ITRC 4th workshop 제 2-1 세부과제 -가상 물체의 실시간 거동 및 반응 시뮬레이션과 시각적 실사렌더링 기술 개발-)

  • Ji, Joong-Hyun;Yun, Dong-Ho;Ko, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2009.02a
    • /
    • pp.2066-2067
    • /
    • 2009
  • 1차년도에는 햅틱 시나리오의 비주얼 쓰레드로서의 환경을 구축하여 햅틱 렌더링과 그래픽 렌더링의 연동을 위한 연구를 수행하였고 햅틱 장비로부터 오는 다양한 데이터 처리를 위한 데이터 로딩 기법을 연구하고 이를 멀티 코어 CPU를 이용하여 단일 조명상에서 광선 추적하는 알고리즘을 개발하였다. 당해연도에는 1Khz 의 속도를 가진 햅틱 렌더링과의 불연속성을 해결하기 위하여 GPU를 이용한 보다 빠른 고품질의 광선 추적 알고리즘을 개발하고자 한다. 이를 위하여 NVIDIA의 범용 솔루션인 CUDA를 통해 병렬 처리를 통해 실시간으로 다중 광원을 가진 Dynamic한 장면을 갱신할 수 있도록 한다. 또한 심장, 폐, 간과 같은 반투명한 재질을 가진 신체 장기 표현을 위해 각 재질에 맞는 양방향의 표면 내부 산란 분포함수를 간략화하여 차후 년도의 연구에 반영한다.

  • PDF

Efficient Parallel Processing for Depth-Map Estimation in Real-Time (실시간 깊이 지도 획득을 위한 효율적인 병렬 처리)

  • Cho, Chil-Suk;Jun, Ji-In;Choo, Hyun-Gon;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.44-46
    • /
    • 2012
  • Depth map를 구하는 방법 중 많이 사용되어지는 방법으로 stripe 패턴을 이용하는 방법이 존재한다. 이 방법은 Pro-Cam 시스템을 이용하며 프로젝터로 조사한 패턴을 카메라로 촬영하여 원래의 패턴과 촬영된 패턴간의 기하학적인 관계를 구하여 depth map를 구하는 방법이다. 본 논문에서는 이와 같이 구조광을 이용하여 depth map 획득 시스템을 효과적으로 multi-thread를 사용하여 실시간 처리하는 것을 제안한다. 일반적으로 자주 사용되는 multi-threading 기법에는 CPU의 thread를 이용하는 OpenMP와 GPU의 thread를 이용하는 CUDA가 있다. 이 두 가지 기법은 수행하는데 차이점이 존재하기 때문에 상황에 따라 OpenMP가 더 좋은 효율을 보이는 부분이 있고 CUDA가 더 좋은 효율을 보이는 부분이 있다. 때문에 우리는 이 두 가지에 대해서 각 부분의 특성에 맞게 더 좋은 효율을 보이는 multi-thread를 이용하였다. 결과적으로 우리는 $1280{\times}800$의 영상에 대해 25fps 이상의 depth map를 획득하였다.

  • PDF

A Study on Improved Image Matching Method using the CUDA Computing (CUDA 연산을 이용한 개선된 영상 매칭 방법에 관한 연구)

  • Cho, Kyeongrae;Park, Byungjoon;Yoon, Taebok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.16 no.4
    • /
    • pp.2749-2756
    • /
    • 2015
  • Recently, Depending on the quality of data increases, the problem of time-consuming to process the image is raised by being required to accelerate the image processing algorithms, in a traditional CPU and CUDA(Compute Unified Device Architecture) based recognition system for computing speed and performance gains compared to OpenMP When character recognition has been learned by the system to measure the input by the character data matching is implemented in an environment that recognizes the region of the well, so that the font of the characters image learning English alphabet are each constant and standardized in size and character an image matching method for calculating the matching has also been implemented. GPGPU (General Purpose GPU) programming platform technology when using the CUDA computing techniques to recognize and use the four cores of Intel i5 2500 with OpenMP to deal quickly and efficiently an algorithm, than the performance of existing CPU does not produce the rate of four times due to the delay of the data of the partition and merge operation proposed a method of improving the rate of speed of about 3.2 times, and the parallel processing of the video card that processes a result, the sequential operation of the process compared to CPU-based who performed the performance gain is about 21 tiems improvement in was confirmed.