• 제목/요약/키워드: 병렬 GPU

검색결과 315건 처리시간 0.027초

CUDA FORTEAN기반 확산파 강우유출모형 개발 (Development of Diffusive Wave Rainfall-Runoff Model Based on CUDA FORTRAN)

  • 김보람;김형준;윤광석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.287-287
    • /
    • 2021
  • 본 연구에서는 CUDA(Compute Unified Device Architecture) 포트란을 이용하여 확산파 강우 유출모형을 개발하였다. CUDA 포트란은 그래픽 처리 장치(Graphic Processing Unit: GPU)에서 수행하는 병렬 연산 알고리즘을 포트란 언어를 사용하여 작성할 수 있도록 하는 GPU상의 범용계산(General-Purpose Computing on Graphics Processing Units: GPGPU) 기술이다. GPU는 그래픽 처리 작업에 특화된 다수의 산술 논리 장치(Arithmetic Logic Unit: ALU)로 구성되어 있어서 중앙 처리 장치(Central Processing Unit: CPU)보다 한 번에 더 많은 연산 수행이 가능하다. 이에 따라, CUDA 포트란기반 확산파모형은 분포형 강우유출모형의 수치모의 연산시간을 단축시킬 수 있다. 분포형모형의 지배방정식은 확산파모형과 Green-Ampt모형으로 구성되었고, 확산파모형은 유한체적법을 이용하여 이산화 하였다. CUDA 포트란기반 확산파모형의 정확성은 기존 연구된 수리실험 결과 및 CPU기반 강우유출모형과 비교하였으며, 연산소요시간에 대한 효율성은 CPU기반 확산파모형과 비교하였다. 그 결과 CUDA 포트란기반 확산파모형의 결과는 수리실험 결과 및 CPU기반 강우유출모형의 결과와 유사한 결과를 나타냈다. 또한, 연산소요시간은 CPU 기반 확산파모형의 연산소요시간보다 단축되었으며, 본 연구에 사용된 장비를 기준으로 최대 100배 정도 단축되었다.

  • PDF

OpenCL을 이용한 JPEG2000 4K 초고화질 영상처리의 병렬고속화 구현 (A Parallel Implementation of JPEG2000 4K Ultra High Definition Image using OpenCL)

  • 박대승;김정길
    • 한국위성정보통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.1-5
    • /
    • 2015
  • 멀티미디어 기술의 급속한 발전과 사용자의 대형 화면에 대한 선호도가 높아지는 가운데 새로운 영상 압축 기술인 HEVC(High Efficiency Video Coding) 고화질 영상 압축 표준을 탄생시켰으며, 그 결과 기존의 HD급 영상보다 4배 이상, 16배까지 선명한 초고화질 UHD(Ultra High Definition) 영상 서비스가 새롭게 주목받고 있다. 또한 JPEG 2000 압축도 기존 처리되던 픽셀 이미지를 넘어 초고화질 해상도 이미지(4K : $3,840{\times}2,160$ 또는 8K : $7680{\times}4320$)를 처리 지원을 하고 있다. 따라서 초고화질 이미지의 획득 및 저장을 위해서는 고속의 처리 기술이 필요하다. 이에 본 논문은 초고화질 해상도 이미지의 고속 처리를 위한 병렬처리 기술에 대한 연구를 위하여, JPEG 2000의 처리 과정을 살펴보고 전처리 단계인 색공간 변환 알고리즘 적용을 위하여 GPU환경에서 병렬 컴퓨팅을 통해 처리속도를 향상시키는 방법을 제안한다. 병렬화한 알고리즘의 구현은 OpenCL(Open Computing Language)을 이용하였다. 실험 결과 사용자 정의 쓰레드 기반 고속 처리와 비교하여 초고화질 해상도 이미지(UHD 4K : $3,840{\times}2,160$)를 기준으로 최대 5배의 성능 향상의 결과를 보여주었다.

가상 심장 시뮬레이션에서 CPU와 GPU 병렬처리의 계산 성능 비교 (Computing Performance Comparison of CPU and GPU Parallelization for Virtual Heart Simulation)

  • 김상희;정다운;;임기무
    • 대한의용생체공학회:의공학회지
    • /
    • 제41권3호
    • /
    • pp.128-137
    • /
    • 2020
  • Cardiac electrophysiology studies often use simulation to predict how cardiac will behave under various conditions. To observe the cardiac tissue movement, it needs to use the high--resolution heart mesh with a sophisticated and large number of nodes. The higher resolution mesh is, the more computation time is needed. To improve computation speed and performance, parallel processing using multi-core processes and network computing resources is performed. In this study, we compared the computational speeds of CPU parallelization and GPU parallelization in virtual heart simulation for efficiently calculating a series of ordinary differential equations (ODE) and partial differential equations (PDE) and determined the optimal CPU and GPU parallelization architecture. We used 2D tissue model and 3D ventricular model to compared the computation performance. Then, we measured the time required to the calculation of ODEs and PDEs, respectively. In conclusion, for the most efficient computation, using GPU parallelization rather than CPU parallelization can improve performance by 4.3 times and 2.3 times in calculations of ODEs and PDE, respectively. In CPU parallelization, it is best to use the number of processors just before the communication cost between each processor is incurred.

이미지 빅데이터를 고려한 하둡 플랫폼 환경에서 GPU 기반의 얼굴 검출 시스템 (A GPU-enabled Face Detection System in the Hadoop Platform Considering Big Data for Images)

  • 배유석;박종열
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.20-25
    • /
    • 2016
  • 디지털 빅데이터 시대가 도래함에 따라 다양한 분야에서 하둡 플랫폼이 널리 사용되고 있지만, 하둡 맵리듀스 프레임워크는 대량의 작은 파일들을 처리하는데 있어서 네임노드의 메인 메모리와 맵 태스크 수가 증가하는 문제점을 안고 있다. 또한, 맵리듀스 프레임워크에서 하드웨어 기반 데이터 병렬성을 지원하는 GPU를 활용하기 위해서는 C++ 언어 기반의 태스크를 맵리듀스 프레임워크에서 수행하기 위한 방식이 필요하다. 따라서, 본 논문에서는 이미지 빅데이터를 처리하기 위해 하둡 플랫폼 환경에서 이미지 시퀀스 파일을 생성하고 하둡 파이프를 이용하여 GPU 기반의 얼굴 검출 태스크를 맵리듀스 프레임워크에서 처리하는 얼굴 검출 시스템을 제시하고 단일 CPU 프로세스 대비 약 6.8배의 성능 향상을 보여준다.

OpenCL을 이용한 내장형 GPU에서의 의학영상처리 가속화 (Accelerating Medical Image Processing on Integrated GPU Using OpenCL)

  • 김범준;신병석
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권2호
    • /
    • pp.1-10
    • /
    • 2017
  • 잡음이 있거나 해상도가 낮은 의료 영상의 화질을 개선하기 위해 다양한 필터를 적용한다. 이것은 환자의 방사선 피폭량을 줄이고, 기존에 사용하던 영상 촬영기기의 활용도를 높이기 위해 반드시 필요한 작업이다. 기존 방법에서는 PC의 CPU를 이용하여 필터링하는 것이 일반적이었다. 하지만 병원에서 사용하는 PC의 CPU 성능만으로는 해상도가 높은 인체 영상에 각종 연산 및 필터를 적용하여 실시간으로 결과를 만들어 내기는 어렵다. 본 논문에서는 CPU 안에 탑재되어 있는 인텔 내장 GPU의 구조와 성능을 분석하고 이를 기반으로 하여 OpenCL 병렬처리 기능을 적용한 영상 필터링을 수행하는 방법을 제안하였다. 이를 통해 의료 영상에 높은 연산량을 가지는 복잡한 필터를 적용하여 고화질의 결과물을 실시간에 생성할 수 있도록 하였다.

GPGPU를 이용한 Grabcut의 수행 속도 개선 방법에 관한 연구 (A Study of How to Improve Execution Speed of Grabcut Using GPGPU)

  • 김지훈;박영수;이상훈
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.379-386
    • /
    • 2014
  • 본 논문에서는 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키기 위하여 GPU(Graphics Processing Unit)에서 데이터를 처리하는 방법을 제안한다. Grabcut 알고리즘은 뛰어난 성능의 객체 추출 알고리즘으로 기존의 Grabcut 알고리즘은 전경 영역과 배경 영역을 분할한 후 배경 K-클러스터와 전경 K-클러스터로 할당한다. 그리고 할당 된 결과를 점진적으로 개선될 때까지의 과정을 반복한다. 하지만 Grabcut 알고리즘은 반복된 클러스터링 작업으로 인하여 수행 시간이 오래 걸리는 단점이 존재한다. 따라서 GPGPU(General-Purpose computing on Graphics Processing Unit)를 이용해 반복되는 작업을 병렬적으로 처리하여 Grabcut 알고리즘의 수행 속도를 효율적으로 개선시키는 방법을 제안한다. 제안하는 방법으로 Grabcut 알고리즘의 수행시간을 평균 약 90.668% 감소시켰다.

GPGPU의 멀티 쓰레드를 활용한 고성능 병렬 LU 분해 프로그램의 구현 (Implementation of high performance parallel LU factorization program for multi-threads on GPGPUs)

  • 신봉희;김영태
    • 인터넷정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.131-137
    • /
    • 2011
  • GPGPU는 원래 그래픽 계산을 위한 프로세서인 GPU를 일반 계산에 활용하여 저전력으로 고성능의 효율을 보이는 신개념의 계산 장치이다. 본 논문에서는 GPGPU에서 계산을 하기 위한 병렬 LU 분해법의 알고리즘을 제안하였다. Nvidia GPGPU에서 프로그램을 실행하기 위한 CUDA 계산 환경에서는 계산하고자 하는 데이터 도메인을 블록으로 나누고 각 블록을 쓰레드들이 동시에 계산을 하는데, 이 때 블록들의 계산 순서는 무작위로 진행이 되기 때문에 블록간의 데이터 의존성을 가지는 LU 분해 프로그램에서는 결과가 정확하지 않게 된다. 본 논문에서는 병렬 LU 분해법에서 블록간의 계산 순서를 인위적으로 정하는 구현 방식을 제안하며 아울러 LU 분해법의 부분 피벗팅을 계산하기 위한 병렬 reduction 알고리즘도 제안한다. 또한 구현된 병렬프로그램의 성능 분석을 통하여 GPGPU의 멀티 쓰레드 기반으로 고성능으로 계산할 수 있는 병렬프로그램의 효율성을 보인다.

병렬 회전 예제 기반 텍스처 합성 (Parallel Rotated Exemplar-based Texture Synthesis)

  • 박한욱;김창헌
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제15권1호
    • /
    • pp.17-23
    • /
    • 2009
  • 본 논문에서는 다수의 회전 이미지를 생성, 이용해 결과의 다양성을 추구하고 기존 기법들의 문제인 예제 가장자리 경계면의 Neighborhood를 이용해 생기는 경계선을 완화한 합성 결과물을 생성하는 새 예제 기반 텍스처 합성 방법을 제안한다. 논문에서 제안하는 방법은 구현하기에 따라 공간 결정적인 형태로 구축할 수 있으며 병렬 처리가 가능한 하드웨어를 이용한 병렬 연산처리로 합성 속도 가속을 하는데도 유리한 구조를 가지고 있다.

  • PDF

VR 영상 스티칭을 위한 SIFT 알고리즘에서의 OpenMP 고속화 방법 (High Speed OpenMP Method in SIFT Algorithm for VR Image Stitching)

  • 이용석;강이슬;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.349-351
    • /
    • 2016
  • 본 논문에서는 VR 영상의 스티칭을 위한 특징점 추출 방식의 하나인 SIFT 알고리즘의 고속화 방법을 제안한다. 이 방법은 SIFT 의 각 단계 모두에 최적화 방법을 적용하여 CPU 에 최적화된 알고리즘을 구축하였다. 그리고 비독립적인 과정들로 이루어진 SIFT 특징점 추출 연산을 병렬화하기 위한 방법으로, 영상 분할 방법을 제시하며 SIFT 의 새로운 병렬화 방법을 제안한다. 특히 최적화 과정을 통해 Scale-space Extrema Detection 과 Orientation Assignment 과정에서 큰 시간 단축 효과를 보여 총 75.5%의 시간을 단축하였다. 이를 OpenMP 와 영상 분할 방법을 활용한 CPU 병렬화로 FullHD($1920{\times}1080$)해상도 영상에서 약 4000 개의 특징점을 추출하는 데 평균 91ms 의 성능을 보이며 기존 GPU 고속화 논문 대비 약 30%의 성능 개선 효과를 보였다.

  • PDF

추가 학습이 빈번히 필요한 비포장도로에서 주행로 탐색에 적합한 GLSL 기반 ALNN Algorithm (GLSL based Additional Learning Nearest Neighbor Algorithm suitable for Locating Unpaved Road)

  • 구본우;김준겸;이은주
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.29-36
    • /
    • 2019
  • 국방 분야에서 무인 차량의 주행로는 포장 도로 뿐만 아니라, 자주 다양한 변화를 갖는 야지의 비포장 도로 등이 포함된다. 이 무인 차량은 주로 험지나 오지에서 감시 및 정찰, 진지 방어 등을 수행하므로 자율 주행을 위해서 예측하지 못했던 다양한 주행로와 환경을 수시로 접하게 되며, 이에 따라 추가 학습이 필요하다. 본 논문에서는 'Forgetting' 문제를 피하면서 거리 비교와 Class 비교를 통해 빠르게 추가 학습이 가능하도록 Approximate Nearest Neighbor를 수정한 GPU 기반 Additional Learning Nearest Neighbor(ALNN) 알고리즘을 제안한다. 또 ALNN 알고리즘은 학습 데이터가 누적될수록 연산 속도가 저하되는 문제가 있고, 본 연구에서는 OpenGL Shading Language 기반의 GPU 병렬 처리를 사용하여 이를 해결하였다. ALNN 알고리즘은 기존의 학습 데이터에 영향을 주지 않으면서 빠르게 추가 학습이 가능하여, 빈번히 실시간으로 재학습이 필요한 국방 등의 분야에 활용될 수 있다.