• 제목/요약/키워드: GPU Parallel Programming

검색결과 39건 처리시간 0.024초

GPU 기반 대량입자 거동 시뮬레이션과 실험비교 (Comparison of GPU-Based Numerous Particles Simulation and Experiment)

  • 박상욱;전철웅;손정현;이재욱
    • 대한기계학회논문집A
    • /
    • 제38권7호
    • /
    • pp.751-756
    • /
    • 2014
  • 우리 주변에는 수많은 알갱이들이 서로 상호작용하면서 운동하는 모습을 주로 볼 수 있다. 본 연구에서는 수많은 알갱이들의 접촉에 따른 동적 거동을 분석하였다. 접촉에 의한 각 요소의 거동을 해석하기 위해 이산 요소법(Discrete element method)을 사용하였다. 접촉 관계에 있어서 접촉 판별을 위해 Neighboring-Cell 알고리즘을 사용하였고, 접촉력 계산에 Hertzian contact model과 Tangential sliding friction contact 모델을 사용하였다. 수많은 알갱이의 접촉해석을 위해 GPU 기반의 병렬 프로그램을 구성하였다. 해석을 검증하기 위해서 댐 붕괴 실험을 수행하였다. 거동 종료시점에 입자들의 쌓인 형상을 시뮬레이션 결과와 비교하여 해석 프로그램의 신뢰성을 검증하였다.

구 집합에 대한 컨벡스헐 근사 (Approximating the Convex Hull for a Set of Spheres)

  • 김병주;김구진;김영준
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제3권1호
    • /
    • pp.1-6
    • /
    • 2014
  • 현재까지 컨벡스헐 (convex hull) 의 계산 알고리즘들은 주로 점 집합 (point set) 에 대해 연구가 수행되어 왔다. 본 논문에서는 이산 공간에서 다양한 반경을 갖는 구 집합에 대한 컨벡스헐을 근사하는 방법을 제시한다. 구 집합에 대한 컨벡스헐 계산은, 특히 단백질 분자의 구조적인 특성을 연구하는 여러 응용분야에서 계산 효율성을 증대시키기 위한 기반 기술이라 할 수 있다. 분자에 대응하는 구의 집합에 대해 복셀 맵 (voxel map) 자료구조를 적용하고 이를 이용하여 컨벡스헐을 계산하는 알고리즘을 제시한다. 제안된 방법은 GPU를 활용한 병렬처리를 수행하여 평균적으로 6,400개 이하의 구가 포함된 집합에 대해 40ms 이내에 컨벡스헐을 계산하는 성능을 보인다.

가상 변이맵 탐색과 수렴 조건 판단을 이용한 실시간 가상시점 생성 방법 (Real-time Virtual View Synthesis using Virtual Viewpoint Disparity Estimation and Convergence Check)

  • 신인용;호요성
    • 한국통신학회논문지
    • /
    • 제37권1A호
    • /
    • pp.57-63
    • /
    • 2012
  • 본 논문에서는 양안식 3차원 디스플레이 장치에 사용가능한 실시간 가상시점 영상을 생성방법을 제안한다. 제안하는 방법은 변이 탐색 (disparity estimation) 과정에서 중복되거나 불필요한 계산을 제거하기 위해, 변이맵 탐색 위치를 가상시점과 동일한 위치로 설정한다. 또한, 전역 방법을 사용한 변이맵 탐색 과정은 정확도는 높지만 복잡한 계산량이 문제이기 때문에 최적화 과정에서 변이값이 수렴하는 위치를 탐색하고 정보 갱신을 멈추는 방법을 사용하였다. 이렇게 얻어진 가상시점의 변이맵은 실제 참조가 가능한 영역인지 판단하는 수렴 조건 판단 (convergence check) 절차를 거쳐 영상을 합성한다. 영상 합성을 위한 모든 과정은 실시간 처리를 위하여 단일 명령 복수 쓰레드 (Single Instruction Multiple Threads) 구조인 그래픽 처리장치(GPU)를 활용한 프로그래밍을 통해 고속화를 이루었다. 실험 결과를 통해 제안하는 방법이 합성 영상의 화질을 유지하면서도 실시간으로 가상시점 영상을 합성한 것을 확인할 수 있었다.

GPU를 이용한 특징 기반 영상모핑의 가속화 (Acceleration of Feature-Based Image Morphing Using GPU)

  • 김은지;윤승현;이지은
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제20권2호
    • /
    • pp.13-24
    • /
    • 2014
  • 본 논문에서는 특징 기반 영상모핑(feature-based image morphing)을 위한 GPU (Graphics Processing Unit) 기반의 가속화 기법을 제시한다. 제안된 기법은 모핑과정에서 픽셀과 제어선 사이의 최단거리를 효율적으로 계산하기 위해 그래픽스 하드웨어의 깊이 버퍼(depth-buffer)를 이용한다. 먼저 원본영상(source image)과 최종영상(destination image)에 사용자입력을 통해 특징을 표현하는 제어선들을 지정하고, 각 제어선의 거리함수(distance function)를 서로 다른 색상을 갖는 두개의 사각형과 원뿔로 렌더링한다. 그래픽스 파이프라인(graphics pipeline)을 통해 각 픽셀에서 가장 가까운 제어선까지의 거리는 깊이 버퍼에 저장되고, 이는 모핑연산을 효율적으로 수행하는데 사용된다. 본 논문에서는 픽셀 단위의 모핑 연산을 CUDA(Compute Unified Device Architecture)를 이용하여 병렬화함으로써 모핑의 속도를 더욱 향상시키며, 다양한 크기의 입력영상에 대하여 각각 CPU와 GPU를 이용한 영상모핑 실험을 통해 제안된 기법의 효율성을 입증한다.

2D Mesh SIMD 구조에서의 병렬 행렬 곱셈의 수치적 성능 분석 (An Analytical Evaluation of 2D Mesh-connected SIMD Architecture for Parallel Matrix Multiplication)

  • 김정길
    • 정보통신설비학회논문지
    • /
    • 제10권1호
    • /
    • pp.7-13
    • /
    • 2011
  • Matrix multiplication is a fundamental operation of linear algebra and arises in many areas of science and engineering. This paper introduces an efficient parallel matrix multiplication scheme on N ${\times}$ N mesh-connected SIMD array processor, called multiple hierarchical SIMD architecture (HMSA). The architectural characteristic of HMSA is the hierarchically structured control units which consist of a global control unit, N local control units configured diagonally, and $N^2$ processing elements (PEs) arranged in an N ${\times}$ N array. PEs are communicating through local buses connecting four adjacent neighbor PEs in mesh-torus networks and global buses running across the rows and columns called horizontal buses and vertical buses, respectively. This architecture enables HMSA to have the features of diagonally indexed concurrent broadcast and the accessibility to either rows (row control mode) or columns (column control mode) of 2D array PEs alternately. An algorithmic mapping method is used for performance evaluation by mapping matrix multiplication on the proposed architecture. The asymptotic time complexities of them are evaluated and the result shows that paralle matrix multiplication on HMSA can provide significant performance improvement.

  • PDF

CUDA 연산을 이용한 개선된 영상 매칭 방법에 관한 연구 (A Study on Improved Image Matching Method using the CUDA Computing)

  • 조경래;박병준;윤태복
    • 한국산학기술학회논문지
    • /
    • 제16권4호
    • /
    • pp.2749-2756
    • /
    • 2015
  • 최근 데이터의 질이 높아짐에 따라 영상을 처리하는데 많은 시간이 소모되는 문제가 제기되어 영상 처리 알고리즘의 가속화가 필요하게 됨으로써, 기존의 CPU와 CUDA(Compute Unified Device Architecture) 기반의 인식 시스템에서 연산속도와 성능이득 비교를 위해 OpenMP를 가지고 측정할 수 있는 문자 인식시스템으로 학습된 문자데이터가 입력되면 매칭이 가장 잘 되는 영상의 영역을 인식하는 환경으로 구현하여 각 영문 알파벳의 글씨체가 일정하고 크기가 규격화 되어 있으므로 문자를 학습하고 문자 정합도를 계산하기 위한 영상 매칭 방법을 구현하게 되었다. GPGPU(General Purpose GPU)프로그래밍 플랫폼 기술인 CUDA연산 기법을 이용하여 알고리즘을 빠르고 효율적으로 처리하는 OpenMP에서 인텔 i5 2500의 네 개의 코어를 사용하여 인식 할 때, 기존 CPU의 성능보다 4배의 속도가 나오지 않고 데이터의 분할과 병합 연산의 지연으로 인해 약 3.2배의 속도로 향상되는 가속화 방법을 제안하고 그래픽카드에서 처리하는 병렬처리 결과, 순차적 연산을 수행하였던 CPU 기반의 처리에 비해 성능이득이 약 21X(배)로 향상됨을 확인하였다.

Kinect 깊이 카메라를 이용한 실감 원격 영상회의의 시선 맞춤 시스템 (Real-time Eye Contact System Using a Kinect Depth Camera for Realistic Telepresence)

  • 이상범;호요성
    • 한국통신학회논문지
    • /
    • 제37권4C호
    • /
    • pp.277-282
    • /
    • 2012
  • 본 논문에서는 실감 원격 영상회의를 위한 시선 맞춤 시스템을 제안한다. 제안하는 방법은 적외선 구조광을 사용하는 Kinect 깊이 카메라를 이용해서 색상 영상과 깊이 영상을 획득하고, 깊이 영상을 이용해서 사용자를 배경으로부터 분리한다. 깊이 카메라로부터 획득한 가공되지 않은 깊이 영상은 다양한 형태의 잡음을 가지고 있기 때문에, 첫번째 전처리 과정으로 결합형 양방향 필터를 사용해서 잡음을 제거한다. 그 다음, 깊이값의 불연속성에 적응적인 저역 필터를 적용한다. 색상 영상과 전처리 과정을 거친 깊이 영상을 이용해서 우리는 가상시점에서의 화자를 3차원 모델로 복원한다. 전체 시스템은 GPU 기반의 병렬 프로그래밍을 통해 실시간 처리가 가능하도록 했다. 최종적으로, 우리는 시선이 조정된 원격의 화자 영상을 얻을 수 있게 된다. 실험 결과를 통해 제안하는 시스템이 자연스러운 화자간 시선 맞춤을 실시간으로 가능하게 하는 것을 확인했다.

GPU 클러스터 기반 대용량 온톨로지 추론 (Scalable Ontology Reasoning Using GPU Cluster Approach)

  • 홍진영;전명중;박영택
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.61-70
    • /
    • 2016
  • 근래에 들어 다양한 시멘틱 서비스를 위하여 기존의 지식을 바탕으로 새로운 지식을 고속으로 추론할 수 있는 대용량 온톨로지 추론 기법이 요구되고 있다. 이런 추세에 따라 대규모의 클러스터를 활용하는 하둡 및 Spark 프레임워크 기반의 온톨로지 추론 엔진 개발이 연구되고 있다. 또한, 기존의 CPU에 비해 많은 코어로 구성되어 있는 GPGPU를 활용하는 병렬 프로그래밍 방식도 온톨로지 추론에 활용되고 있다. 앞서 말한 두 가지 방식의 장점을 결합하여, 본 논문에서는 RDFS 대용량 온톨로지 데이터를 인-메모리 기반 프레임워크인 Spark를 통해 분산시키고 GPGPU를 이용하여 분산된 데이터를 고속 추론하는 방법을 제안한다. GPGPU를 통한 온톨로지 추론은 기존의 추론 방식보다 저비용으로 고속 추론을 수행하는 것이 가능하다. 또한 Spark 클러스터의 각 노드를 통하여 대용량 온톨로지 데이터에 대한 부하를 줄일 수 있다. 본 논문에서 제안하는 추론 엔진을 평가하기 위하여 LUBM10, 50, 100, 120에 대해 추론 속도를 실험하였고, 최대 데이터인 LUBM120(약 1백7십만 트리플, 2.1GB)의 실험 결과, 인-메모리(Spark) 추론 엔진 보다 7배 빠른 추론 성능을 보였다.

4-러시안 알고리즘 기반의 편집거리 병렬계산 (Parallel Computation For The Edit Distance Based On The Four-Russians' Algorithm)

  • 김영호;정주희;강대웅;심정섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권2호
    • /
    • pp.67-74
    • /
    • 2013
  • 근사문자열매칭 문제는 다양한 분야에서 연구되어 왔다. 최근에는 차세대염기서열분석의 비용과 시간을 줄이기 위해 빠른 근사문자열매칭 알고리즘들이 이용되고 있다. 근사문자열매칭은 문자열들의 오차를 측정하기 위해 편집거리와 같은 거리함수를 이용한다. 알파벳 ${\Sigma}$에 대한 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해서도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 t라 할 때, 전처리 단계에서 $O((3{\mid}{\Sigma}{\mid})^{2t}t^2)$ 시간과 $O((3{\mid}{\Sigma}{\mid})^{2t}t)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 병렬화하고 실험을 통해 CPU 기반의 순차적 알고리즘과 CUDA로 구현한 GPU 기반의 병렬 알고리즘의 수행시간을 비교한다. 본 논문에서 제시하는 4-러시안 알고리즘의 계산단계는 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t = 1일 때 약 10배 빠르고, t = 2일 때 약 3배 빠른 결과를 보였다.