• 제목/요약/키워드: GPU acceleration

검색결과 79건 처리시간 0.023초

CUDA를 이용한 효과적인 GPU 광선추적 가속 알고리즘 (An efficient acceleration algorithm of GPU ray tracing using CUDA)

  • 지중현;윤동호;고광희
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.469-474
    • /
    • 2009
  • 본 논문은 CUDA를 이용하여 GPU에서의 최적화된 kd-tree 탐색구조 환경과 광선/삼각형의 교차검사 알고리즘을 통한 실시간의 광선추적 시스템을 제안한다. 기존의 GPU 기반 kd-tree 탐색 알고리즘은 대부분 스택이 없는 GPU 하드웨어의 특성상 임의의 단말노드에서 기하요소의 교차검사가 실패할 경우 상위노드로 상향식 탐색을 진행하기 때문에 노드에 대한 중복 방문이 반드시 필요하거나 혹은 불필요한 메모리의 적재가 필요하기 때문에 큰 장면에 대한 광선추적은 어렵게 된다. 본 논문에서 제안하는 알고리즘은 CPU 방식의 kd-tree 탐색과 비슷하게 동작하도록 stack을 CUDA 프레임워크를 이용하여 GPU의 지역메모리로 구현하였기 때문에 기존의 방법 등에서의 문제점을 해결하였다. 또한 탐색구조를 통해서 찾은 말단 삼각형들의 처리를 위해서 최신의 CPU 기반의 교차검사 알고리즘인 Plucker 좌표계 검사를 CUDA로 구현하여 병렬 가속시켰다. Plucker 검사는 기존의 무게중심 좌표 대신에 광선과 삼각형 edge의 관계를 이용하는 간단한 연산만을 이용하는 장점이 있다. 전체 시스템은 단일 커널로 구성되어 있으며 병렬처리를 위한 복잡한 동기화나 광선패킷의 도입 없이 간단하게 구현되었다. 결과적으로 본 논문의 실험은 기존 알고리즘 대비 제안하는 알고리즘이 약 2배의 성능 향상이 있음을 보여 준다.

  • PDF

GPU를 이용한 영상기반 고속 해무제거 기술 (Digital Image based Real-time Sea Fog Removal Technique using GPU)

  • 최운식;이윤혁;서영호;최현준
    • 한국정보통신학회논문지
    • /
    • 제20권12호
    • /
    • pp.2355-2362
    • /
    • 2016
  • 해무 제거는 컴퓨터 비전과 영상처리 분야에서 상당히 중요하게 다루고 있는 분야이다. 해무 혹은 안개제거 기술은 자동 제어 시스템, CCTV, 영상인식 등과 같은 여러 분야에서 사용되고 있다. 이와 같이 컬러 영상의 해무 제거 기술이 다양하게 연구되고 있고 특히 Dark Channel Prior (DCP) 기술을 이용한 방법이 가장 활발하게 이용되고 있다. 본 논문에서는 DCP 알고리즘을 적용하여 해무를 빠르고 효율적으로 제거하는 기술을 소개한다. 이 기술은 GPU를 기반으로 구현한다. 병렬 프로그래밍과 최적화 과정을 거쳐 약 250배 정도의 연산속도를 빠르게 개선하였다. 이를 위해 기존의 프로그램 일부분을 몇 가지 과정을 거쳐 병렬화와 최적화 과정을 수행하였다. 제안한 GPU 프로그래밍 알고리즘과 구현결과는 선박의 안전항해, 지형조사, 지능형 자동차 등과 같은 분야에 적용될 수 있을 것으로 기대된다.

정점분할을 이용한 GPU 기반 볼륨 렌더링의 가속 기법 (Acceleration of GPU-based Volume Rendering Using Vertex Splitting)

  • 유성열;이은석;신병석
    • 한국게임학회 논문지
    • /
    • 제12권2호
    • /
    • pp.53-62
    • /
    • 2012
  • 볼륨 광선 투사법은 볼륨 데이터를 가시화하는 기법 중 고화질 영상을 만들어내는 기법이다. 하지만 일반적으로 볼륨 데이터는 매우 크기 때문에 렌더링 시간이 오래 걸리는 문제가 있다. 이를 보완하기 위하여 최근에는 GPU를 이용하여 볼륨 광선 투사법을 가속화하는 많은 기법들이 연구되고 있다. 본 논문에서는 볼륨 광선 투사법을 가속화하기 위한 GPU 기반의 옥트리 탐색을 통한 효과적인 빈 공간 도약 기법을 제안한다. 여기서는 최대-최소 옥트리를 생성하고 옥트리의 루트 노드부터 정점분할을 이용하여 빈 공간을 식별한다. 찾아낸 빈 공간을 삭제함으로써 볼륨 데이터에서 의미 있는 객체를 둘러싸는 바운딩 다면체를 최소화 시킨다. 최소화 된 바운딩 다면체에 대해서만 렌더링을 진행함으로써 기존의 볼륨 광선 투사법과 비교하여 빠른 시간에 동일한 결과물을 생성한다.

GPGPU를 이용한 영상 품질 측정 프로그램의 가속화 연구 (Research of accelerating method of video quality measurement program using GPGPU)

  • 이성욱;변기범;김기수;홍지만
    • 스마트미디어저널
    • /
    • 제5권4호
    • /
    • pp.69-74
    • /
    • 2016
  • 최근 그래픽 처리 장치(GPU)의 발전과 개발자 친화적인 GPGPU(General-Purpose computing on Graphics Processing Units)기술의 발전으로 인해 그래픽 처리 장치를 활용한 병렬 컴퓨팅의 사용이 확대되고 있다. 이를 통해 과학, 의학, 공학 등 많은 분야에 걸쳐 기존 CPU 컴퓨팅 환경보다 더 빠른 처리속도로 결과 값을 얻어 낼 수 있게 되었다. 본 논문은 CPU 기반 컴퓨팅과 GPU 기반 컴퓨팅의 연산처리 속도의 차이의 비교를 위해 기존 CPU 기반으로 구현된 영상 품질 측정 프로그램을 NVIDIA사의 GPGPU기술을 사용할 수 있도록 프로그램을 포팅한다. 포팅한 프로그램을 바탕으로 GPGPU기술을 통한 프로그램의 가속화에 대하여 연구한다. 가속화된 프로그램은 CPU 기반의 프로그램보다 약 1.83배 정도의 실행 속도를 가진다. 또한 CPU 기반의 프로그램을 GPU 기반으로 수정할 때 생기는 제약과 문제점에 대해서도 기술한다.

CPU와 GPU의 병렬 처리를 이용한 고속 물체 인식 알고리즘 구현 (The Implementation of Fast Object Recognition Using Parallel Processing on CPU and GPU)

  • 김준철;정용한;박은수;최학남;김학일;허욱렬
    • 제어로봇시스템학회논문지
    • /
    • 제15권5호
    • /
    • pp.488-495
    • /
    • 2009
  • This paper presents a fast feature extraction method for autonomous mobile robots utilizing parallel processing and based on OpenMP, SSE (Streaming SIMD Extension) and CUDA programming. In the first step on CPU version, the algorithms and codes are optimized and then implemented by parallel processing. The parallel algorithms are debugged to maintain the same level of performance and the process for extracting key points and obtaining dominant orientation with respect to key points is parallelized. After extraction, a parallel descriptor via SSE instructions is constructed. And the GPU version also implemented by parallel processing using CUDA based on the SIFT. The GPU-Parallel descriptor achieves an acceleration up to five times compared with the CPU-Parallel descriptor, but it shows the lower performance than CPU version. CPU version also speed-up the four and half times compared with the original SIFT while maintaining robust performance.

GPU를 이용한 위상 측정법의 가속화 (Acceleration of Phase Measuring Profilometry using GPU)

  • 김호중;조태훈
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2285-2290
    • /
    • 2017
  • 최근 산업의 여러 분야에서 자동화 시스템이 발전함에 따라 3D 측정에 의한 물체의 높이 검사의 필요성이 점차 대두되고 있다. 여러 3D 측정 방법 중에서 본 논문에서 다루는 방법은 위상 측정법으로, 위상 측정법이란 프린지 패턴의 위상값을 이용하여 물체의 높이를 구하는 방법이다. 위상 측정법은 연산량이 많이 필요한 알고리즘이기 때문에 이를 효율적으로 해결할 방법이 필요하다. 본 논문에서는 이를 위해 NVIDIA에서 나온 CUDA를 사용할 것을 제안했다. 또 CUDA에서 제공하는 Pinned memory와 Stream을 사용할 것을 제안하였다. 이를 통해 정확도를 유지하면서 측정 속도는 크게 향상시킬 수 있었고 실험을 통해 성능을 입증하였다.

그래픽 하드웨어 가속을 이용한 실시간 색상 인식 (Real-time Color Recognition Based on Graphic Hardware Acceleration)

  • 김구진;윤지영;최유주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권1호
    • /
    • pp.1-12
    • /
    • 2008
  • 본 논문에서는 야외 및 실내에서 촬영된 차량 영상에 대해 실시간으로 차량 색상을 인식할 수 있는 GPU(Graphics Processing Unit) 기반의 알고리즘을 제시한다. 전처리 과정에서는 차량 색상의 표본 영상들로부터 특징벡터를 계산한 뒤, 이들을 색상 별로 조합하여 GPU에서 사용할 참조 텍스쳐(Reference texture)로 저장한다. 차량 영상이 입력되면, 특징벡터를 계산한 뒤 GPU로 전송하고, GPU에서는 참조 텍스쳐 내의 표본 특징리터들과 비교하여 색상 별 유사도를 측정한 뒤 CPU로 전송하여 해당 색상명을 인식한다. 분류의 대상이 되는 색상은 가장 흔히 발견되는 차량 색상들 중에서 선택한 7가지 색상이며, 검정색, 은색, 흰색과 같은 3가지의 무채색과 빨강색, 노랑색, 파랑색, 녹색과 같은 4가지의 유채색으로 구성된다. 차량 영상에 대한 특징벡터는 차량 영상에 대해 HSI(Hue-Saturation-Intensity) 색상모델을 적용하여 색조-채도 조합과 색조-명도 조합으로 색상 히스토램을 구성하고, 이 중의 채도 값에 가중치를 부여함으로써 구성한다. 본 논문에서 제시하는 알고리즘은 다양한 환경에서 촬영된 많은 수의 표본 특징벡터를 사용하고, 색상 별 특성을 뚜렷이 반영하는 특징벡터를 구성하였으며, 적합한 유사도 측정함수(likelihood function)를 적용함으로써, 94.67%에 이르는 색상 인식 성공률을 보였다. 또한, GPU를 이용함으로써 대량의 표본 특징벡터의 집합과 입력 영상에 대한 특징벡터 간의 유사도 측정 및 색상 인식과정을 병렬로 처리하였다. 실험에서는, 색상 별로 1,024장씩, 총 7,168장의 차량 표본 영상을 이용하여 GPU에서 사용하는 참조 텍스쳐를 구성하였다. 특징벡터의 구성에 소요되는 시간은 입력 영상의 크기에 따라 다르지만, 해상도 $150{\times}113$의 입력 영상에 대해 측정한 결과 평균 0.509ms가 소요된다. 계산된 특징벡터를 이용하여 색상 인식의 수행시간을 계산한 결과 평균 2.316ms의 시간이 소요되었고, 이는 같은 알고리즘을 CPU 상에서 수행한 결과에 비해 5.47배 빠른 속도이다. 본 연구에서는 차량만을 대상으로 하여 색상 인식을 실험하였으나, 일반적인 피사체의 색상 인식에 대해서도 제시된 알고리즘을 확장하여 적용할 수 있다.

포인트 프리미티브를 이용한 실시간 볼륨 렌더링 기법 (Real-time Volume Rendering using Point-Primitive)

  • 강동수;신병석
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1229-1237
    • /
    • 2011
  • 직접 볼륨 렌더링은 반투명한 물체에 대한 고화질 영상 생성이 가능한 기법으로 광선 투사법이 대표적이다. 이것은 각 화소별로 오브젝트 공간상의 관심 영역을 샘플링하기 때문에 높은 해상도의 영상을 생성할 수 있지만, 각 샘플점마다 반복적으로 수행하는 텍스처 참조와 누적연산 때문에 렌더링 성능이 저하되는 문제가 있다. 최근에는 연산 능력이 매우 커진 GPU를 이용해 광선 투사법을 가속화하는 기법들이 많이 연구되고 있지만 이들 역시 전처리 단계 및 추가적인 메모리 사용이 불가피하다. 본 논문에서는 반투명 물체의 표현이 가능하고, 전처리 과정 및 추가적인 텍스처 메모리를 사용하지 않으면서 기존의 방법들보다 고속으로 볼륨 데이터를 가시화할 수 있는 포인트 프리미티브 기반의 새로운 볼륨 렌더링기법을 제안한다. 이 방법은 볼륨 데이터를 샘플링하여 포인트 프리미티브를 생성하고 이를 이미지 평면상에 투영하는 방식으로 수행속도가 매우 빠르다. 또한, 생성된 포인트 프리미티브를 실행시간에 추가 및 삭제할 수 있기 때문에 OTF를 변경해도 실시간 대응이 가능하다.

멀티 코어와 GPU 결합 구조를 이용한 DEVS 기반 대규모 하이브리드 시스템 모델링 시뮬레이션의 가속화 (Accelerated Large-Scale Simulation on DEVS based Hybrid System using Collaborative Computation on Multi-Cores and GPUs)

  • 김성섭;조정훈;박대진
    • 한국시뮬레이션학회논문지
    • /
    • 제27권3호
    • /
    • pp.1-11
    • /
    • 2018
  • 이산 사건 시스템 명세 (DEVS)를 이용한 하이브리드 시스템 시뮬레이션은 IoT 기반 Smart factory의 최적 동작을 위한 파라미터 추출 등 멀티 레벨 모델 계층을 포함한 복잡계 시스템의 해석에서 중요한 도구로 사용되고 있다. 하이브리드 시스템은 연속 시간 시스템과 이산 사건 시스템의 특성을 모두 포함하고 있어 그 복잡성으로 인해 결과를 얻기 위해 많은 시간을 필요로 한다. 본 연구에서는 멀티 코어와 GPU가 결합된 이기종 컴퓨터 구조를 이용한 DEVS 기반 대규모 하이브리드 시스템 시뮬레이션의 가속화를 제안한다. 제안하는 멀티 코어-GPU 상호 결합 시뮬레이션 실행 플랫폼을 사용하여 상대적으로 많은 순간 전력을 소모하지만 실행 시간 측면에서 빠른 시뮬레이션이 오히려 전체 에너지 소모 측면에서 장점을 가지는 것을 보여주고자 한다. 이를 위해 대규모 모델의 수평적/수직적 상호 결합된 DEVS 기반 하이브리드 시스템을 시뮬레이션 하였고 효과적인 시뮬레이션을 위한 하드웨어의 조합, 동작 파라미터 변경에 따른 성능 향상을 전력 소모 관점에서 분석하였다.

GPU를 이용한 R-tree에서의 범위 질의의 병렬 처리 (Parallel Range Query processing on R-tree with Graphics Processing Units)

  • 유보선;김현덕;최원익;권동섭
    • 한국멀티미디어학회논문지
    • /
    • 제14권5호
    • /
    • pp.669-680
    • /
    • 2011
  • R-tree는 데이터베이스 시스템에서 가장 많이 사용되는 색인 구조로 다차원의 데이터를 관리하는데 매우 효율적이다. 하지만 데이터베이스 시스템이 처리해야 하는 데이터의 용량이 증가함에 따라, 기존의 R-tree에서의 범위 질의의 처리는 디스크의 접근 지연 등의 이유로 인하여 수행 시간이 증가하게 되었다. 이러한 문제들을 해결하기 위하여 버퍼를 사용하거나 혹은 다수의 디스크와 프로세서를 사용하여 병렬로 질의를 수행하고자 하는 많은 연구들이 진행되었다. 이러한 연구들의 일환으로 최근 Graphics Processing Unit(GPU)을 이용한 병렬화 기법들에 대한 연구들이 진행되고 있다. 이러한 GPU의 적용을 통한 병렬화는 계산 속도의 증가와 디스크 접근 횟수의 감소를 통하여 수행 속도의 개선을 가능하게 하지만 GPU와 CPU사이의 메모리 교환 및 GPU 메모리의 접근 지연 등에 의한 오버헤드를 발생시킨다. 본 논문에서는 이러한 오버헤드를 해결하고 효과적으로 GPU를 적용하기 위하여 GPU를 버퍼로 사용하여 범위 질의를 병렬화하는 기법을 제안하였다. 버퍼 알고리즘을 통하여 메모리 교환 횟수를 줄이고, 동시 접근 가능한 메모리의 용량을 증가시켜 메모리의 접근 지연을 최소화 할 수 있었다. 제안 기법과 기존의 인덱스의 비교 실험에서 최대의 경우 5배 정도의 성능이 개선되는 것을 확인 할 수 있었다.