• 제목/요약/키워드: GPGPU computing

검색결과 87건 처리시간 0.024초

OpenCL을 이용한 임베디드 GPGPU환경에서의 AES 암호화 성능 개선과 평가 (Performance Enhancement and Evaluation of AES Cryptography using OpenCL on Embedded GPGPU)

  • 이민학;강우철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.303-309
    • /
    • 2016
  • 최근, ARM Mali와 같은 여러 임베디드 프로세서들이 OpenCL과 같은 GPGPU 프레임워크를 지원함에 따라 기존 PC 환경에서 활용되던 GPGPU 기술이 임베디드 시스템 영역으로 확대 되고 있다. 그러나 임베디드 시스템은 PC와는 상이한 구조를 갖으며, 저전력이나 실시간성과 같은 성능이 더욱 중요하다. 본 논문에서는 임베디드 GPGPU환경에서 AES 암호화 알고리즘을 개방형 범용 병렬 컴퓨팅 프레임워크인 OpenCL을 사용하여 구현하고 이를 CPU만을 이용한 구현과 비교한다. 실험결과, 1000KByte의 데이터 사이즈의 128비트 AES 암호화 시에 OpenCL을 사용하여 GPU로 병렬 처리하는 것이 OpenMP를 사용하여 CPU상에서 병렬 처리한 방식보다 응답 시간은 최대 1/150, 에너지 소비량은 최대 1/290로 감소함을 확인하였다. 또한 호스트와 GPU 디바이스 간에 메모리를 공유하는 임베디드 구조의 특성에 최적화하여 메모리 복제를 하지 않는 기법을 적용하는 경우 응답시간과 에너지 소비량에서 최대 100% 이상의 추가적인 성능개선을 이룰 수 있었으며, 연구에서 사용한 데이터의 크기에 비례하여 더 높은 성능의 개선이 나타나는 것을 확인하였다.

GPGPU를 이용한 홀로그램 생성 가속화 방법 (Hologram Generation Acceleration Method Using GPGPU)

  • 이윤혁;김동욱;서영호
    • 방송공학회논문지
    • /
    • 제22권6호
    • /
    • pp.800-807
    • /
    • 2017
  • 컴퓨터를 이용하여 홀로그램을 생성하기 위해서는 방대한 양의 계산이 필요하다. 이를 고속화하기 위해 GPGPU(General Purpose computing on Graphic Process Unit)를 이용하여 병렬 프로그래밍을 통한 고속화 방법들이 많이 연구되었다. 본 논문에서는 홀로그램 화소 기반의 병렬처리에서 생기는 병목현상을 줄이고, 공통항을 이용한 가속화 방법을 제안한다. 또한 최적의 쓰레드를 결정하기 위해 nVidia사의 CUDA와 함께 제공되는 Visual Profiler를 이용한 최적화 방법을 소개한다. 구현 결과 기존 연구 대비 최대 40%의 계산시간을 줄일 수 있었다.

SIMT 구조 기반 GPGPU를 이용한 고속 Rasterizer 구현 (Implememtation of Fast Rasterizer processing using GPGPU based on SIMT structure)

  • 김치용
    • 전기전자학회논문지
    • /
    • 제21권3호
    • /
    • pp.276-279
    • /
    • 2017
  • 본 논문에서는 디스플레이 장치의 화면을 픽셀 단위로 구성하는 Rasterizer의 가속화를 위하여 SIMT구조의 GPGPU(General Purpose computing on Graphics Processing Units)를 사용하였다. GPU는 많은 수의 ALU를 가지고 있고, 병렬처리하기 때문에 연산처리가 매우 빠르다. 따라서 본 논문에서는 연산을 순차적으로 수행하는 CPU와 연산을 병렬적으로 수행하는 GPU를 이용하여 3D그래픽스 모델을 생성하는 rasterizer를 구현했다. 한 프레임 생성 시 Intel CPU를 이용한 rasterizer보다 본 논문에서 제안하는 rasterizer가 1.45배 좋은 성능을 확인하였다.

모바일 멀티 코어 GP-GPU를 이용한 H.264/AVC 디코더 구현 (Implementation of IQ/IDCT in H.264/AVC Decoder Using Mobile Multi-Core GPGPU)

  • 김동한;이광엽;정준모
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2010
  • 최근 멀티코어 프로세서의 이용이 증가함에 따라, 멀티코어를 이용한 다양한 병렬화 기법들이 제안되고 있다. 모바일 환경에서도 멀티코어 구조를 적용한 프로세서들이 등장하면서 병렬화 기법들이 연구되고 있다. 하지만, 아직까지 모바일 환경에서의 CPU의 성능은 한계가 있다. 이를 병렬처리와 실수 연산이 뛰어난 GPGPU(General-Purpose computing in Graphics Processing Units)를 멀티코어 구조로 설계함으로써 다른 전용 하드웨어의 추가 없이 성능을 향상 시킬 수 있다. 본 논문에서는 모바일 환경에 적합하게 설계된 멀티코어 GPGPU를 이용하여 H.264 디코더의 Inverse Quantization, Inverse DCT, Color Space Conversion 모듈을 구현하였다. 멀티코어 GPGPU를 이용한 H.264 전체 시스템 동작 시 50%의 성능 향상이 있었다.

  • PDF

GPGPU를 이용한 H.264/AVC 디코더 (Implementation of IQ/IDCT in H.264/AVC Decoder Using GPGPU)

  • 김동한;이광엽
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.162-164
    • /
    • 2010
  • ITU-T와 ISO가 공동 제정한 동영상 압축 표준 H.264는 기존 동영상 압축 표준에 비해 높은 압축성능과 유연성을 가진다. 본 논문에서는 병렬 처리에 효과적인 GPGPU(General-Purpose computing on Graphics Processing Units)를 이용하여 H.264/AVC 복호화 알고리즘에서 병렬 처리가 가능한 IQ/IDCT (Inverse Quantization/ Inverse Discrete Cosine Transform) 연산을 고속으로 수행하기 위한 효율적인 구조와 방법을 제안한다.

  • PDF

GPGPU 환경에서 최대휘소투영 렌더링의 고속화 방법 (Acceleration techniques for GPGPU-based Maximum Intensity Projection)

  • 계희원;김준호
    • 한국멀티미디어학회논문지
    • /
    • 제14권8호
    • /
    • pp.981-991
    • /
    • 2011
  • 최대휘소투영은 볼륨 렌더링의 한 기법으로, 의료영상을 판독하기 위해서 중요한 기능이다. 광선 투사법을 이용한 최대휘소투영 렌더링은 비교적 높은 화질의 영상을 생성하나 많은 연산을 요구한다. 본 연구는 그래픽 처리장치(GPU : Graphic Process Unit) 에 일반 연산을 적용하는 GPGPU(General-purpose computing on Graphic Process Unit) 기술을 이용하여 최대휘소투영 렌더링의 속도를 향상시키는 방법에 관한 연구를 수행한다. 본 논문에서는 GPGPU를 수행 할 수 있는 프로그래밍 언어인 CUDA(an acronym for Compute Unified Device Architecture)를 기반으로 고속 광선 투사법을 구현하며, CUDA 환경에 적함한 가속화 방법을 제안한다. 구체적으로, 블록 기반 공간 도약 기법을 적용하여 불필요한 부분을 도약하고, 이분 이동법을 통해 블록 경계면의 탐색을 고속으로 수행하며, 초기 값 추정 알고리즘을 이용하여 공간 도약 확률을 향상시킨다. 이를 통해 화질 손실 없이 최대휘소투영 렌더링의 가시화 속도를 크게 향상시킨다.

GPGPU의 멀티 쓰레드를 활용한 고성능 병렬 LU 분해 프로그램의 구현 (Implementation of high performance parallel LU factorization program for multi-threads on GPGPUs)

  • 신봉희;김영태
    • 인터넷정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.131-137
    • /
    • 2011
  • GPGPU는 원래 그래픽 계산을 위한 프로세서인 GPU를 일반 계산에 활용하여 저전력으로 고성능의 효율을 보이는 신개념의 계산 장치이다. 본 논문에서는 GPGPU에서 계산을 하기 위한 병렬 LU 분해법의 알고리즘을 제안하였다. Nvidia GPGPU에서 프로그램을 실행하기 위한 CUDA 계산 환경에서는 계산하고자 하는 데이터 도메인을 블록으로 나누고 각 블록을 쓰레드들이 동시에 계산을 하는데, 이 때 블록들의 계산 순서는 무작위로 진행이 되기 때문에 블록간의 데이터 의존성을 가지는 LU 분해 프로그램에서는 결과가 정확하지 않게 된다. 본 논문에서는 병렬 LU 분해법에서 블록간의 계산 순서를 인위적으로 정하는 구현 방식을 제안하며 아울러 LU 분해법의 부분 피벗팅을 계산하기 위한 병렬 reduction 알고리즘도 제안한다. 또한 구현된 병렬프로그램의 성능 분석을 통하여 GPGPU의 멀티 쓰레드 기반으로 고성능으로 계산할 수 있는 병렬프로그램의 효율성을 보인다.

스마트폰에서의 영상처리를 위한 GPU 활용

  • 박인규;최호열
    • 정보와 통신
    • /
    • 제29권4호
    • /
    • pp.46-51
    • /
    • 2012
  • 본 기고에서는 최근 스마트폰에서 요구되는 다양한 멀티미디어 어플리케이션을 embedded GPU(Graphics Processing Unit)를 이용하여 고속 병렬처리하기 위한 GPGPU (General-Purpose Computing on GPU) 기술 및 영상처리 분야의 응용 사례를 소개한다. 일반적인 데스크탑 컴퓨팅 환경과 달리 제약사항이 많은 embedded 환경에서의 GPGPU 응용 기술은 아직 초기단계이다. 그러나 급격히 발전하는 embedded GPU IP와 OpenCL과 같은 API의 등장으로 embedded GPU를 이용한 고속 병렬처리 환경이 수 년 이내에 일반화 될 것이다. 본 기고에서는 그 가능성을 점검하기 위하여 embedded GPU에서의 영상처리를 위한 최신 하드웨어와 소프트웨어 환경의 발전 동향을 소개한다. 더불어 최신 스마트폰에서의 GPGPU기술을 사용한 영상처리 사례와 영상처리 알고리즘의 GPGPU 알고리즘 구현시 고려해야 할 주요 사항을 정리한다.

OpenCL을 이용한 GPGPU 기반 지문개선 알고리즘 가속화 (Accelerating Fingerprint Enhancement Algorithm on GPGPU using OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제65권4호
    • /
    • pp.666-672
    • /
    • 2016
  • Recently the fingerprint is widely used as one of biometrics to improve the security of financial mobile applications, because of its user convenience and high recognition rate. However, in order to apply fingerprint algorithms to finance and security applications, the recognition rate and processing speed of the fingerprint algorithms have to be improved further. In this paper, we propose the parallel fingerprint enhancement algorithm on general-purpose computing on graphics processing unit (GPGPU) using OpenCL. We discuss the analysis of the parallelism in the fingerprint algorithm as well as the exploration of optimization parameters of the parallel fingerprint algorithm to improve the performance. The experimental results showed that the execution of parallel fingerprint enhancement algorithm on GPGPUs was accelerated from 29.4 upto 69.2 times compared with the execution of the original one on the host CPUs.

Study of Cache Performance on GPGPU

  • Choi, Kyu Hyun;Kim, Seon Wook
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제4권2호
    • /
    • pp.78-82
    • /
    • 2015
  • General-purpose graphics processing units (GPGPUs) provide tremendous computational and processing power. Despite the latency hiding mechanism, a GPU architecture requires high memory bandwidth and lower latency between computational units and the memory system. For this reason, the current GPU architecture has private L1 caches in each core and a shared L2 cache to increase performance by reducing memory latency. But in some cases, this CPU-like cache design is not suitable for GPGPUs. In this paper, we analyze detailed cache performance related to GPGPU application characteristics, and suggest technical alternatives for the GPGPU architecture as future work.