• Title/Summary/Keyword: NVIDIA

Search Result 163, Processing Time 0.025 seconds

GPGPU를 이용한 고속 영상 합성 기법 (Fast View Synthesis Using GPGPU)

  • 신홍창;박한훈;박종일
    • 방송공학회논문지
    • /
    • 제13권6호
    • /
    • pp.859-874
    • /
    • 2008
  • 본 논문은 3차원 디스플레이 시스템에서 카메라의 기하 정보 및 참조 영상들의 깊이 맵 정보가 주어졌을 때, 다수의 중간 시점 영상을 실시간으로 생성하는 고속 영상 합성 기법을 제안한다. 기본적으로 본 논문에서는 영상 합성 기법의 모든 과정을 GPU에 서 병렬 처리함으로써 고속화 할 수 있었다. 병렬처리를 이용한 고속화 효율을 높이기 위해 최근 NVIDIA사에서 발표한 $CUDA^{TM}$를 이용하였다. 영상 합성을 위한 모든 중간 과정을 CUDA로 처리하기 위해 병렬구조로 변환하고, GPU 상의 고속메모리의 사용을 극대화하고, 알고리즘 구현을 최적화함으로써 고속화 효율을 높일 수 있었다. 결과적으로 본 논문에서는 양안 영상과 깊이 지도를 이용하여 가로 720, 세로 480 크기의 9개의 시점 영상을 0.128초 이내에 생성할 수 있었다.

DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 비터비 복호기 구현 (Implementation of Viterbi Decoder on Massively Parallel GPU for DVB-T Receiver)

  • 이규형;이호경;허서원
    • 전자공학회논문지
    • /
    • 제50권9호
    • /
    • pp.3-11
    • /
    • 2013
  • 최근 GPU의 대규모 병렬 연산 능력을 이용하여 통신 시스템을 구현하려는 연구가 활발히 진행되고 있다. 본 논문에서는 DVB-T에 적용된 비터비 복호기를 슬라이딩 블록 방법과 함께 GPU에 적용시켜 소프트웨어 모의실험 처리시간을 줄였다. 본 논문에서는 먼저 DTV 표준 방식의 일종인 DVB-T 시스템을 CPU로 구현하여 모의실험을 통해 한 개의 OFDM 심볼을 처리하는데 소요되는 시간을 추정한다. 그리고 슬라이딩 블록 방법을 적용한 DVB-T의 비터비 복호기를 NVIDIA사의 대용량 GPU 프로세서를 이용하여 소프트웨어로 구현한다. 본 논문은 GPU 소프트웨어의 최적화를 위해 CPU와 GPU 간의 데이터 전송에 소요되는 오버헤드를 줄이는 스트림 처리 기법, 전역 메모리 전송 시간을 단축하기 위한 결합 전송 기법 (coalescing), 공유 메모리 접근의 효율성을 높이기 위한 변수 설계 기법 등을 통해서 연산처리 속도를 대폭 향상시켰다. 그 결과 제안된 방식은 CPU 기반의 비터비 복호기보다 2K 모드에서 약 11배, 8K 모드에서 약 60배 정도 빠른 처리 능력을 보인다.

그래픽 프로세서를 이용한 병렬연산 기반 해무 제거 고속화 (Acceleration for Removing Sea-fog using Graphic Processors and Parallel Processing)

  • 김영두;곽재민;서영호;최현준
    • 한국항행학회논문지
    • /
    • 제21권5호
    • /
    • pp.485-490
    • /
    • 2017
  • 본 논문에서는 그래픽 프로세서를 이용하여 고속으로 해무를 제거하는 기술을 제안한다. 이 기술은 호스트 프로세서(CPU)와 병렬처리가 가능한 여러 개의 그래픽 프로세서를 이용하여 입력영상에서 해무를 제거하는 것이다. 해무를 제거하는 과정 중에서 다크 채널 추출, 최대 밝기 채널 추출, 전달량 계산은 호스트 프로세서에서 수행하고, 양방향 필터를 적용하여 전달량을 정제하는 과정을 그래픽 프로세서를 기반으로 병렬처리하여 연산속도를 높였다. 제안한 병렬처리 기법의 검증을 위해 NVIDIA사의 GTX 1070 GPU를 3개를 사용하여 검증환경을 구성하였다. 구현결과 하나의 그래픽 프로세서로 구현하였을 때는 평균 140ms가 소요되고, OpenMP와 다중 GPGPU를 이용하여 구현하였을 때 26ms 소요되었다. 본 논문에서 제안하는 그래픽 프로세서 기반의 병렬연산 해무제거 기술은 선박의 안전항해, 항만 관제 분야에 사용될 수 있을 것이다.

임베디드 보드에서 실시간 의미론적 분할을 위한 심층 신경망 구조 (A Deep Neural Network Architecture for Real-Time Semantic Segmentation on Embedded Board)

  • 이준엽;이영완
    • 정보과학회 논문지
    • /
    • 제45권1호
    • /
    • pp.94-98
    • /
    • 2018
  • 본 논문은 자율주행을 위한 실시간 의미론적 분할 방법으로 최적화된 심층 신경망 구조인 Wide Inception ResNet (WIR Net)을 제안한다. 신경망 구조는 Residual connection과 Inception module을 적용하여 특징을 추출하는 인코더와 Transposed convolution과 낮은 층의 특징 맵을 사용하여 해상도를 높이는 디코더로 구성하였고 ELU 활성화 함수를 적용함으로써 성능을 올렸다. 또한 신경망의 전체 층수를 줄이고 필터 수를 늘리는 방법을 통해 성능을 최적화하였다. 성능평가는 NVIDIA Geforce gtx 1080과 TX1 보드를 사용하여 주행환경의 Cityscapes 데이터에 대해 클래스와 카테고리별 IoU를 평가하였다. 실험 결과를 통해 클래스 IoU 53.4, 카테고리 IoU 81.8의 정확도와 TX1 보드에서 $640{\times}360$, $720{\times}480$ 해상도 영상처리에 17.8fps, 13.0fps의 실행속도를 보여주는 것을 확인하였다.

영상정보만을 이용한 사람과 로봇간 실시간 상대위치 추정 알고리즘 (Real-Time Algorithm for Relative Position Estimation Between Person and Robot Using a Monocular Camera)

  • 이정욱;선주영;원문철
    • 대한기계학회논문집A
    • /
    • 제37권12호
    • /
    • pp.1445-1452
    • /
    • 2013
  • 본 논문에서는 단안 카메라를 이용하여 사람과 로봇(카메라)간의 상대위치를 실시간으로 추정하는 알고리즘을 제안한다. HOG(기울기 히스토그램) 특징벡터와 SVM(서포트 벡터 머신) 분류기를 이용하여 사람의 두부 및 어깨영역을 검출한다. 검출된 영역의 크기와 위치를 이용하여 사람과 로봇(카메라)간의 상대 위치 및 각도를 계산한다. 또한 알고리즘 수행속도를 향상시키기 위하여 본 논문에서는 NVIDIA의 GPU와 CUDA 라이브러리를 사용하였다. 그 결과 알고리즘 수행속도는 초당 15 프레임의 영상데이터를 처리할 수 있다. 알고리즘의 정확도 비교를 위해서 SICK 레이저 스캐너 출력과 비교하였다.

도시기상모델 CFD_NIMR의 GP-GPU 실행을 위한 병렬 프로그램의 구현 (GP-GPU based Parallelization for Urban Terrain Atmospheric Model CFD_NIMR)

  • 김영태;박혜자;최영진
    • 인터넷정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.41-47
    • /
    • 2014
  • 본 논문은 도시기상모델인 전산유체역학모델(CFD_NIMR)을 GP-GPU에서 실행시키기 위해 CUDA Fortran 병렬프로그램을 구현하였다. GP-GPU는 원래 PCI 카드 형태의 그래픽 처리 장치이지만 저비용, 저전력으로 대량의 계산을 초고속으로 수행할 수 있는 일반 계산 가속기이다. 모델을 단일 Intel XEON 2.0 GHz CPU에서 실행한 결과와 Nvidia Tesla C1060 GPU에서 실행한 성능을 비교하였을 때 GP-GPU에서 15배 정도의 빠른 속도를 보였다. 또한 다중 CPU를 사용한 MPI 병렬프로그램과 비교한 경우에도 GP-GPU에서 보다 더 효율적인 성능을 보였다. 본 논문에서 제시한 프로그램 방식은 유사한 구조를 가진 수치모델을 GP-GPU 병렬 프로그램으로 구현하는데 쉽게 적용할 수 있을 것으로 기대한다.

작은 크기의 Warp 스케쥴러 기반 SIMT구조 고성능 모바일 GPGPU 설계 (Design of a High-Performance Mobile GPGPU with SIMT Architecture based on a Small-size Warp Scheduler)

  • 이광엽
    • 전기전자학회논문지
    • /
    • 제25권3호
    • /
    • pp.479-484
    • /
    • 2021
  • 본 논문은 SIMT구조의 GPGPU에서 적은 core수로 고성능을 달성하기 위한 구조를 제안하고 설계하였다. 모바일기기에 적용하기 위한 GPGPU는 소모전력대비 성능을 높이기 위한 구조가 필수적이다. 소모전력을 줄이기 위해서 core수가 줄어든 대신 성능을 높이기 위해 thread를 관리하기 위한 warp scheduler의 size를 4로 하여 일반적인 GPGPU의 32 보다 크게 줄였다. Warp size를 적게 되면 pipeline의 idle cycle수를 줄일 수 있고 cache 메모리 접근시 miss penalty를 줄이기 위한 memory latency 적용이 효율적이다. 설계된 GPGPU는 부동소수점 연산을 포함하는 테스트 프로그램으로 연산 성능을 측정하고 28nm CMOS공정으로 소비전력을 측정하여 전력당 성능지수로 104.5GFlops/Watt를 얻었다. 본 논문의 결과는 Nvidia의 Tegra K1과 비교하였을 때 약 4배 우수한 전력당 성능지수를 보였다.

GPGPU 기반 조인 연산 병렬화 성능 비교 (Performance Comparison of Join Operations Parallelization by using GPGPU)

  • 이종섭;이상백;이규철
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.28-44
    • /
    • 2018
  • 데이터베이스 시스템 관계 연산자 중에서 연산 비용이 가장 비싼 연산은 조인 연산이다. 일반적으로 CPU 기반의 조인 연산의 경우에는 하나의 코어를 사용하거나 많게는 16개 정도의 코어를 사용하여 병렬 처리를 해서 병렬화에 따른 성능 향상이 크지 않다. 이에 반해, GPGPU(General-Purpose computing on Graphics Processing Units)는 수천 개의 프로세싱 유닛을 통한 병렬 처리가 가능해서 조인 연산 수행 시간을 크게 단축할 수 있다. 본 논문에서는 GPGPU 기반에서 조인 연산 병렬화를 구현하기 위해 NVIDIA의 CUDA SDK가 사용되며, CPU 기반과 GPGPU 기반에서의 조인 연산 성능을 측정한다. 사용되는 조인 연산은 NLJ (Nested Loop Join), SMJ (Merge Join), HJ (Hash Join)이며, GPGPU 장비는 TITAN Xp, GTX 1080 Ti 및 GTX 1080을 사용한다. CPU 기반과 GPGPU 기반의 성능을 비교하고, GPGPU 기반의 조인 연산과 이전 연구의 성능과의 성능을 비교한다. 마지막으로, 실험 결과는 GPGPU 기반의 성능이 CPU 기반의 성능보다 6~328 배 빠른 성능을 보였고 향후 연구의 방향성에 대하여 토의한다.

HIGHT 블록 암호 알고리즘의 고속화 구현 (Speed-optimized Implementation of HIGHT Block Cipher Algorithm)

  • 백은태;이문규
    • 정보보호학회논문지
    • /
    • 제22권3호
    • /
    • pp.495-504
    • /
    • 2012
  • 본 논문에서는 국제 표준 블록 암호 알고리즘인 HIGHT를 CPU 및 GPU 상에서 소프트웨어로 고속화 구현하기 위한 다양한 방법을 시도한다. 먼저 CPU 상에서는 32비트 및 64비트 운영체제를 고려하고 비트 슬라이싱 및 바이트 슬라이싱 기법을 적용한다. 이들 최적화 기법의 적용 결과, Intel core i7 920 CPU 상에서 64비트 운영체제를 이용할 경우 최대 1.48Gbps의 속도를 보여 슬라이싱이 적용되지 않은 기존 구현에 비해 최대 2.4배 빠른 성능을 확인할 수 있었다. 한편 GPU 상에서는 NVIDIA의 CUDA 라이브러리를 활용하였으며, 서브키 및 F 함수를 위한 룩업 테이블 등과 같이 자주 사용되는 데이터를 공유 메모리에 저장하여 사용하고, 전역 메모리에서 데이터를 읽어올 때는 통합 접근(coalesced access) 기법을 사용하는 등 최적화 기법들을 적용해 구현하였다. 특히 본 논문은 GPU 상에서 HIGHT를 최적화한 최초의 결과로, GPU 상에서도 바이트 슬라이싱 기법을 적용할 경우 단순 구현 결과보다 20% 이상 빠른 성능을 확인할 수 있었으며, CPU에 비해서는 약 31배 빠른 결과를 얻을 수 있었다.

엣지 디바이스에서의 딥러닝 기반 차량 인식 및 속도 추정을 통한 스마트 횡단보도 시스템의 설계 및 구현 (Design and Implementation of A Smart Crosswalk System based on Vehicle Detection and Speed Estimation using Deep Learning on Edge Devices)

  • 장선혜;조희은;정진우
    • 한국정보통신학회논문지
    • /
    • 제24권4호
    • /
    • pp.467-473
    • /
    • 2020
  • 최근 우리나라의 자동차 보급률이 증가함에 따라 교통사고 발생 건수 또한 증가하고 있다. 특히, 차량간 사고뿐만 아니라 횡단보도 근처에서의 인명 사고 또한 증가하고 있어 횡단보도 교통안전에 대한 주의가 더욱 요구되고 있다. 본 논문에서는 NVIDIA Jetson Nano급의 엣지 디바이스를 이용하여 횡단보도에 접근하는 차량을 인식하고 속도를 추정함으로써 횡단보도 주위 안전 상태를 예측하는 시스템을 제안한다. 딥러닝 기반 차량 위치 인식을 통하여 얻은 정보들을 바탕으로 다양한 기계 학습 기법을 학습시켜 차량 속도에 따른 위험 정도를 예측한다. 마지막으로, 실제 주행 영상을 이용한 실험 및 웹 시뮬레이션을 통해 제안하는 시스템의 성능과 활용 가능성을 검증하였다.