• Title/Summary/Keyword: NVIDIA

Search Result 163, Processing Time 0.024 seconds

Design and Implementation of Free-view Player using OpenGL and Nvidia Video Codec (OpenGL과 Nvidia 영상코덱을 사용한 실시간 자유시점 재생기 설계 및 구현)

  • Gu, Dongjun;Ahn, Heejune
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.263-266
    • /
    • 2020
  • 사용자에게 본인이 원하는 시점과 시각을 선택할 수 있도록 하는 자유시점 (Free Viewpoint) MPEG-I 과제를 통하여 3DOF, 3DOF+, 6DOF의 표준을 개발 중이다. 실사 영상의 자유시점 영상을 구현하는 방법으로는 깊이정보를 사용한 렌더링 기법을 사용하는데, 이를 실시간 재생할 수 있는 시스템은 개발되지 않았다. 본 논문에서는 PC 사양에서 NVIDIA 영상 코덱과 OpenGL사용하는 rtRVSlibrary를 바탕으로, 최대 8개의 HD급 다중 뷰 영상 입력 (컬러+깊이)을 자유 시점을 실시간 생성하여 디스플레이하는 재생기를 설계 및 개발하였다. 사용자는 원하는 시점으로 상하좌우앞뒤(회전)로 자유롭게 이동할 수 있으며, 계산양과 화질 효율성을 고려하여 디코딩한 입력영상 중에 두 개의 시점을 선별하는 알고리즘을 개발하여 실시간 동작 (25fps)을 검증하였다.

  • PDF

Co-simulation of MultiBody Dynamics and Plenteous Sphere of Contacted Particles Using NVIDIA GPGPU (NVIDIA 의 GPGPU 를 이용한 수 많은 구형 접촉 입자가 포함된 다물체 동역학 해석)

  • Park, Ji-Soo;Yoon, Joon-Shik;Choi, Jin-Hwan;Rhim, Sung-Soo
    • Transactions of the Korean Society of Mechanical Engineers A
    • /
    • v.36 no.4
    • /
    • pp.465-474
    • /
    • 2012
  • In this study, a dynamic simulation model that considers many spherical particles and multibody dynamics (MBD) entities is developed. Plenteous spherical particles are solved using the Discrete Element Method (DEM) technique and simulated on a GPU board in a PC. A fast algorithm is used to calculate the Hertzian contact forces between many spherical particles, and NVIDIA CUDA is used to increase the calculation speed. The explicit integration method is applied to solve the many spheres. MBD entities are simulated by recursive formulation. Constraints are reduced by recursive formulation, and the implicit generalized alpha method is applied to solve the dynamic model. A new algorithm is developed to simulate the DEM and MBD models simultaneously. As a numerical example, a truck car model and gear model are developed. The results show that the proposed algorithm using a general-purpose GPU in a PC has many advantages.

Implementation of parallel blocked LU decomposition program for utilizing cache memory on GP-GPUs (GP-GPU의 캐시메모리를 활용하기 위한 병렬 블록 LU 분해 프로그램의 구현)

  • Kim, Youngtae;Kim, Doo-Han;Yu, Myoung-Han
    • Journal of Internet Computing and Services
    • /
    • v.14 no.6
    • /
    • pp.41-47
    • /
    • 2013
  • GP-GPUs are general purposed GPUs for numerical computation based on multiple threads which are originally for graphic processing. GP-GPUs provide cache memory in a form of shared memory which user programs can access directly, unlikely typical cache memory. In this research, we implemented the parallel block LU decomposition program to utilize cache memory in GP-GPUs. The parallel blocked LU decomposition program designed with Nvidia CUDA C run 7~8 times faster than nun-blocked LU decomposition program in the same GP-GPU computation environment.

Evaluation of the Data Migration between CPU Memory and GPU Memory for a NVIDIA Pascal GPU Using Unified Memory (통합 메모리를 사용하는 NVIDIA 파스칼 GPU에서의 CPU 메모리와 GPU 메모리 간 데이터 통신 분석)

  • Shin, Philkyue;Hong, Seongsoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.7-10
    • /
    • 2018
  • 통합 메모리는 CPU 메모리와 GPU 메모리 간의 데이터 통신을 개발자에게 투명하게 내재적으로 수행하는 소프트웨어 런타임 환경으로 개발자에게 CPU 메모리와 GPU 메모리가 통합된 하나의 메모리로 보이게 해준다. 통합 메모리는 장점에도 불구하고 아직 널리 사용되지 못하고 있는데 그 이유는 내재적으로 수행되는 데이터 통신의 오버헤드가 큰 것으로 알려져 있기 때문이다. 하지만 이 데이터 통신이 구체적으로 어떻게 이루어지고 오버헤드는 어떻게 발생하는지 분석한 연구는 아직 존재하지 않는다. 우리는 NVIDIA 사의 최신 GPU 마이크로아키텍처 중 하나인 파스칼을 사용하는 GPU를 대상으로 하여, 통합 메모리를 사용할 시 데이터 통신이 이루어지는 조건과 GPU 응용의 수행시간에 데이터 통신이 끼치는 영향을 실험을 통해 분석한다. 실험 결과 통합 메모리의 오버헤드는 두 가지 원인 때문에 발생한다. 첫째, 통합 메모리를 사용하면 CPU 또는 GPU가 데이터에 접근할 때마다 이 데이터는 CPU 또는 GPU 메모리로 옮겨지고 옮겨진 데이터는 제거된다. 따라서 재사용할 데이터도 제거되어 추가적인 데이터 통신이 발생하고, 이 데이터 통신의 지연시간은 GPU 응용의 수행시간에 더해진다. 둘째, 통합 메모리를 사용하면 데이터 통신과 커널들이 서로 다른 스트림에 할당되어도 동시에 수행되지 못한다. 따라서 GPU 응용의 수행시간은 동시에 수행되던 데이터 통신과 커널의 수행시간만큼 증가한다.

  • PDF

Fundamental Function Design of Real-Time Unmanned Monitoring System Applying YOLOv5s on NVIDIA TX2TM AI Edge Computing Platform

  • LEE, SI HYUN
    • International journal of advanced smart convergence
    • /
    • v.11 no.2
    • /
    • pp.22-29
    • /
    • 2022
  • In this paper, for the purpose of designing an real-time unmanned monitoring system, the YOLOv5s (small) object detection model was applied on the NVIDIA TX2TM AI (Artificial Intelligence) edge computing platform in order to design the fundamental function of an unmanned monitoring system that can detect objects in real time. YOLOv5s was applied to the our real-time unmanned monitoring system based on the performance evaluation of object detection algorithms (for example, R-CNN, SSD, RetinaNet, and YOLOv5). In addition, the performance of the four YOLOv5 models (small, medium, large, and xlarge) was compared and evaluated. Furthermore, based on these results, the YOLOv5s model suitable for the design purpose of this paper was ported to the NVIDIA TX2TM AI edge computing system and it was confirmed that it operates normally. The real-time unmanned monitoring system designed as a result of the research can be applied to various application fields such as an security or monitoring system. Future research is to apply NMS (Non-Maximum Suppression) modification, model reconstruction, and parallel processing programming techniques using CUDA (Compute Unified Device Architecture) for the improvement of object detection speed and performance.

Implementation of FFT on Massively Parallel GPU for DVB-T Receiver (DVB-T 수신기를 위한 대규모 병렬처리 GPU 기반의 FFT 구현)

  • Lee, Kyu Hyung;Heo, Seo Weon
    • Journal of Broadcast Engineering
    • /
    • v.18 no.2
    • /
    • pp.204-214
    • /
    • 2013
  • Recently various research have been conducted relating to the implementation of signal processing or communication system by software using the massively parallel processing capability of the GPU. In this work, we focus on reducing software simulation time of 2K/8K FFT in DVB-T by using GPU. we estimate the processing time of the DVB-T system, which is one of the standards for DTV transmission, by CPU. Then we implement the FFT processing by the software using the NVIDIA's massively parallel GPU processor. In this paper we apply stream process method to reduce the overhead for data transfer between CPU and GPU, coalescing method to reduce the global memory access time and data structure design method to maximize the shared memory usage. The results show that our proposed method is approximately 20~30 times as fast as the CPU based FFT processor, and approximately 1.8 times as fast as the CUFFT library (version 2.1) which is provided by the NVIDIA when applied to the DVB-T 2K/8K mode FFT.

Overlapped Image Learning Neural Network for Autonomous Driving in the Indoor Environment (실내 환경에서의 자율주행을 위한 중첩 이미지 학습 신경망)

  • Jo, Jeong-won;Lee, Chang-woo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2019.05a
    • /
    • pp.349-350
    • /
    • 2019
  • The autonomous driving drones experimented in the existing indoor corridor environment was a way to give the steering command to the drones by the neural network operation of the notebook due to the limitation of the operation performance of the drones. In this paper, to overcome these limitations, we have studied autonomous driving in indoor corridor environment using NVIDIA Jetson TX2 board.

  • PDF

A study on comparison and analysis of interconnect network communication performance between computing nodes in GPU cluster system (GPU 클러스터 시스템의 계산노드 간 인터커넥트 네트워크 통신 성능 비교 분석 연구)

  • Min-Woo Kwon;Do-Sik An;TaeYoung Hong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.2-4
    • /
    • 2023
  • KISTI의 GPU 클러스터 시스템인 뉴론은 NVIDIA의 A100과 V100 GPU가 총 260개 탑재되어 있는 클러스터 시스템이다. 뉴론의 계산노드들은 고성능의 인터커넥트인 Infiniband(IB) 케이블로 연결되어 있어 멀티 노드 작업 수행 시에 고대역 병렬통신이 가능하다. 본 논문에서는 NVIDIA사에서 제공하는 NCCL의 벤치마크 코드를 이용하여 인터커넥트 네트워크의 통신 성능을 비교분석하는 방안에 대해서 소개한다.