• 제목/요약/키워드: NVIDIA

검색결과 163건 처리시간 0.031초

연속 영상 기반 실시간 객체 분할 (Real-Time Object Segmentation in Image Sequences)

  • 강의선;유승훈
    • 정보처리학회논문지B
    • /
    • 제18B권4호
    • /
    • pp.173-180
    • /
    • 2011
  • 본 논문은 GPU(Graphics Processing Unit) 에서 CUDA(Compute Unified Device Architecture)를 사용하여 실시간으로 객체를 분할하는 방법을 소개한다. 최근에 감시 시스템, 오브젝트 추적, 모션 분석 등의 많은 응용 프로그램들은 실시간 처리가 요구된다. 이러한 단계의 선행부분인 객체 분할 기법은 기존 CPU 기반의 시스템으로는 실시간 처리에 제약이 발생한다. NVIDIA에서는 Parallel Processing for General Computation 을 위해 그래픽 하드웨어 제약을 개선한 CUDA platform을 제공하고 있다. 본 논문에서는 객체 추출 단계에 대표적인 적응적 가우시안 혼합 배경 모델링(Adaptive Gaussian Mixture Background Modeling) 알고리즘과 Classification 기법으로 사용되는 CCL (Connected Component Labeling) 알고리즘을 적용하였다. 본 논문은 2.4GHz를 갖는 Core2 Quad 프로세서와 비교하여 평가하였고 그 결과 3~4배 이상의 성능향상을 확인할 수 있었다.

An Efficient Block Cipher Implementation on Many-Core Graphics Processing Units

  • Lee, Sang-Pil;Kim, Deok-Ho;Yi, Jae-Young;Ro, Won-Woo
    • Journal of Information Processing Systems
    • /
    • 제8권1호
    • /
    • pp.159-174
    • /
    • 2012
  • This paper presents a study on a high-performance design for a block cipher algorithm implemented on modern many-core graphics processing units (GPUs). The recent emergence of VLSI technology makes it feasible to fabricate multiple processing cores on a single chip and enables general-purpose computation on a GPU (GPGPU). The GPU strategy offers significant performance improvements for all-purpose computation and can be used to support a broad variety of applications, including cryptography. We have proposed an efficient implementation of the encryption/decryption operations of a block cipher algorithm, SEED, on off-the-shelf NVIDIA many-core graphics processors. In a thorough experiment, we achieved high performance that is capable of supporting a high network speed of up to 9.5 Gbps on an NVIDIA GTX285 system (which has 240 processing cores). Our implementation provides up to 4.75 times higher performance in terms of encoding and decoding throughput as compared to the Intel 8-core system.

CUDA 를 이용한 실시간 Free Viewpoint TV System 구현 (Real-Time Free Viewpoint TV System Using CUDA)

  • 양윤모;이진혁;오병태
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 추계학술대회
    • /
    • pp.71-73
    • /
    • 2015
  • 본 논문에서는 여러 대의 Microsoft Kinect 와 NVidia 사의 GPGPU 라이브러리 CUDA 를 사용하여 실시간 Free Viewpoint TV System 을 제안한다. Kinect 로부터 얻어진 컬러 및 깊이 영상을 통하여 두 카메라 사이의 가상시점에서 영상을 실시간으로 출력하는 시스템을 설계한다. 이 과정에서 많은 연산량을 요구하는 좌표계 변환 과정과 IR 패턴의 간섭문제를 해결하기 위해 사용되는 Nearest Neighbor 홀 채움 방식을 CUDA 를 이용해 병렬화시켰다. 실험 결과 CUDA 를 이용해 구성한 시스템이 기존의 CPU 만을 이용해 구성한 시스템보다 같은 시간 동안 더 많은 합성영상을 만들 수 있었다.

  • PDF

멀티코어 프로세서 기반 ARM TrustZone 환경에서의 게스트 운영체제 간 통신 (Inter-GuestOS Communications in Multicore-based ARM TrustZone)

  • 전무웅;김세원;유혁
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.551-557
    • /
    • 2015
  • ARM TrustZone을 이용한 기술은 새로운 임베디드 시스템의 가상화 연구로 관심을 끌고 있다. ARM TrustZone은 secure world와 normal world라는 두 개의 가상 실행 환경을 정의한다. 소프트웨어의 기능을 확장하기 위한 방법으로 ARM TrustZone 환경에서 world 간 통신은 중요하다. 그러나 현재의 모니터 모드의 소프트웨어는 world 간 통신을 충분히 지원하지 않고 있다. 본 논문에서는 ARM TrustZone을 이용한 각 world에서 구동되는 게스트 운영체제 간의 새로운 통신 메커니즘을 제시한다. 제안한 통신 메카니즘은 싱글코어와 멀티코어에서 양방향 world 간 통신을 지원한다. 본 논문에서는 ARM Cortex-A9 MPCore 기반의 NVIDIA Tegra3 processor를 사용하였고, 30MB/s이상의 통신 성능을 보여주었다.

고해상도 수치기법을 이용한 GPU 기반 2D 확산파 모형 (A 2D GPU-Accelerated High Resolution Numerical Scheme for Solving Diffusive Wave Equation)

  • 박선량;김대홍
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.109-109
    • /
    • 2019
  • 본 연구에서는 강우-유출 과정 모의를 위한 GPU 기반 확산파 모형을 개발하였다. 확산파 방정식을 풀기위한 수치기법으로는 유한체적법을 이용하였으며, van Leer TVD limiter를 적용한 MUSCL 기법을 이용하여 각 셀의 인터페이스의 물리적 성질을 재구성하여 구하였다. 또한, 침투를 고려하기 위하여 Horton 침투 모형을 이용하였다. 개발된 모형을 이용하여 1D single overland plane과 2D V-shaped overland에서 강우-유출 과정을 모의실험을 하였으며, 각각 해석해와 dynamic wave model을 이용하여 계산된 수치 결과와 비교하여 본 모형의 정확성을 검증하였다. 또한, 1D와 2D의 기복이 심한 지형에 적용하여 강우-유출과정이 본 모형을 통하여 물리적으로 타당한 해석이 가능함을 검증하였다. 마지막으로 복잡한 실제 지형에 적용하였으며, 측정값과의 비교를 통하여 실제 유역에서의 확산파 모형의 적정성을 검증하였다. 또한, 본 연구에서는 NVIDIA사의 GPU인 Geforce GTX 1050과 GPU의 병렬 연산 처리 능력을 활용할 수 있는 NVIDIA사의 CUDA-Fortran을 이용하여 GPU 기반 확산파 모형을 개발하였다. PC windows에서 CPU(Intel i7, 4.70 GHz) 기반 모형 대비 GPU 기반 모형의 계산속도 성능을 비교한 결과, 격자 간격이 증가할수록 CPU 기반 모형 대비 GPU 기반 모형의 연산 효율이 증가하였으며, 격자 간격이 $3200{\times}3200$일 때, CPU 기반 모형 대비 GPU 기반 모형의 연산 효율이 최대 약 150배 증가하였다.

  • PDF

유체 시뮬레이션 기술을 이용한 비유체 표현기법 (Non-fluid representation technique using fluid simulation)

  • 이성준;허연진;신병석
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제15권4호
    • /
    • pp.51-61
    • /
    • 2019
  • 이 논문에서는 유체 시뮬레이션 기술을 사용해서 비유체인 토사를 시뮬레이션하는 방법을 구현했다. 굴착 작업 등에 의해 생성되는 토사를 표현하기 위해 널리 사용되는 NVIDIA 사의 FleX를 사용하였다. FleX는 SPH(Smoothed-particle hydrodynamics) 기법과 위치 기반 동역학 (Position Based Dynamics) 기법을 결합한 입자 기반 물리 시뮬레이션 라이브러리로서 이를 이용하면 유체를 실감 있게 표현할 수 있다. 그러나 토사는 유체의 성질뿐만 아니라 비유체의 성질도 가지고 있기 때문에 기존의 FleX가 제공하는 기능만으로 시뮬레이션하기 어렵다. 본 연구에서는 기존 Flex를 이용하여 비유체의 행태를 시뮬레이션하기 위한 기법을 추가하였다. 이를 통해 적은 비용으로 효과적인 결과 개선이 이루어질 수 있다.

인공지능을 이용한 스마트 표적탐지 시스템 (Smart Target Detection System Using Artificial Intelligence)

  • 이성남
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.538-540
    • /
    • 2021
  • 본 논문에서는 드론의 표적탐지 임무 수행 시 상대운동 정보 제공을 위하여 지정된 표적을 탐지하고 인식하는 스마트 표적탐지 시스템을 제안하였다. 제안된 시스템은 적절한 정확도(i.e. mAP, IoU) 및 높은 실시간성을 동시에 확보할 수 있는 알고리즘을 개발하는데 중점을 두었다. 제안된 시스템은 Google Inception V2 딥러닝 모델의 100k 학습 후 test 결과가 1.0에 가까운 정확성을 보였고 실시간성도 Nvidia GTX 2070 Max-Q를 기반으로 한 고성능 노트북 활용 시에 추론 속도가 약 60-80[Hz]를 기록하였다. 제안된 스마트 표적탐지 시스템은 드론과 같이 운용되어 컴퓨터 영상처리를 활용하여 표적을 자동으로 인식하고 표적을 따라가면서 감시정찰 임무를 성공적으로 수행하는데 도움이 될 것이다.

  • PDF

플라스틱 재활용을 위한 YOLO기반의 자동 분류시스템 (YOLO Based Automatic Sorting System for Plastic Recycling)

  • 김용준;조태욱;박형근
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.382-384
    • /
    • 2021
  • 본 연구에서는 실시간 물체 인식 알고리즘인 YOLO (You Only Look Once)를 이용하여 플라스틱의 종류를 자동으로 분류하는 시스템을 구현하였다. 시스템은 Nvidia 사에서 만든 딥러닝, 컴퓨터비전용 소형 컴퓨터인 Jetson Nano에 YOLO를 이용하여 플라스틱 분리배출 마크를 인식할 수 있도록 훈련시킨 모델을 탑재하여 구성하였다. 웹캠을 이용해서 플라스틱 쓰레기의 분리배출 마크를 PET, HDPE, PP 세 종류로 인식하고 모터를 조절하여 종류에 따라 분류될 수 있도록 하였다. 이 자동 분류기를 구현함으로 써 사람이 직접 플라스틱 분리배출 마크를 확인하여 분리배출하는 수고를 덜어줄 수 있다는 점에서 편의성을 가지며 정확한 분리수거를 통해 재활용의 효율성을 높일 수 있다.

  • PDF

유전 알고리즘과 게임 트리를 병합한 오목 인공지능 설계 및 GPU 기반 병렬 처리 기법 (Design of Omok AI using Genetic Algorithm and Game Trees and Their Parallel Processing on the GPU)

  • 안일준;박인규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권2호
    • /
    • pp.66-75
    • /
    • 2010
  • 본 논문에서는 GPU(graphics processing unit)를 이용하여 오목의 인공지능 알고리즘 연산을 고속으로 수행하기 위한 효율적인 알고리즘 설계와 구현 방법을 제안한다. 본 논문에서 제안하는 게임 인공지능은 최소-최대 게임 트리(min-max game tree)와 유전 알고리즘(genetic algorithm)의 협업적 구조로 설계된다. 게임 트리와 유전 알고리즘의 평가함수(evaluation function) 부분은 많은 계산 량을 소모하지만 해 공간(solution space)의 수많은 후보 벡터에 대해 독립적으로 수행되기 때문에 본 논문에서는 이를 GPU 상에서의 대량 병렬처리를 통해 수행한다. NVIDIA CUDA(compute unified device architecture)환경에서의 실제 구현을 통해 CPU에서의 처리에 비해 게임 트리는 400배 이상의 수행 속도의 향상을, 유전 알고리즘은 300배 이상의 수행 속도의 향상을 각각 보였다. 본 논문에서는 스레드(thread)의 넘침(overflow)을 피하고 보다 효과적인 해 공간 탐색을 위해, 게임 트리를 이용하여 근방의 몇 단계까지 전역 탐색(full search)을 수행한 후 이후 단계는 유전 알고리즘을 이용하여 선별 탐색을 수행하는 협업적 인공지능을 제안한다. 다양한 실험 결과를 통해 제안하는 알고리즘은 게임의 인공지능을 향상시키고 게임의 규칙으로부터 주어진 시간 내에 문제를 해결할 수 있음을 보인다.

스마트 시설환경 실시간 시뮬레이션을 위한 하드웨어 가속 기술 분석 (A Benchmark of Hardware Acceleration Technology for Real-time Simulation in Smart Farm (CUDA vs OpenCL))

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.160-160
    • /
    • 2017
  • 자동화 기술을 통한 한국형 스마트팜의 발전이 비약적으로 이루어지고 있는 가운데 무인화를 위한 지능적인 스마트 시설환경 관찰 및 분석에 대한 요구가 점점 증가 하고 있다. 스마트 시설환경에서 취득 가능한 시계열 데이터는 온도, 습도, 조도, CO2, 토양 수분, 환기량 등 다양하다. 시스템의 경계가 명확함에도 해당 속성의 특성상 타임도메인과 공간도메인 상에서 정확한 추정 또는 예측이 난해하다. 시설 환경에 접목이 증가하고 있는 지능형 관리 기술 구현을 위해선 시계열 공간 데이터에 대한 신속하고 정확한 정량화 기술이 필수적이라 할 수 있다. 이러한 기술적인 요구사항을 해결하고자 시도되는 다양한 방법 중에서 공간 분해능 향상을 위한 다지점 계측 메트릭스를 실험적으로 구성하였다. $50m{\times}100m$의 단면적인 연동 딸기 온실을 대상으로 $3{\times}3{\times}3$의 3차원 환경 인자 계측 매트릭스를 설치하였다. 1 Hz의 주기로 4가지 환경인자(온도, 습도, 조도, CO2)를 계측하였으며, 계측 하는 시점과 동시에 병렬적으로 공간통계법을 이용하여 미지의 지점에 대한 환경 인자들을 실시간으로 추정하였다. 선행적으로 50 cm 공간 분해능에 대응하기 위하여 Kriging interpolation법을 횡단면에 대하여 분석한 후 다시 종단면에 대하여 분석하였다. 3 Ghz에 해당하는 연산 능력을 보유한 컴퓨터에서 1초 동안 획득한 데이터에 대한 분석을 마치는데 소요되는 시간이 15초 내외로 나타났다. 이는 해당 알고리즘의 매우 높은 시간 복잡도(Order of $O=O^3$)에 기인하는 것으로 다양한 시설 환경의 관리 방법론에 적절히 대응하기에 한계가 있다 할 수 있다. 실시간으로 시간 복잡도가 높은 연산을 수행하기 위한 기술적인 과제를 해결하고자, 근래에 관심이 증가하고 있는 NVIDIA 사에서 제공하는 CUDA 엔진과 Apple사의 제안을 시작으로 하여 공개 소프트웨어 개발 컨소시엄인 크로노스 그룹에서 제공하는 OpenCL 엔진을 비교 분석하였다. CUDA 엔진은 GPU(Graphics Processing Unit)에서 정보 분석 프로그램의 연산 집약적인 부분만을 담당하여 신속한 결과를 산출할 수 있는 라이브러리이며 해당 하드웨어를 구비하였을 때 사용이 가능하다. 반면, OpenCL은 CUDA 엔진이 특정 하드웨어에서 구동이 되는 한계를 극복하고자 하드웨어에 비의존적인 라이브러리를 제공하는 것이 다르며 클러스터링 기술과 연계를 통해 낮은 하드웨어 성능으로 인한 단점을 극복하고자 하였다. 본 연구에서는 CUDA 8.0(https://developer.nvidia.com/cuda-downloads)버전과 Pascal Titan X(NVIDIA, CA, USA)를 사용한 방법과 OpenCL 1.2(https://www.khronos.org/opencl/)버전과 Samsung Exynos5422 칩을 장착한 ODROID-XU4(Hardkernel, AnYang, Korea)를 사용한 방법을 비교 분석하였다. 50 cm의 공간 분해능에 대응하기 위한 4차원 행렬($100{\times}200{\times}5{\times}4$)에 대하여 정수 지수화를 위한 Quantization을 거쳐 CUDA 엔진과 OpenCL 엔진을 적용한 비교한 결과, CUDA 엔진은 1초 내외, OpenCL 엔진의 경우 5초 내외의 연산 속도를 보였다. CUDA 엔진의 경우 비용측면에서 약 10배, 전력 소모 측면에서 20배 이상 소요되었다. 따라서 우선적으로 OpenCL 엔진 기반 하드웨어 가속 기술 최적화 연구를 통해 스마트 시설환경 실시간 시뮬레이션 기술 도입을 위한 기술적 과제를 풀어갈 것이다.

  • PDF