• 제목/요약/키워드: Graphics processing unit

GPU를 이용한 Gabor Texture 특징점 기반의 금속 패드 변색 분류 알고리즘 (Discolored Metal Pad Image Classification Based on Gabor Texture Features Using GPU)

  • 최학남;박은수;김준철;김학일
    • 제어로봇시스템학회논문지
    • 제15권8호
    • pp.778-785
    • 2009
  • This paper presents a Gabor texture feature extraction method for classification of discolored Metal pad images using GPU(Graphics Processing Unit). The proposed algorithm extracts the texture information using Gabor filters and constructs a pattern map using the extracted information. Finally, the golden pad images are classified by utilizing the feature vectors which are extracted from the constructed pattern map. In order to evaluate the performance of the Gabor texture feature extraction algorithm based on GPU, a sequential processing and parallel processing using OpenMP in CPU of this algorithm were adopted. Also, the proposed algorithm was implemented by using Global memory and Shared memory in GPU. The experimental results were demonstrated that the method using Shared memory in GPU provides the best performance. For evaluating the effectiveness of extracted Gabor texture features, an experimental validation has been conducted on a database of 20 Metal pad images and the experiment has shown no mis-classification.

Development of a Real-Time Automatic Passenger Counting System using Head Detection Based on Deep Learning

  • Kim, Hyunduk;Sohn, Myoung-Kyu;Lee, Sang-Heon
    • Journal of Information Processing Systems
    • 제18권3호
    • pp.428-442
    • 2022
  • A reliable automatic passenger counting (APC) system is a key point in transportation related to the efficient scheduling and management of transport routes. In this study, we introduce a lightweight head detection network using deep learning applicable to an embedded system. Currently, object detection algorithms using deep learning have been found to be successful. However, these algorithms essentially need a graphics processing unit (GPU) to make them performable in real-time. So, we modify a Tiny-YOLOv3 network using certain techniques to speed up the proposed network and to make it more accurate in a non-GPU environment. Finally, we introduce an APC system, which is performable in real-time on embedded systems, using the proposed head detection algorithm. We implement and test the proposed APC system on a Samsung ARTIK 710 board. The experimental results on three public head datasets reflect the detection accuracy and efficiency of the proposed head detection network against Tiny-YOLOv3. Moreover, to test the proposed APC system, we measured the accuracy and recognition speed by repeating 50 instances of entering and 50 instances of exiting. These experimental results showed 99% accuracy and a 0.041-second recognition speed despite the fact that only the CPU was used.

컨테이너 환경에서 텐서플로의 GPU 메모리 사용방식에 따른 학습 작업의 성능 분석 (Analyzing the performance of training tasks based on GPU memory use manner of TensorFlow in Container environments)

  • 강지훈;길준민
    • 한국정보처리학회:학술대회논문집
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • pp.60-62
    • 2023
  • 인공지능의 학습 작업은 연산량이 많아 고성능 연산 장치인 GPU(Graphics Processing Unit)를 필요로 하며, GPU 장치의 성능은 학습 작업의 실행 성능에 직접적으로 영향을 미치는 요소 중 하나로 작용한다. 인공지능 작업을 처리하기 위해 많이 사용되는 텐서플로의 경우 GPU를 사용해 연산을 수행할 때 기본적으로 거의 모든 GPU 메모리 영역을 단일 학습 작업이 점유하도록 GPU 메모리를 관리한다. 이 방법은 컴퓨팅 자원 중 확장성이 가장 낮은 GPU 메모리의 단편화를 방지하기 위해 사용되는 방법이지만, 하나의 학습 작업이 GPU를 점유하게 되면, 실제 GPU 메모리 사용량과 상관없이 다른 프로세스는 GPU를 사용할 수 없는 문제를 유발한다. 특히, 전이학습, 소규모 학습과 같이 상대적으로 작업 규모가 작은 경우에는 전체 GPU 메모리 용량 중 대부분의 영역이 낭비된다. 본 논문에서는 컨테이너 환경에서 텐서플로의 기본 GPU 메모리 사용 방식으로 인해 다수의 학습 작업을 동시 실행하는 것이 불가능한 문제를 확인하고 GPU 메모리 사용량을 제한한 경우와 하지 않은 경우에 실제 GPU 메모리 사용량과 학습 작업의 실행 시간에 대한 성능 비교를 통해 GPU 메모리의 단편화 방지가 성능에 유의미한 요소인지 검증한다.

GPU를 이용한 실시간 양안식 영상 생성 방법 (Real-time Stereo Video Generation using Graphics Processing Unit)

  • 신인용;호요성
    • 방송공학회논문지
    • 제16권4호
    • pp.596-601
    • 2011
  • 양안식 3차원 방송의 경우 좌우 두 시점에 해당하는 영상을 동시에 전송해야 하기 때문에 전송 대역폭의 부담이 매우 크다. 이러한 부담을 줄이기 위해 좌우 시점의 두 영상을 전송하는 대신에 좌영상과 이에 해당하는 깊이맵을 부호화하여 전송하는 방법이 있다. 이러한 3차원 방송 시스템의 수신단에서는 좌영상과 깊이맵을 복호한 뒤에 우영상을 만들어 좌우 영상을 실시간으로 출력한다. 본 논문에서는 좌영상과 깊이맵을 이용하여 가상시점 영상을 생성할 때 생기는 빈 공간을 효율적으로 채우는 기법을 제안하고, 전 과정의 실시간 처리를 위해 이를 GPU상에서 병렬로 처리되도록 구현했다. 그 결과 효과적으로 홀 채움을 수행하면서 CPU 대비 15배 이상 빠르게 양안식 영상을 생성할 수 있었다.

3D 그래픽 프로세서에서 효율적인 명령어를 위한 가변길이 명령어 설계 (Design of a Variable-Length Instruction for the Effective Usability Instruction in 3D Graphics Processor)

  • 김우영;이보행;이광엽;곽재창
    • 한국정보통신학회:학술대회논문집
    • 한국해양정보통신학회 2008년도 춘계종합학술대회 A
    • pp.281-284
    • 2008
  • 최근 OpenGL ES 2.0이 개정됨에 따라 모바일 기기에 Shader 3.0모델을 지원 가능한 프로세서가 요구된다. 이 쉐이더 3.0 모델의 지원과 관련하여 명령어의 길이의 증가가 필요하고, 이는 메모리 용량의 증가를 초래한다. 본 논문에서는 가변길이 구조와 유닛구조를 채택한 새로운 명령어 구조를 제안한다. 이 명령어 구조는 쉐이더 3.0 모델을 지원하고 명령어 필드 낭비를 줄일 수 있도록 최대 4개의 32비트 유닛 명령어가 가변적으로 조합되어 수행된다.

이더리움 채굴 및 활용 방안 (Ethereum Mining and a Plan of Practical Use)

  • 최효현;윤도진;이종윤
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • /
    • /
    • 2016
  • 본 논문에서는 가상화폐이자 전자 거래의 신뢰성 있는 계약을 보장해 줄 수 있는 이더리움 (Ethereum)의 채굴 과정을 소개하고 향후 활용 방안을 제안한다. 이더리움의 거래 내역은 블록체인 (BlockChain)에 저장이 되며, 반영구적으로 삭제가 불가능하다. 이로써 전자상거래의 최대 단점인 사기 거래가 사전에 방지가 되고, 안전하고 깨끗한 거래가 성사될 수 있도록 하는 것이 목표이다. 이더리움 채굴을 위해서는 비디오카드의 GPU (Graphics Processing Unit)를 이용하였으며, 지갑 생성, 비디오카드 드라이버 설치, pool 서버 가입, 채굴 소프트웨어 설치 및 GPU 오버클럭킹 등의 과정을 수행하였다.

GPU 기반 SIFT 방법과 가상의 힘을 이용한 이동 로봇의 위치 인식 및 자율 주행 제어 (Localization and Autonomous Navigation Using GPU-based SIFT and Virtual Force for Mobile Robots)

  • 탁명환;주영훈
    • 전기학회논문지
    • 제65권10호
    • pp.1738-1745
    • 2016
  • In this paper, we present localization and autonomous navigation method using GPU(Graphics Processing Unit)-based SIFT(Scale-Invariant Feature Transform) algorithm and virtual force method for mobile robots. To do this, at first, we propose the localization method to recognize the landmark using the GPU-based SIFT algorithm and to update the position using extended Kalman filter. And then, we propose the A-star algorithm for path planning and the virtual force method for autonomous navigation of the mobile robot. Finally, we demonstrate the effectiveness and applicability of the proposed method through some experiments using the mobile robot with OPRoS(Open Platform for Robotic Services).

A dynamic analysis algorithm for RC frames using parallel GPU strategies

  • Li, Hongyu;Li, Zuohua;Teng, Jun
    • Computers and Concrete
    • 제18권5호
    • pp.1019-1039
    • 2016
  • In this paper, a parallel algorithm of nonlinear dynamic analysis of three-dimensional (3D) reinforced concrete (RC) frame structures based on the platform of graphics processing unit (GPU) is proposed. Time integration is performed using Newmark method for nonlinear implicit dynamic analysis and parallelization strategies are presented. Correspondingly, a parallel Preconditioned Conjugate Gradients (PCG) solver on GPU is introduced for repeating solution of the equilibrium equations for each time step. The RC frames were simulated using fiber beam model to capture nonlinear behaviors of concrete and reinforcing bars. The parallel finite element program is developed utilizing Compute Unified Device Architecture (CUDA). The accuracy of the GPU-based parallel program including single precision and double precision was verified in comparison with ABAQUS. The numerical results demonstrated that the proposed algorithm can take full advantage of the parallel architecture of the GPU, and achieve the goal of speeding up the computation compared with CPU.

GPU기반의 디지털 홀로그램 고속 생성을 위한 최적화 기법 (An Optimization for fast digital hologram generation based on GPU)

  • 송중석;박종일
    • 한국방송∙미디어공학회:학술대회논문집
    • 한국방송공학회 2011년도 하계학술대회
    • pp.18-21
    • 2011
  • 디지털 홀로그램은 일반적으로 computer generated hologram(CGH)기법에 의해서 생성된다. 하지만 원리적으로 CGH 기법은 많은 연산량과 복잡도를 요구하고 있기 때문에 실시간으로 디지털 홀로그램을 생성하는 것은 매우 어렵다. 본 논문에서는 CGH 고속연산을 위해 graphics processing unit(GPU)의 병렬처리구조인 CUDA를 사용하였고, 추가적으로 다중 GPU 연산처리를 위해 OpenMP를 사용하였다. 더 나아가 이를 최적화하기 위해서 상수화, 벡터화, 루프풀기 등의 기법들을 제안한다. 결과적으로, 본 논문에서 제안된 기법을 통해서 기존 CPU에서의 CGH 연산속도에 비해 약 8,300배 정도의 속도를 개선할 수 있었다.

Fast Random-Forest-Based Human Pose Estimation Using a Multi-scale and Cascade Approach

  • Chang, Ju Yong;Nam, Seung Woo
    • ETRI Journal
    • /
    • /
    • /
    • 2013
  • Since the recent launch of Microsoft Xbox Kinect, research on 3D human pose estimation has attracted a lot of attention in the computer vision community. Kinect shows impressive estimation accuracy and real-time performance on massive graphics processing unit hardware. In this paper, we focus on further reducing the computation complexity of the existing state-of-the-art method to make the real-time 3D human pose estimation functionality applicable to devices with lower computing power. As a result, we propose two simple approaches to speed up the random-forest-based human pose estimation method. In the original algorithm, the random forest classifier is applied to all pixels of the segmented human depth image. We first use a multi-scale approach to reduce the number of such calculations. Second, the complexity of the random forest classification itself is decreased by the proposed cascade approach. Experiment results for real data show that our method is effective and works in real time (30 fps) without any parallelization efforts.