• 제목/요약/키워드: Graphics Processing Units

검색결과 85건 처리시간 0.026초

GPU 가속 기술을 이용한 격자 볼츠만법 기반 원유 확산 과정 시뮬레이션 (GPU-accelerated Lattice Boltzmann Simulation for the Prediction of Oil Slick Movement in Ocean Environment)

  • 하솔;구남국;노명일
    • 한국CDE학회논문집
    • /
    • 제18권6호
    • /
    • pp.399-406
    • /
    • 2013
  • This paper describes a new simulation technique for advection-diffusion phenomena over the sea surface using the lattice Boltzmann method (LBM), capable of predicting oil dispersion from tankers. The LBM is used to solve the pollutant transport problem within the framework of the ocean environment. The sea space is represented by the lattices, where each lattice has the information on oil transportation. Since dispersed oils (i.e., oil droplets) at sea are transported by convection due to waves, buoyancy, and turbulent diffusion, the conservation of mass and many physical oil transport rules were used in the prediction model. Since the LBM is modeled using the uniform lattices and simple rules, it can be easily accelerated by the parallel mechanism, for example, GPU-accelerated method. The proposed model using the LBM is used to simulate a simple pollution event with the oil pollutants of 10,000 kL. The simulation results indicate that the LBM method accelerated with the GPU is 6 times faster than that without the GPU.

Workload Characteristics-based L1 Data Cache Switching-off Mechanism for GPUs

  • Do, Thuan Cong;Kim, Gwang Bok;Kim, Cheol Hong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권10호
    • /
    • pp.1-9
    • /
    • 2018
  • Modern graphics processing units (GPUs) have become one of the most attractive platforms in exploiting high thread level parallelism with the support of new programming tools such as CUDA and OpenCL. Recent GPUs has applied cache hierarchy to support irregular memory access patterns; however, L1 data cache (L1D) exhibits poor efficiency in the GPU. This paper shows that the L1D does not always positively affect the applications in terms of performance and energy efficiency for the GPU. The performance of the GPU is even harmed by using the L1D for lots of applications. Our proposed technique exploits the characteristics of the currently-executed applications to predict the performance impact of the L1D on the GPU and then decides whether to continuously use the cache for the application or not. Our experimental results show that the proposed technique improves the GPU performance by 9.4% and saves up to 52.1% of the power consumption in the L1D.

Building a Dynamic Analyzer for CUDA based System.

  • SALAH T. ALSHAMMARI
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.77-84
    • /
    • 2023
  • The utilization of GPUs on general-purpose computers is currently on the rise due to the increase in its programmability and performance requirements. The utility of tools like NVIDIA's CUDA have been designed to allow programmers to code algorithms by using C-like language for the execution process on the graphics processing units GPU. Unfortunately, many of the performance and correctness bugs will happen on parallel programs. The CUDA tool support for the parallel programs has not yet been actualized. The use of a dynamic analyzer to find performance and correctness bugs in CUDA programs facilitates the execution of sophisticated processes, especially in modern computing requirements. Any race conditions bug it will impact of program correctness and the share memory bank conflicts to improve the overall performance. The technique instruments the programs in a way that promotes accessibility of the memory locations accessed by different threads well as to check for any bugs in the code of a program. The instrumented source code will be used initiated directly in the device emulation code of CUDA to send report for the user about all errors. The current degree of automation helps programmers solve subtle bugs in highly complex programs or programs that cannot be analyzed manually.

GPU-ACCELERATED SPECKLE MASKING RECONSTRUCTION ALGORITHM FOR HIGH-RESOLUTION SOLAR IMAGES

  • Zheng, Yanfang;Li, Xuebao;Tian, Huifeng;Zhang, Qiliang;Su, Chong;Shi, Lingyi;Zhou, Ta
    • 천문학회지
    • /
    • 제51권3호
    • /
    • pp.65-71
    • /
    • 2018
  • The near real-time speckle masking reconstruction technique has been developed to accelerate the processing of solar images to achieve high resolutions for ground-based solar telescopes. However, the reconstruction of solar subimages in such a speckle reconstruction is very time-consuming. We design and implement a new parallel speckle masking reconstruction algorithm based on the Compute Unified Device Architecture (CUDA) on General Purpose Graphics Processing Units (GPGPU). Tests are performed to validate the correctness of our program on NVIDIA GPGPU. Details of several parallel reconstruction steps are presented, and the parallel implementation between various modules shows a significant speed increase compared to the previous serial implementations. In addition, we present a comparison of runtimes across serial programs, the OpenMP-based method, and the new parallel method. The new parallel method shows a clear advantage for large scale data processing, and a speedup of around 9 to 10 is achieved in reconstructing one solar subimage of $256{\times}256pixels$. The speedup performance of the new parallel method exceeds that of OpenMP-based method overall. We conclude that the new parallel method would be of value, and contribute to real-time reconstruction of an entire solar image.

그래픽 프로세서를 이용한 고차 유한 차분식 기반 수중채널모델 연구 (A Study on the Underwater Channel Model based on a High-Order Finite Difference Method using GPUs)

  • 배호석;김원기;손수욱;하완수
    • 한국시뮬레이션학회논문지
    • /
    • 제30권1호
    • /
    • pp.11-20
    • /
    • 2021
  • 최근 수중 무인 체계가 대두됨에 따라 핵심 기반 기술인 장거리 수중통신기술 및 고속 수중채널모델링 기술이 많은 관심을 받고 있다. 본 논문에서는 고속 수중채널모델링을 수행하기 위한 고속 음파전달모델을 제안하여, 정량적인 성능 분석을 통해 제안 기술의 적용 가능성을 살펴보았다. 수층에서의 파동 전파를 모사하기 위하여 고차 유한 차분 기법을 사용하였으며, 범용 그래픽 프로세서를 이용한 영역 분할 기법을 적용하여 여러 개의 그래픽 프로세서 병렬 처리를 통해 연산 속도를 향상시켰다. 제안한 기법은 반무한 매질에서의 해석해와의 비교 및 파선법에 기반한 VirTEX 모델을 이용한 결과와의 비교를 통해 그 타당성을 검증하였다. 최종적으로 수치예제를 통해 고속 수중채널 모델링 기법의 정량적인 연산 성능을 분석하였다. 개발모델의 연산 성능 향상 정도를 정량적으로 분석한 결과 그래픽 프로세서 수가 증가함에 따라 연산 속도가 선형에 가깝게 빨라지는 것을 확인하였다. 연산 영역의 크기가 2배로 증가할 때와 주파수가 2배로 증가할 때 계산 시간은 각각 2배와 8배로 증가하였다. 본 논문을 통해 제안한 고속 수중채널모델 기술은 해양무인체계의 수중통신기술 개발을 위한 수중통신 채널모델 및 분석 툴로 탑재되어 국방력 강화에 기여할 수 있을 것으로 기대된다.

그물망과 대량입자의 멀티 스케일 접촉해석 (Multi-Scale Contact Analysis Between Net and Numerous Particles)

  • 전철웅;손정현
    • 대한기계학회논문집A
    • /
    • 제38권1호
    • /
    • pp.17-23
    • /
    • 2014
  • 그래픽 처리장치(GPU)는 병렬적인 정보를 포함하는 문제를 해결하는데 이상적이다. 본 연구에서는 GPU 는 입자동역학과 함께 다물체 동역학 시뮬레이션을 효율적으로 수행하기 위해 사용되었다. 수치계산을 위해서 HHT 암시적 적분 알고리즘이 사용되었다. 입자들 사이의 접촉을 판별하기 위해서 공간 분할 알고리즘과 입자 거동 해석법으로 이산 요소법(DEM)이 사용되었다. 개발된 다물체 동역학 프로그램은 해는 ADAMS 프로그램의 결과와 비교 검증하였다. CPU 기반의 순차해석 프로그램과 GPU 기반 병렬 프로그램은 입자의 수에 따른 수치계산 효율성을 알아보기 위해 서로 비교되었으며, 입자의 수가 많아질수록 계산시간은 단축되었다. 본 예제에서 입자의 수가 1,300 개일 때, 순차 해석 프로그램보다 병렬 프로그램이 약 5 배 가량 빠른 계산 속도를 보였다.

DEVS 형식론 기반의 Dynamic Reliability Block Diagram과 GPU 가속 기술을 이용한 신뢰도 분석 방법 (GPU-accelerated Reliability Analysis Method using Dynamic Reliability Block Diagram based on DEVS Formalism)

  • 하솔;구남국;노명일
    • 한국시뮬레이션학회논문지
    • /
    • 제22권4호
    • /
    • pp.109-118
    • /
    • 2013
  • 전통적으로 신뢰도 분석에 사용되는 Fault Tree Analysis의 경우 관련 분야의 전문가가 필요하고 작성자의 판단에 따라 신뢰도 분석 결과가 달라진다. 반면, Reliability Block Diagram의 경우 시스템 구성도나 Process Flow Diagram (PFD), Piping and Instrument Diagram (P&ID)을 기반으로 하기에 작성에 필요한 비용과 시간이 절감되는 장점이 있다. 본 논문에서는 Dynamic Reliability Block Diagram과 이산 사건 시뮬레이션에 널리 사용되는 DEVS 형식론을 이용하는 신뢰도 분석 방법을 제안한다. 또한 시스템 모델링 방법론 중 하나인 System Entity Structure/Model Base의 개념을 도입함으로써 다양한 설계 대안에 대한 신뢰도 분석 모델을 자동으로 생성할 수 있도록 하였다. 그리고 Reliability Block Diagram을 이용한 신뢰도 분석 시 오래 소요되는 계산 시간을 단축시키기 위해 GPU 가속 기술을 신뢰도 분석 시뮬레이션에 접목하였다.

AB9: A neural processor for inference acceleration

  • Cho, Yong Cheol Peter;Chung, Jaehoon;Yang, Jeongmin;Lyuh, Chun-Gi;Kim, HyunMi;Kim, Chan;Ham, Je-seok;Choi, Minseok;Shin, Kyoungseon;Han, Jinho;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.491-504
    • /
    • 2020
  • We present AB9, a neural processor for inference acceleration. AB9 consists of a systolic tensor core (STC) neural network accelerator designed to accelerate artificial intelligence applications by exploiting the data reuse and parallelism characteristics inherent in neural networks while providing fast access to large on-chip memory. Complementing the hardware is an intuitive and user-friendly development environment that includes a simulator and an implementation flow that provides a high degree of programmability with a short development time. Along with a 40-TFLOP STC that includes 32k arithmetic units and over 36 MB of on-chip SRAM, our baseline implementation of AB9 consists of a 1-GHz quad-core setup with other various industry-standard peripheral intellectual properties. The acceleration performance and power efficiency were evaluated using YOLOv2, and the results show that AB9 has superior performance and power efficiency to that of a general-purpose graphics processing unit implementation. AB9 has been taped out in the TSMC 28-nm process with a chip size of 17 × 23 ㎟. Delivery is expected later this year.

복수카메라 및 Ray-based Importance Sampling을 이용한 실시간 비행체 추적 (Real-Time Quad-Copter Tracking With Multi-Cameras and Ray-based Importance Sampling)

  • 김룡해;정문호;이기서
    • 한국전자통신학회논문지
    • /
    • 제8권6호
    • /
    • pp.899-905
    • /
    • 2013
  • 본 논문은 복수카메라 기반 실시간 비행체 검출 및 추적하는 방법에 대해서 설명한다. 정밀하게 가공된 보정체를 필요로 하지 않는 복수카메라 자기보정 기법에 스케일을 추가하여, 간편하게 각 카메라 내부변수와 카메라 사이의 상대위치 관계를 구하는 복수카메라 보정기법을 제시한다. 비행체 검출 및 추적은 파티컬 필터링 기법을 적용하여 수행하는데, 적은수의 샘플로도 비행체 검출을 빠르고 정확하게 할 수 있도록 하는 Ray-based Importance Sampling을 고안했다. 3차원 공간을 일정한 크기의 격자구조로 나누고, 영상 특징점과 사영기하학을 이용하여 이 격자구조 위에 비행체의 이산적인 분포를 구한다. 이 분포에 따라 격자를 샘플링하고, 또 다시, 격자의 중심을 평균으로 하는 가우시안 분포로부터 비행체의 위치를 샘플링 한다. 이 두 단계의 샘플링을 통해 비행체가 있을 가능성이 높은 영역에 샘플을 집중적으로 분포시킬 수가 있다. 그리고, 복수의 카메라 영상으로부터 실시간으로 동기화된 영상 특징점을 검출하기 위하여 GPGPU를 이용한 병렬 영상처리 시스템을 구현하였다. 실험을 통해 제안한 방법의 유효성을 확인할 수 있었다.

픽셀 배치가 자유로운 임베디드 LED 전광판 모듈 및 제어장치 설계 (A Design of Embedded LED Display Board Module and Control Unit which the Placement of Pixels is Free)

  • 이배규;김정화
    • 전자공학회논문지
    • /
    • 제50권10호
    • /
    • pp.135-141
    • /
    • 2013
  • 본 논문에서는 적색, 녹색, 청색의 세 가지 고휘도 LED를 하나의 소켓에 설치하여, 하나의 화소체 단위를 만들고, 이 화소체들의 조합과 다수 모듈들의 조합으로 문자, 그래픽, 동영상 등의 다양한 영상을 표출할 수 있는 풀컬러 전광판 모듈 및 제어장치를 개발하였다. LED 전광판 드라이버 모듈은 일정한 단위 면적에 RGB 픽셀을 조합한 도트에 드라이버 회로가 내장된다. 기존의 이러한 모듈형태는 특정 공간 및 설치 공간에 고정된 해상도를 구현하므로 가격이 높게 책정될 수 있다. 이러한 단점을 극복하기 위하여 임의의 피치 간격으로 배열이 자유로운 LED 드라이버 및 이에 따른 LED 픽셀 모듈을 개발하였다. 본 논문의 전광판 모듈은 기존 각각의 LED 모듈을 구동함에 있어서 병렬 방식의 데이터 처리 방식을 픽셀을 기준으로 그 위의 서브 모듈과 그 상위에 마스터 모듈의 개념을 도입하고 각각의 화소를 직병렬 통신 방식으로 개선함으로 인해서 처리할 수 있는 데이터의 속도를 초당 36프레임 이상으로 끌어올려서 상대적으로 데이터의 처리량이 많은 동화상의 경우에도 원활한 디스플레이를 할 수 있도록 하였다. 또한 기존 전광판의 깜박거림 현상이 개선되어 보다 선명한 영상이 제공되는 효과도 있다.