• 제목/요약/키워드: GPU parallel processing

검색결과 226건 처리시간 0.021초

효율적인 유체 시뮬레이션을 위한 투영 단계에서의 멀티 코어 프로세서와 그래픽 프로세서의 병렬처리 (Parallel Processing of Multi-Core Processor and GPUs in Projection Step for Efficient Fluid Simulation)

  • 김선태;정휘룡;홍정모
    • 한국콘텐츠학회논문지
    • /
    • 제13권6호
    • /
    • pp.48-54
    • /
    • 2013
  • 최근 영화나 CF등에 사용되는 컴퓨터 그래픽스(Computer Graphics, 이하 CG)분야의 유체 시뮬레이션에서는 CPU와 GPU를 혼합하여 사용하는 기술들이 소개되고 있다. 본 논문에서는 유체 시뮬레이션 수행을 위한 투영 단계에서 멀티쓰레드를 이용하여 기존의 CPU와 GPU 간의 작업을 순차적으로 수행하던 방식을 개선하여 CPU와 GPU 간의 작업을 병렬처리 방법을 제시하였다. 제시된 방법을 통해 많은 계산량을 필요로 하는 유체시뮬레이션의 효율성을 높일 수 있었다.

From WiFi to WiMAX: Efficient GPU-based Parameterized Transceiver across Different OFDM Protocols

  • Li, Rongchun;Dou, Yong;Zhou, Jie;Li, Baofeng;Xu, Jinbo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권8호
    • /
    • pp.1911-1932
    • /
    • 2013
  • Orthogonal frequency-division multiplexing (OFDM) has become a popular modulation scheme for wireless protocols because of its spectral efficiency and robustness against multipath interference. Although the components of various OFDM protocols are functionally similar, they remain distinct because of the characteristics of the environment. Recently, graphics processing units (GPUs) have been used to accelerate the signal processing of the physical layer (PHY) because of their great computational power, high development efficiency, and flexibility. In this paper, we describe the implementation of parameterized baseband modules using GPUs for two different OFDM protocols, namely, 802.11a and 802.16. First, we introduce various modules in the modulator/demodulator parts of the transmitter and receiver and analyze the computational complexity of each module. We then describe the integration of the GPU-based baseband modules of the two protocols using the parameterized method. GPU-based implementations are addressed to explain how to accelerate the baseband processing to archive real-time throughput. Finally, the performance results of each signal processing module are evaluated and analyzed. The experiments show that the GPU-based 802.11a and 802.16 PHY meet the real-time requirement and demonstrate good bit error ratio (BER) performance. The performance comparison indicates that our GPU-based implemented modules have better flexibility and throughput to the current ones.

A dynamic analysis algorithm for RC frames using parallel GPU strategies

  • Li, Hongyu;Li, Zuohua;Teng, Jun
    • Computers and Concrete
    • /
    • 제18권5호
    • /
    • pp.1019-1039
    • /
    • 2016
  • In this paper, a parallel algorithm of nonlinear dynamic analysis of three-dimensional (3D) reinforced concrete (RC) frame structures based on the platform of graphics processing unit (GPU) is proposed. Time integration is performed using Newmark method for nonlinear implicit dynamic analysis and parallelization strategies are presented. Correspondingly, a parallel Preconditioned Conjugate Gradients (PCG) solver on GPU is introduced for repeating solution of the equilibrium equations for each time step. The RC frames were simulated using fiber beam model to capture nonlinear behaviors of concrete and reinforcing bars. The parallel finite element program is developed utilizing Compute Unified Device Architecture (CUDA). The accuracy of the GPU-based parallel program including single precision and double precision was verified in comparison with ABAQUS. The numerical results demonstrated that the proposed algorithm can take full advantage of the parallel architecture of the GPU, and achieve the goal of speeding up the computation compared with CPU.

변형 물체를 위한 GPU 기반 병렬 충돌 감지 (GPU-Based Parallel Collision Detection for Deformable Objects)

  • 성낙준;김민상;홍민;최유주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권1호
    • /
    • pp.25-32
    • /
    • 2018
  • 변형물체 시뮬레이션은 강체 시뮬레이션에 비해 많은 연산량을 요구하기 때문에 효과적인 충돌 검사 방법을 필요하다. 그러나 CPU 기반의 충돌 검사 알고리즘을 그대로 GPU 환경에 적용할 경우 GPU의 성능을 제대로 사용할 수 없기 때문에 GPU 환경에 최적화된 충돌 감지 알고리즘과 자료구조가 필요하다. 따라서 본 연구에서는 변형 물체 표현을 위해 널리 사용되고 있는 질량-스프링 시스템을 위한 GPU 기반의 병렬 충돌 감지 알고리즘을 제안한다. 제안하는 방법은 AABB-옥트리 구조를 이용한 GPU 기반의 컬링 알고리즘을 통해 충돌 감지 비용을 줄이는 병렬 알고리즘과 자료 구조를 사용하였다. 본 연구에서는 모든 삼각형 쌍의 충돌을 병렬로 검사하는 기존 방법과의 비교실험을 통하여 제안 알고리즘의 효율성을 입증하였다. 실험결과, 제안된 방법은 기존의 방법에 비해서 평균 약 24%의 성능 개선을 보였다. 따라서 제안하는 방법을 통해서 변형 물체에 대한 실시간 시뮬레이션의 성능 개선이 가능할 것으로 기대한다.

GPU를 이용한 SDR 시스템 용 LTE MIMO 기지국 기능 구현 (Implementation of $2{\times}2$ MIMO LTE Base Station using GPU for SDR System)

  • 이승학;김경훈;안치영;최승원
    • 디지털산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.91-98
    • /
    • 2012
  • This paper implements 2X2 MIMO Long Term Evolution (LTE) base station using Software defined radio (SDR) technology. The implemented base station system processes baseband signals on a Graphics Processor Unit(GPU). GPU is a high-speed parallel processor which provides very important advantage of using a very powerful C-based programming environment that is Compute Unified Device Architecture (CUDA). The implemented software-based base station system processes baseband signals through GPU. It utilizes USRP2 as its RF transceiver. In order to guarantee a real-time processing of LTE baseband signals, we have adopted well-known signal processing algorithms such as frame synchronization algorithms, ML detection, etc. using GPU operating in parallel processing.

병렬 응용프로그램 실행 시 GPU 구조에 따른 성능 분석 (Performance Evaluation of the GPU Architecture Executing Parallel Applications)

  • 최홍준;김철홍
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.10-21
    • /
    • 2012
  • 통합형셰이더 코어 구조 개발 이후 GPU는 그래픽스 전용 연산장치에서 범용 연산장치로 발달하고 있다. 특히, 병렬 응용 프로그램들은 병렬화된 하드웨어 구조를 효과적으로 활용할 수 있기 때문에, GPU를 활용하여 병렬 응용프로그램들을 실행시키는 기법이 주목을 받고 있다. 하지만, 현재의 GPU 구조는 비그래픽스 응용프로그램을 실행하는데 있어서 병렬성을 충분히 확보하지 못하다는 한계를 가지고 있기 때문에, 이를 해결하기 위해 GPU 구조는 빠르게 변화하고 있다. 본 논문에서는 GPU 구조의 개발 방향을 살펴보기 위해, 비그래픽스 병렬 응용프로그램들을 수행하는 경우에 코어 개수 및 동작 주파수 등의 하드웨어구조에 따른 GPU의 성능을 상세히 분석하고자 한다. 실험 결과, 코어 개수가 30에서 192로 늘어나고 동작주파수가 325MHz에서 450MHz로 증가함에 따라 GPU 성능은 28.9%에서 125.8%, 4.4%에서 16.2% 각각 향상되는 반면 성능 향상 효율성은 감소하는 것을 볼 수 있다. 성능 향상 효율성 감소의 주된 원인은 향상된 연산 능력에 맞추어 증가된 데이터 요구를 메모리가 적절하게 처리하지 못하기 때문이다. 결과적으로 GPU의 성능 향상 효율성을 더욱 높이기 위해서는 연산 능력 향상과 더불어 시스템 자원들 또한 GPU 구조에 맞게 변경되어야 함을 구체적인 실험을 통해 알 수 있다.

SDR 시스템에서 GPU를 사용한 Lattice Reduction-aided 검출기 구현 (Implementation of Lattice Reduction-aided Detector using GPU on SDR System)

  • 김태현;이현석;최승원
    • 디지털산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.55-61
    • /
    • 2011
  • This paper presents an implementation of Lattice Reduction (LR)-aided detector for Multiple-Input Multiple-Output (MIMO) system using Graphics Processing Unit (GPU). GPU is a parallel processor which has a number of Arithmetic Logic Units (ALUs), thus, it can minimize the operation time of LR algorithm through the parallelization using multiple threads in the GPU. Through the implemented LR-aided detector, we verify that the LR-aided detector operates a lot faster than Maximum Likelihood (ML) detector. The implemented LR-aided detector has been applied to WiMAX system to show the feasibility of its real-time processing. In addition, we demonstrate that the processing time can be reduced at the cost of 3dB SNR loss by limiting the repeating loop in Lenstra-Lenstra-Lovasz (LLL) algorithm which is frequently used in LR-aided detector.

고속 병렬처리 기법을 활용한 주파수 도약 신호 분석 (Frequency Hopping Signal Analysis Using High-Speed Parallel Processing)

  • 이광용;윤현철;이현휘
    • 한국전자파학회논문지
    • /
    • 제25권2호
    • /
    • pp.251-254
    • /
    • 2014
  • 본 논문에서는 주파수 도약 신호를 고속 병렬처리 구조로 설계하여 추출하는 기법에 대해 연구하였다. 주파수 도약 시스템은 반송파 주파수를 무작위한 것으로 보이는 패턴으로 변형시키기 때문에 고정 신호와는 달리 신호를 탐지하기 어렵고, 분석에 많은 시간이 소요되는 특성을 가진다. 이를 해결하기 위해 주파수 도약 신호를 분석하는 방법을 고속병렬처리 기법을 적용하여 설계하였다. 병렬처리를 위해 GPU를 사용하는 CUDA를 사용하였고, 단일처리 사용 결과와의 성능 평가 결과를 비교하였다. 그 결과, 단일처리 대비 연산 수행 속도 면에서 약 8.53배 성능이 향상됨을 확인하였다.

GPU를 이용한 JPEG2000 병렬 알고리즘 (Parallel Processing Algorithm of JPEG2000 Using GPU)

  • 이동하;조시원;이동욱
    • 전기학회논문지
    • /
    • 제57권6호
    • /
    • pp.1075-1080
    • /
    • 2008
  • Most modem computers or game consoles are well equipped with powerful graphics processing units(GPUs) to accelerate graphics operations. However, since the graphics engines in these GPUs are specially designed for graphics operations, we could not take advantage of their computing power for more general nongraphic operations. In this paper, we studied the GPUs graphics engine in order to accelerate the image processing capability. Specifically, we implemented a JPEC2000 decoding/encoding framework that involves both OpenMP and GPU. Initial experimental results show that significant speed-up can be achieved by utilizing the GPU power.

GPU를 활용한 R*-tree에서의 부분 노드 병렬 처리 방법 (A Parallel Processing Method for Partial Nodes in R*-tree Using GPU)

  • 김성;오병우
    • Spatial Information Research
    • /
    • 제20권6호
    • /
    • pp.139-144
    • /
    • 2012
  • 공간 데이터 처리는 GIS, 텔레매틱스 등 광범위한 분야에서 널리 사용되고 있다. 그러나 현재 사용되고 있는 공간 데이터 질의 처리 기법은 CPU를 사용하여 순차적으로 질의 처리를 수행하므로 질의 처리 시간이 상대적으로 오래 걸린다는 단점이 존재한다. 그러나 공간 데이터 질의 처리를 병렬로 수행했을 때 처리 시간을 줄이는 것이 가능하다. 따라서 본 연구에서는 GPU를 활용하여 공간 데이터 질의 처리를 병렬로 수행하는 연구를 진행한다. 또한, CPU를 이용하여 질의 처리를 수행한 결과와 비교하여 속도 향상 정도에 대한 결과를 제시한다.