• Title/Summary/Keyword: GPU 메모리

Search Result 127, Processing Time 0.05 seconds

Acceleration of GPU-based Shear-Skew Warp Volume Rendering (GPU 기반 쉐아-스큐 워프 볼륨 렌더링 가속 기법)

  • Cho, Chang-Woo;Kim, Yoon-Ki;Jeong, Chang-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1418-1420
    • /
    • 2013
  • GPU는 범용 CPU와는 달리 수백 개의 코어로 이루어져 병렬처리에 특화된 형태로 발전되어 왔으며, 이미지 및 동영상 처리, 유체 역학 시뮬레이션, 의료, 지진 분석 등 점차 많은 영역에서 사용 되고 있다. 최근에는 GPU를 이용하여 볼륨 렌더링을 가속화하는 많은 기법들이 연구되고 있다. 본 논문에서는 볼륨 렌더링을 가속화하기 위한 GPU 기반의 쉐아-스큐 워프 기법을 제안한다. 여기서는 GPU를 이용하여 효율적인 메모리 사용, 코어의 활성화, 뱅크 충돌 감소 기법을 이용하여 기존의 CPU 기반 볼륨 렌더링 기법과 비교하여 빠른 시간에 동일한 결과물을 생성한다.

Optimized Construction and Visualization of GPU-based Adaptive and Continuous Signed Distance Field, and Its Applications (GPU기반 적응형 및 연속적인 부호 거리장의 최적화된 구성과 시각화, 그리고 그 응용 사례)

  • Moon, Seong-Hyeok;Kim, Jong-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.655-658
    • /
    • 2021
  • 본 논문에서는 GPU 아키텍처를 이용하여 적응형 부호 거리장을 최적화하여 빠르게 구축하고 시각화 할 수 있는 방법에 대해 제안한다. 쿼드트리를 효율적으로 GPU 메모리로 전달하고, 이를 활용하여 삼각형에 대해 유클리디안 거리를 각 스레드 별로 병렬처리하여 최단 거리를 찾는다. 이 과정에서 GPU를 사용하여 삼각형으로 구성된 3D 메쉬로부터 빠르게 적응형 부호 거리장을 계산할 수 있는 최적화 기법과 절단면 보기, 특정 위치의 값 조회, 실시간 레이트레이싱 및 충돌처리 작업을 빠르고 효율적으로 수행할 수 있는지를 보여준다. 또한, 제안하는 프레임워크를 활용하면 하이 폴리곤 메쉬도 1초 내외로 부호 거리장을 계산할 수 있기 때문에 강체뿐만 아니라 변형체에도 충분히 활용될 수 있다.

  • PDF

A GPU-based Terrain Rendering using Multi-resolution Bias Map (다해상도 편향맵을 이용한 GPU기반의 지형 렌더링)

  • Lee, Eun-Seok;Kim, Tae-Gwon;Lee, Jin-Hee;Shin, Byeong-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.314-316
    • /
    • 2012
  • 대용량 지형 데이터를 실시간에 렌더링 하기 위해 여러 가지 연속상세단계 기법들이 연구되었다. 하지만 이러한 방법을 적용해도 지형 데이터가 하드웨어에서 처리할 수 있는 크기보다 클 경우 과도한 간략화로 인한 기하오차가 발생하거나 프레임률이 저하된다. 또한 기존 연속상세단계 기법을 수행하기 위해 만들어진 자료구조들 또한 지형 데이터의 크기에 비례하여 커지므로 메모리와 전처리 시간이 많이 소요된다. 본 논문에서는 적은 개수의 정점으로 효과적인 지형 렌더링이 가능한 편향맵을 다해상도로 확장하여 별도의 자료구조가 따로 필요 없는 간단한 연속상세단계 기법을 제안한다. 이 방법은 적은 메모리 용량으로 높은 정확도의 지형을 실시간에 렌더링 할 수 있다. 연속상세단계 선택은 보다 빠른 처리를 위해 GPU에서 패치 단위의 테셀레이션을 통해서 단일 패스로 수행된다. 상세단계가 선택으로 세분화 된 지형의 각 정점들은 화면 공간상의 오차를 참조하여 각각의 상세단계를 선택한 후 해당되는 편향맵에 저장된 이동벡터만큼 이동하여 최종 지형 메쉬를 생성한다. 제안한 방법은 전처리 단계를 포함한 모든 처리가 GPU에서 수행되므로 속도가 빠르고 적은 정점으로 보다 정확한 지형을 렌더링 할 수 있다.

Efficient Parallel Bilateral Filter using GPGPU (GPGPU 를 이용한 양 방향성 필터의 병렬 구현 및 성능 평가)

  • Chang, Ki Joon;Ro, Won Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.369-372
    • /
    • 2011
  • 양 방향성 필터는 이미지표면 평탄화와 잡음제거에 좋은 성능을 보이지만 특유의 연산 복잡도로 인하여 연산 시간이 오래 걸린다는 단점이 존재한다. 따라서 본 논문에서는 고도의 병렬수행을 바탕으로 하는 그래픽연산장치(GPU)에 적합하도록 수정된 효율적인 양 방향성 필터를 NVIDIA 의 CUDA 를 사용하여 GTX 285 GPU 에서 구현하였다. 영상의 전 영역을 참조하는 대신 인접하고 연속된 영역으로의 근사화, 적은 메모리 사용량, 빠른 접근속도를 가지며 충돌이 최소화된 공유메모리 버퍼, Warp 를 고려한 병합된 메모리 접근방법을 바탕으로 병렬화 하였다. 그 결과, 같은 방식의 순차실행 알고리즘 대비 최소 약 34 배에서 최대 약 76 배의 속도 개선과 30dB 내외의 PSNR 을 갖는 양 방향성 필터를 구현할 수 있었다.

Optimization of Lightweight Encryption Algorithm (LEA) using Threads and Shared Memory of GPU (GPU의 스레드와 공유메모리를 이용한 LEA 최적화 방안)

  • Park, Moo Kyu;Yoon, Ji Won
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.25 no.4
    • /
    • pp.719-726
    • /
    • 2015
  • As big-data and cloud security technologies become popular, many researchers have recently been conducted on faster and lighter encryption. As a result, National Security Research Institute developed LEA which is lightweight and fast block cipher. To date, there have been various studies on lightweight encryption algorithm (LEA) for speeding up using GPU rather than conventional CPU. However, it is rather difficult to explore any guideline how to manipulate the GPU for the efficient usage of the LEA. Therefore, we introduce a guideline which explains how to implement and design the optimal LEA using GPU.

Analysis of Impact of Correlation Between Hardware Configuration and Branch Handling Methods Executing General Purpose Applications (범용 응용프로그램 실행 시 하드웨어 구성과 분기 처리 기법에 따른 GPU 성능 분석)

  • Choi, Hong Jun;Kim, Cheol Hong
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.3
    • /
    • pp.9-21
    • /
    • 2013
  • Due to increased computing power and flexibility of GPU, recent GPUs execute general purpose parallel applications as well as graphics applications. Programmers can use GPGPU by using the APIs from GPU vendors. Unfortunately, computational resources of GPU are not fully utilized when executing general purpose applications because of frequent branch instructions. To handle the branch problem, several warp formations have been proposed. Intuitively, we expect that the warp formations providing higher computational resource utilization show higher performance. Contrary to our expectations, according to simulation results, the performance of the warp formation providing better utilization is lower than that of the warp formation providing worse utilization. This is because warp formation providing high utilization causes serious memory bottleneck due to increased memory request. Therefore, warp formation providing high computation utilization cannot guarantee high performance without proper hardware resources. For this reason, we will analyze the correlation between hardware configuration and warp formation. Our simulation results present the guideline to solve the underutilization problem due to branch instructions when designing recent GPU.

Speed-optimized Implementation of HIGHT Block Cipher Algorithm (HIGHT 블록 암호 알고리즘의 고속화 구현)

  • Baek, Eun-Tae;Lee, Mun-Kyu
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.22 no.3
    • /
    • pp.495-504
    • /
    • 2012
  • This paper presents various speed optimization techniques for software implementation of the HIGHT block cipher on CPUs and GPUs. We considered 32-bit and 64-bit operating systems for CPU implementations. After we applied the bit-slicing and byte-slicing techniques to HIGHT, the encryption speed recorded 1.48Gbps over the intel core i7 920 CPU with a 64-bit operating system, which is up to 2.4 times faster than the previous implementation. We also implemented HIGHT on an NVIDIA GPU equipped with CUDA, and applied various optimization techniques, such as storing most frequently used data like subkeys and the F lookup table in the shared memory; and using coalesced access when reading data from the global memory. To our knowledge, this is the first result that implements and optimizes HIGHT on a GPU. We verified that the byte-slicing technique guarantees a speed-up of more than 20%, resulting a speed which is 31 times faster than that on a CPU.

The Need of Cache Partitioning on Shared Cache of Integrated Graphics Processor between CPU and GPU (내장형 GPU 환경에서 CPU-GPU 간의 공유 캐시에서의 캐시 분할 방식의 필요성)

  • Sung, Hanul;Eom, Hyeonsang;Yeom, HeonYoung
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.9
    • /
    • pp.507-512
    • /
    • 2014
  • Recently, Distributed computing processing begins using both CPU(Central processing unit) and GPU(Graphic processing unit) to improve the performance to overcome darksilicon problem which cannot use all of the transistors because of the electric power limitation. There is an integrated graphics processor that CPU and GPU share memory and Last level cache(LLC). But, There is no LLC access rules between CPU and GPU, so if GPU and CPU processes run together at the same time, performance of both processes gets worse because of the contention on the LLC. This Paper gives evidence to prove the need of the Cache Partitioning and is mentioned about the cache partitioning design using page coloring to allocate the L3 Cache space only for the GPU process to guarantee GPU process performance.

Three-dimensional Wave Propagation Modeling using OpenACC and GPU (OpenACC와 GPU를 이용한 3차원 파동 전파 모델링)

  • Kim, Ahreum;Lee, Jongwoo;Ha, Wansoo
    • Geophysics and Geophysical Exploration
    • /
    • v.20 no.2
    • /
    • pp.72-77
    • /
    • 2017
  • We calculated 3D frequency- and Laplace-domain wavefields using time-domain modeling and Fourier transform or Laplace transform. We adopted OpenACC and GPU for an efficient parallel calculation. The OpenACC makes it easy to use GPU accelerators by adding directives in conventional C, C++, and Fortran programming languages. Accordingly, one doesn't have to learn new GPGPU programming languages such as CUDA or OpenCL to use GPU. An OpenACC program allocates GPU memory, transfers data between the host CPU and GPU devices and performs GPU operations automatically or following user-defined directives. We compared performance of 3D wave propagation modeling programs using OpenACC and GPU to that using single-core CPU through numerical tests. Results using a homogeneous model and the SEG/EAGE salt model show that the OpenACC programs are approximately 53 and 30 times faster than those using single-core CPU.

Hybrid parallel programming for Heterogeneous Multi-core performance optimization (헤테로지니어스 멀티코어 성능 최적화를 위한 하이브리드 병렬 프로그래밍)

  • Lim, Ju-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.7-9
    • /
    • 2012
  • CPU는 싱글 코어 구조에서 클록 속도를 높여 성능을 향상 시키려는 노력을 해왔으나 한계에 도달하자 하나의 칩에 코어를 여러 개 둔 멀티코어 형태로 발전하였다. CPU의 성능 향상을 위해 이제는 3D그래픽을 연산처리하기 위해 만들어진 GPU와 결합하기에 이르렀다. CPU와 GPU의 결합은 CPU간의 결합보다 훨씬 더 좋은 성능을 보였고 전력의 사용량도 더 적었으며 비용면에서도 경제적이라는 장점을 가지고 있다. 본 논문에서는 CPU와 GPU의 Heterogeneous multicore상에서 성능을 최적화하기 위해 기존의 병렬화 모델을 조합하고 최적화를 시도하였다. CPU상에서는 성능 향상을 위해 기존의 병렬 프로그램 모델인 SIMD와 공유메모리 병렬 프로그래밍 모델 그리고 메시지 패싱 병렬 프로그래밍 모델을 조합하는 실험을 했다. GPU에서는 CUDA를 최적화 하였다. 이렇게 CPU와 GPU를 최적화하고 조합하여 고성능 연산을 요구하는 어플리케이션을 위한 Heterogeneous multicore 성능 최적화 방법을 제안한다.