• 제목/요약/키워드: GPU accelerating method

검색결과 16건 처리시간 0.022초

GPGPU를 이용한 Hilbert R-tree 벌크로딩 고속화 기법 (Fast Hilbert R-tree Bulk-loading Scheme using GPGPU)

  • 양시동;최원익
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.792-798
    • /
    • 2014
  • R-tree는 공간 데이터베이스 분야에서 가장 널리 쓰이는 색인 구조이며 다양한 변형된 기법들이 제안되었다. 이 기법들 중 Hilbert R-tree는 공간 채움 곡선인 Hilbert 곡선을 이용해서 대용량의 데이터를 고비용의 분할 과정 없이 R-tree를 구성하는 기법이다. 하지만 기존의 CPU기반의 Hilbert R-tree는 대용량의 데이터를 처리할 때는 순차적인 접근으로 발생되는 고비용의 전처리 비용과 느린 구축시간으로 실제 응용에 적용되기에는 한계가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 GPU를 이용해서 데이터의 Hilbert 매핑을 병렬화 하고 이를 통해서 최종적으로 GPU의 메모리에 Hilbert R-tree의 벌크로딩을 고속화하는 기법을 제안한다. GPU기반의 Hilbert R-tree는 inversed-cell 기법과 트리구조 패킹의 병렬화 기법을 통해서 벌크로딩의 성능을 향상시켰다. 실험 결과에서는 기존의 CPU 기반의 벌크로딩에 비해 최대 45배의 성능향상을 보여주었다.

Practical methods for GPU-based whole-core Monte Carlo depletion calculation

  • Kyung Min Kim;Namjae Choi;Han Gyu Lee;Han Gyu Joo
    • Nuclear Engineering and Technology
    • /
    • 제55권7호
    • /
    • pp.2516-2533
    • /
    • 2023
  • Several practical methods for accelerating the depletion calculation in a GPU-based Monte Carlo (MC) code PRAGMA are presented including the multilevel spectral collapse method and the vectorized Chebyshev rational approximation method (CRAM). Since the generation of microscopic reaction rates for each nuclide needed for the construction of the depletion matrix of the Bateman equation requires either enormous memory access or tremendous physical memory, both of which are quite burdensome on GPUs, a new method called multilevel spectral collapse is proposed which combines two types of spectra to generate microscopic reaction rates: an ultrafine spectrum for an entire fuel pin and coarser spectra for each depletion region. Errors in reaction rates introduced by this method are mitigated by a hybrid usage of direct online reaction rate tallies for several important fissile nuclides. The linear system to appear in the solution process adopting the CRAM is solved by the Gauss-Seidel method which can be easily vectorized on GPUs. With the accelerated depletion methods, only about 10% of MC calculation time is consumed for depletion, so an accurate full core cycle depletion calculation for a commercial power reactor (BEAVRS) can be done in 16 h with 24 consumer-grade GPUs.

다중 사용자 환경에서 효과적인 키 교환을 위한 GPU 기반의 NTRU 고속구현 (Accelerated Implementation of NTRU on GPU for Efficient Key Exchange in Multi-Client Environment)

  • 성효은;김예원;염용진;강주성
    • 정보보호학회논문지
    • /
    • 제31권3호
    • /
    • pp.481-496
    • /
    • 2021
  • 대규모 양자컴퓨팅 기술의 실현을 앞둔 현재 공개키 암호 시스템을 양자내성을 가진 암호 시스템으로 전환하는 것은 필수적이다. 미국 국립표준기술연구소 NIST는 양자내성암호(Post-Quantum Cryptography, PQC)를 표준화하기 위한 공모사업을 추진하고 있으며 인터넷 통신 보안에 주로 사용되는 TLS(Transport Layer Security) 프로토콜에 이러한 양자내성암호를 적용하기 위한 차원의 연구도 활발히 진행되고 있다. 본 논문에서는 병렬화된 양자내성암호 NTRU를 활용하여 TLS 상에서 서버와 다수의 사용자가 세션키를 공유하기 위한 키 교환(key exchange) 시나리오를 제시한다. 또한, GPU를 이용하여 NTRU를 병렬화 및 연산을 고속화하는 방법을 제시하고 서버가 대규모 데이터를 처리해야 하는 환경에서 그 효율성을 분석한다.

그래픽 프로세서를 이용한 탄성파 수치모사의 계산속도 향상 (Acceleration of computation speed for elastic wave simulation using a Graphic Processing Unit)

  • Nakata, Norimitsu;Tsuji, Takeshi;Matsuoka, Toshifumi
    • 지구물리와물리탐사
    • /
    • 제14권1호
    • /
    • pp.98-104
    • /
    • 2011
  • 탐사 지구물리학에서 수치 모사는 지하매질에서의 탄성파 전파 현상을 이해하는데 중요한 통찰력을 제공한다. 탄성파 모사는 음향파 근사에 의한 수치 모사보다 계산시간이 많이 소요되지만 전단응력 성분을 포함하여 보다 현실적인 파동의 모사를 가능하게 한다. 그러므로 탄성파 모사는 탄성체의 반응을 탐사하는데 적합하다고 할 수 있다. 계산 시간이 길다는 단점을 극복하기 위해 본 논문에서는 그래픽 프로세서(GPU)를 이용하여 탄성파 수치 모사 시간을 단축하고자 하였다. GPU는 많은 수의 프로세서와 광대역 메모리를 갖고 있기 때문에 병렬화된 계산 아카텍쳐에서 사용할 수 있는 장점이 있다. 본 연구에서 사용한 GPU 하드웨어는 NVIDIA Tesla C1060으로 240개의 프로세서로 구성되어 있으며 102 GB/s의 메모리 대역폭을 갖고 있다. NVIDIA에서 개발된 병렬계산 아카텍쳐인 CUDA를 사용할 수 있음에도 불구하고 계산효율을 상당히 향상시키기 위해서는 GPU 장치의 여러 가지 다양한 메모리의 사용과 계산 순서를 최적화해야만 한다. 본 연구에서는 GPU 시스템에서 시간영역 유한차분법을 이용하여 2차원과 3차원 탄성과 전파를 수치 모사하였다. 파동전파 모사에 가장 널리 사용되는 유한차분법 중의 하나인 엇갈린 격자기법을 채택하였다. 엇갈린 격자법은 지구물리학 분야에서 수치 모델링을 위해 사용하기에 충분한 정확도를 갖고 있는 것으로 알려져 있다. 본 논문에서 제안한 모델링기법은 자료 접근 시간을 단축하기 위해 GPU 장치를 메모리 사용을 최적화하여 가능한 더 빠른 메모리를 사용한다. 이점이 GPU를 이용한 계산의 핵심 요소이다. 하나의 GPU 장치를 사용하고 메모리 사용을 최적화함으로써 단일 CPU를 이용할 경우보다 2차원 모사에서는 14배 이상, 3차원에서는 6배 이상 계산시간을 단축할 수 있었다. 세 개의 GPU를 사용한 경우에는 3차원 모사에서 계산효율을 10배 향상시킬 수 있었다.

기계학습 활용을 위한 학습 데이터세트 구축 표준화 방안에 관한 연구 (A study on the standardization strategy for building of learning data set for machine learning applications)

  • 최정열
    • 디지털융복합연구
    • /
    • 제16권10호
    • /
    • pp.205-212
    • /
    • 2018
  • 고성능 CPU/GPU의 개발과 심층신경망 등의 인공지능 알고리즘, 그리고 다량의 데이터 확보를 통해 기계학습이 다양한 응용 분야로 확대 적용되고 있다. 특히, 사물인터넷, 사회관계망서비스, 웹페이지, 공공데이터로부터 수집된 다량의 데이터들이 기계학습의 활용에 가속화를 가하고 있다. 기계학습을 위한 학습 데이터세트는 응용 분야와 데이터 종류에 따라 다양한 형식으로 존재하고 있어 효과적으로 데이터를 처리하고 기계학습에 적용하기에 어려움이 따른다. 이에 본 논문은 표준화된 절차에 따라 기계학습을 위한 학습 데이터세트를 구축하기 위한 방안을 연구하였다. 먼저 학습 데이터세트가 갖추어야할 요구사항을 문제 유형과 데이터 유형별로 분석하였다. 이를 토대로 기계학습 활용을 위한 학습 데이터세트 구축에 관한 참조모델을 제안하였다. 또한 학습 데이터세트 구축 참조모델을 국제 표준으로 개발하기 위해 대상 표준화 기구의 선정 및 표준화 전략을 제시하였다.

효율적인 멀티 쓰레딩을 이용한 고해상도 깊이지도의 실시간 획득 (High Resolution Depth-map Estimation in Real-time using Efficient Multi-threading)

  • 조칠석;전지인;추현곤;박종일
    • 방송공학회논문지
    • /
    • 제17권6호
    • /
    • pp.945-953
    • /
    • 2012
  • 깊이지도를 구하는 방법 중 많이 사용되어지는 방법으로 줄무늬 패턴을 이용하는 방법이 존재한다. 이 방법은 프로젝터-카메라 시스템(Pro-Cam System)을 이용하며 프로젝터로 조사한 패턴을 카메라로 촬영하여 원래의 패턴과 촬영된 패턴간의 기하학적인 관계를 구하여 깊이지도를 구하는 방법이다. 본 논문에서는 이와 같이 구조광을 이용하는 깊이지도 획득 시스템에서 효과적으로 멀티 쓰레드를 사용하여 실시간 처리하는 것을 제안한다. 일반적으로 자주 사용되는 멀티 쓰레딩에는 CPU의 쓰레드를 이용하는 OpenMP와 GPU의 쓰레드를 이용하는 CUDA가 있다. 이 두 가지 기법은 수행하는데 차이점이 존재하기 때문에 상황에 따라 OpenMP가 더 좋은 효율을 보이는 부분이 있고 CUDA가 더 좋은 효율을 보이는 부분이 있다. 따라서 본 논문에서는 이 두 가지에 대해서 각 부분의 특성에 맞게 더 좋은 효율을 보이는 멀티 쓰레드를 적용하였다. 결과적으로 제안된 방법은 $1280{\times}800$의 영상에 대해 25fps 이상의 깊이지도를 획득할 수 있었다.