• 제목/요약/키워드: GPU model

검색결과 164건 처리시간 0.027초

WRF 물리 과정의 GP-GPU 계산을 위한 CUDA Fortran 프로그램 구현 (WRF Physics Models Using GP-GPUs with CUDA Fortran)

  • 김영태;이용희;정관영
    • 대기
    • /
    • 제23권2호
    • /
    • pp.231-235
    • /
    • 2013
  • We parallelized WRF major physics routines for Nvidia GP-GPUs with CUDA Fortran. GP-GPUs are originally designed for graphic processing, but show high performance with low electricity for calculating numerical models. In the CUDA environment, a data domain is allocated into thread blocks and threads in each thread block are computing in parallel. We parallelized the WRF program to use of thread blocks efficiently. We validated the GP-GPU program with the original CPU program, and the WRF model using GP-GPUs shows efficient speedup.

Regular Mesh 기반 지리정보 3D 합성모델 (Geographic information 3D Synthetic Model based on Regular Mesh)

  • 정지환;황선명;김성호
    • 한국항행학회논문지
    • /
    • 제15권4호
    • /
    • pp.616-625
    • /
    • 2011
  • 본 연구에서는 지형을 Rendering 기법의 대표적인 방법인 Geometry Clipmaps와 ROAM 2.0을 분석하여 Rendering 연산에 소요되는 연산을 CPU가 아닌 GPU에 중점을 두어 보다 빠르고 넓은 가시화 영역을 보장하는 확장된 Geometry Clipmaps 알고리즘을 제안한다. 확장된 알고리즘은 LOD(Level of Detail)을 통한 각 레벨의 Mesh 구성 방법, 레벨간의 연결망 Mesh 구성 방법, VFC(View Frustum Culling)을 사용하여 Rendering을 최적화 할 수 있는 Mesh Block화 방안 그리고 최대 1m 해상도를 갖는 고해상도 영상 Mapping 방안 등을 포함하고 있다.

동기식 분산 딥러닝 환경에서 배치 사이즈 변화에 따른 모델 학습 성능 분석 (A Performance Analysis of Model Training Due to Different Batch Sizes in Synchronous Distributed Deep Learning Environments)

  • 김예랑;김형준;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.79-80
    • /
    • 2023
  • 동기식 분산 딥러닝 기법은 그래디언트 계산 작업을 다수의 워커가 나누어 병렬 처리함으로써 모델 학습 과정을 효율적으로 단축시킨다. 배치 사이즈는 이터레이션 단위로 처리하는 데이터 개수를 의미하며, 학습 속도 및 학습 모델의 품질에 영향을 미치는 중요한 요소이다. 멀티 GPU 환경에서 작동하는 분산 학습의 경우, 가용 GPU 메모리 용량이 커짐에 따라 선택 가능한 배치 사이즈의 상한이 증가한다. 하지만 배치 사이즈가 학습 속도 및 학습 모델 품질에 미치는 영향은 GPU 활용률, 총 에포크 수, 모델 파라미터 개수 등 다양한 변수에 영향을 받으므로 최적값을 찾기 쉽지 않다. 본 연구는 동기식 분산 딥러닝 환경에서 실험을 통해 최적의 배치 사이즈 선택에 영향을 미치는 주요 요인을 분석한다.

인터랙티브 헤어 스타일링 인터페이스 (Interactive Hair Styling Interface)

  • 조정현;고형석
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.455-458
    • /
    • 2009
  • 통계적 방법을 사용하여 머리카락을 생성하고 제약 조건을 이용하여 헤어 스타일을 완성하는 방법에 대한 연구가 논문 [2]에 자세히 소개되어 있다. 논문 [2]의 방법과 함께 제시된 프로그램은 매우 다양한 헤어 스타일을 가능하게 하지만 일반 사용자가 쉽게 다루기 어려운 단점이 있다. 따라서 본 논문에서는 머리카락과 헤어 스타일의 생성에 있어서는 논문 [2]의 방법을 따르되 사용자가 쉽게 헤어 스타일을 조정할 수 있도록 맵 기반 인터랙티브 헤어스타일링 인터페이스를 제안한다. 머리카락이 생성될 두피 부분을 공간 분할하고 이 부분에 사용자가 머리카락의 밀도, 길이, 색상 맵을 직접 그릴 수 있게 하여 직관적인 헤어 스타일 생성이 가능하게 한다. 복잡한 형태의 표면에 대해서도 효과적으로 적용될 수 있도록 공간을 분할하고 접근하는 과정에 GPU 가속화 방법을 사용한다. 또한 제약 조건을 쉽게 다루기 위해 몇 가지 템플릿을 제공하고 이의 생성과 수정을 쉽게 한다.

  • PDF

Power Modeling Approach for GPU Source Program

  • Li, Junke;Guo, Bing;Shen, Yan;Li, Deguang;Huang, Yanhui
    • Journal of Electrical Engineering and Technology
    • /
    • 제13권1호
    • /
    • pp.181-191
    • /
    • 2018
  • Rapid development of information technology makes our environment become smarter and massive high performance computers are providing powerful computing for that. Graphics Processing Unit (GPU) as a typical high performance component is being widely used for both graphics and general-purpose applications. Although it can greatly improve computing power, it also delivers significant power consumption and need sufficient power supplies. To make high performance computing more sustainable, the important step is to measure it. Current power technologies for GPU have some drawbacks, such as they are not applicable for power estimation at the early stage. In this article, we present a novel power technology to correlate power consumption and the characteristics at the programmer perspective, and then to estimate power consumption of source program without prerunning. We conduct experiments on Nvidia's GT740 platform; the results show that our power model is more accurately than regression model and has an average error of 2.34% and the maximum error of 9.65%.

Refinement of protein NMR structures using atomistic force field and implicit solvent model: Comparison of the accuracies of NMR structures with Rosetta refinement

  • Jee, Jun-Goo
    • 한국자기공명학회논문지
    • /
    • 제26권1호
    • /
    • pp.1-9
    • /
    • 2022
  • There are two distinct approaches to improving the quality of protein NMR structures during refinement: all-atom force fields and accumulated knowledge-assisted methods that include Rosetta. Mao et al. reported that, for 40 proteins, Rosetta increased the accuracies of their NMR-determined structures with respect to the X-ray crystal structures (Mao et al., J. Am. Chem. Soc. 136, 1893 (2014)). In this study, we calculated 32 structures of those studied by Mao et al. using all-atom force field and implicit solvent model, and we compared the results with those obtained from Rosetta. For a single protein, using only the experimental NOE-derived distances and backbone torsion angle restraints, 20 of the lowest energy structures were extracted as an ensemble from 100 generated structures. Restrained simulated annealing by molecular dynamics simulation searched conformational spaces with a total time step of 1-ns. The use of GPU-accelerated AMBER code allowed the calculations to be completed in hours using a single GPU computer-even for proteins larger than 20 kDa. Remarkably, statistical analyses indicated that the structures determined in this way showed overall higher accuracies to their X-ray structures compared to those refined by Rosetta (p-value < 0.01). Our data demonstrate the capability of sophisticated atomistic force fields in refining NMR structures, particularly when they are coupled with the latest GPU-based calculations. The straightforwardness of the protocol allows its use to be extended to all NMR structures.

다양한 컴퓨팅 환경에서 YOLOv7 모델의 추론 시간 복잡도 분석 (YOLOv7 Model Inference Time Complexity Analysis in Different Computing Environments)

  • 박천수
    • 반도체디스플레이기술학회지
    • /
    • 제21권3호
    • /
    • pp.7-11
    • /
    • 2022
  • Object detection technology is one of the main research topics in the field of computer vision and has established itself as an essential base technology for implementing various vision systems. Recent DNN (Deep Neural Networks)-based algorithms achieve much higher recognition accuracy than traditional algorithms. However, it is well-known that the DNN model inference operation requires a relatively high computational power. In this paper, we analyze the inference time complexity of the state-of-the-art object detection architecture Yolov7 in various environments. Specifically, we compare and analyze the time complexity of four types of the Yolov7 model, YOLOv7-tiny, YOLOv7, YOLOv7-X, and YOLOv7-E6 when performing inference operations using CPU and GPU. Furthermore, we analyze the time complexity variation when inferring the same models using the Pytorch framework and the Onnxruntime engine.

G2D 침수해석 모형을 이용한 시나리오 기반 도시 침수예측 연구 (A Study on Scenario-based Urban Flood Prediction using G2D Flood Analysis Model)

  • 노희성;박기홍
    • 한국항행학회논문지
    • /
    • 제27권4호
    • /
    • pp.488-494
    • /
    • 2023
  • 본 논문에서는 2차원 침수해석 모형인 G2D를 이용하여 모의 도메인을 구성하고, 전주시 전역을 대상으로 시나리오 기반 도시 침수예측을 수행하였다. 도메인 구성과 격자별 조도계수 설정은 DEM과 토지피복도를 이용하고, G2D 모형의 입력은 수위, 수심 및 유량 등을 적용하였다. 가상강우는10분당3 mm로5시간동안모든격자에부여하였고, 가상 유량을 적용하여 지표면 침수해석 모의를 진행하였다. 또한 대상 지역의 침수해석 모델 실행 여부를 판단하기 위해 GPU 가속기법을 적용하였다. 모의 결과 고해상도 침수해석 시간의 대폭 단축 및 모의 시간별 시각적인 침수 판단을 위한 침수심을 생성할 수 있음을 확인하였다.

DEVS 형식론 기반의 Dynamic Reliability Block Diagram과 GPU 가속 기술을 이용한 신뢰도 분석 방법 (GPU-accelerated Reliability Analysis Method using Dynamic Reliability Block Diagram based on DEVS Formalism)

  • 하솔;구남국;노명일
    • 한국시뮬레이션학회논문지
    • /
    • 제22권4호
    • /
    • pp.109-118
    • /
    • 2013
  • 전통적으로 신뢰도 분석에 사용되는 Fault Tree Analysis의 경우 관련 분야의 전문가가 필요하고 작성자의 판단에 따라 신뢰도 분석 결과가 달라진다. 반면, Reliability Block Diagram의 경우 시스템 구성도나 Process Flow Diagram (PFD), Piping and Instrument Diagram (P&ID)을 기반으로 하기에 작성에 필요한 비용과 시간이 절감되는 장점이 있다. 본 논문에서는 Dynamic Reliability Block Diagram과 이산 사건 시뮬레이션에 널리 사용되는 DEVS 형식론을 이용하는 신뢰도 분석 방법을 제안한다. 또한 시스템 모델링 방법론 중 하나인 System Entity Structure/Model Base의 개념을 도입함으로써 다양한 설계 대안에 대한 신뢰도 분석 모델을 자동으로 생성할 수 있도록 하였다. 그리고 Reliability Block Diagram을 이용한 신뢰도 분석 시 오래 소요되는 계산 시간을 단축시키기 위해 GPU 가속 기술을 신뢰도 분석 시뮬레이션에 접목하였다.

GPU 가속기를 통한 비트 연산 최적화 및 DNN 응용 (Bit Operation Optimization and DNN Application using GPU Acceleration)

  • 김상혁;이재흥
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1314-1320
    • /
    • 2019
  • 본 논문에서는 소프트웨어 환경에서 비트연산을 최적화 하고 DNN으로 응용하는 방법을 제안한다. 이를 위해 비트연산 최적화를 위한 패킹 함수와 DNN으로 응용을 위한 마스킹 행렬 곱 연산을 제안한다. 패킹 함수의 경우는 32bit의 실제 가중치값을 2bit로 변환하는 연산을 수행한다. 연산을 수행할 땐, 임계값 비교 연산을 통해 2bit 값으로 변환한다. 이 연산을 수행하면 4개의 32bit값이 1개의 8bit 메모리에 들어가게 된다. 마스킹 행렬 곱 연산의 경우 패킹된 가중치 값과 일반 입력 값을 곱하기 위한 특수한 연산으로 이루어져 있다. 그리고 각각의 연산은 GPU 가속기를 이용해 병렬로 처리되게 하였다. 그 결과 HandWritten 데이터 셋에 환경에서 32bit DNN 모델에 비해 약 16배의 메모리 절약을 볼 수 있었다. 그럼에도 정확도는 32bit 모델과 비슷한 1% 이내의 차이를 보였다.