• 제목/요약/키워드: GPU optimization

검색결과 70건 처리시간 0.03초

WASM을 활용한 디바이스 및 엣지 클라우드 기반 Federated Learning의 최적화 방안 (Optimization Strategies for Federated Learning Using WASM on Device and Edge Cloud)

  • 최종석
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.213-220
    • /
    • 2024
  • 본 논문에서는 WebAssembly(WASM)를 활용하여 디바이스와 엣지 클라우드 간의 Federated Learning을 수행하는 최적화 전략을 제안한다. 제안된 전략은 일부 학습을 디바이스에서 수행하고, 나머지 학습을 엣지 클라우드에서 수행하여 효율성을 극대화하는 것을 목표로 한다. 특히, GPU 메모리 세그먼트 간 데이터 이동과 연산 작업의 중첩을 최적화하여 전체 학습 시간을 줄이고 GPU 사용률을 향상시키는 방법을 수학적으로 설명하고 평가한다. 다양한 실험 시나리오를 통해 비동기 데이터 전송과 연산 중첩이 학습 시간을 단축하고 GPU 사용률을 향상시키며, 모델 정확도를 증가시킴을 확인하였다. 모든 최적화 기법을 적용한 시나리오에서 학습 시간이 47% 단축되었고, GPU 사용률은 91.2%로 향상 되었으며, 모델 정확도는 89.5%로 증가함을 확인하여 비동기 데이터 전송과 연산 중첩이 데이터 전송을 기다리는 GPU 유휴 시간을 줄이고, 병목 현상을 완화할 수 있음을 확인하였다. 본 연구는 향후 Federated Learning 시스템의 성능 최적화에 기여할 수 있을 것으로 사료된다.

안드로이드 폰에서의 모바일 GPU 성능 분석 및 최적화 (Performance Analysis and Optimization of mobile GPU in Android Phone)

  • 조창우;;김신덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2013년도 제48차 하계학술발표논문집 21권2호
    • /
    • pp.1-4
    • /
    • 2013
  • 본 논문에서는 최신 안드로이드 기반 상용 스마트폰의 모바일 GPU 성능 향상을 위한 방법론을 제안한다. 동일 하드웨어를 가지고 스마트폰을 개발하더라도 제조사의 역량에 따라 소프트웨어 최적화의 정도가 달라서 그래픽 성능 차이가 날 수 있다. 그러므로 우리는 시스템 소프트웨어 레벨에서 그래픽 품질에 아무런 영향을 주지 않고 성능 향상을 이끌어낼 수 있는 기법에 대해 소개한다. 이를 위해 A사, B사 안드로이드 스마트폰을 대상으로 안드로이드 커널에 따른 분석을 수행하였고, GPU 디바이스 드라이버에 따른 분석을 수행하였으며, 마지막으로 타사 휴대폰과의 성능 비교를 통해 이 결과를 비교 분석하였다. 결과적으로 GPU 디바이스 드라이버 변경과 안드로이드 커널 변경을 시도함으로써 B사 대비 68%의 성능을 보인 A사 스마트폰의 성능을 96%까지 향상시킬 수 있었다.

  • PDF

CUDA를 이용한 Particle Swarm Optimization 구현 (Implementation of Particle Swarm Optimization Method Using CUDA)

  • 김조환;김은수;김종욱
    • 전기학회논문지
    • /
    • 제58권5호
    • /
    • pp.1019-1024
    • /
    • 2009
  • In this paper, particle swarm optimization(PSO) is newly implemented by CUDA(Compute Unified Device Architecture) and is applied to function optimization with several benchmark functions. CUDA is not CPU but GPU(Graphic Processing Unit) that resolves complex computing problems using parallel processing capacities. In addition, CUDA helps one to develop GPU softwares conveniently. Compared with the optimization result of PSO executed on a general CPU, CUDA saves about 38% of PSO running time as average, which implies that CUDA is a promising frame for real-time optimization and control.

QoS를 고려한 스마트폰 GPU의 에너지 최적화 기법 (A QoS-Aware Energy Optimization Technique for Smartphone GPUs)

  • 김도한;송욱;김형훈;김지홍
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.566-572
    • /
    • 2015
  • 모바일 GPU의 소비 전력이 전체 시스템 소모 전력에서 큰 비중을 차지하게 됨에 따라 스마트폰에서 중요한 전력 관리 대상 중 하나로 대두되었다. 그러나 모바일 GPU로써 널리 사용되는 ARM Mali-400MP의 장치 드라이버를 분석한 결과, 전력 관리 기법으로 사용되는 장치 사용률 기반 DVFS 알고리즘이 부하가 요구하는 성능보다 높은 주파수로 GPU를 동작하게 하여 비효율적인 전력 에너지 소모가 발생하였다. 따라서 본 논문은 장치 사용률뿐만 아니라 스마트폰 응용의 서비스 품질 요소로써 초 당 프레임 수와 배터리 시간을 함께 고려하여 기존 DVFS에서 발생한 비효율적인 주파수 상승을 방지할 수 있는 전력 에너지 최적화 기법을 제안한다. 제안한 에너지 최적화 기법을 적용하면 성능저하 없이 기존 장치 사용률 기반의 DVFS 대비 최대 23%의 에너지 이득을 보였으며, 배터리 시간 연장을 위하여 최대 10%의 성능 하락을 허용한 경우, 최대 33%의 에너지 효율 향상이 가능하였다.

3차원 삼각형 메쉬의 과장을 안정적으로 표현할 수 있는 필터링과 GPU 최적화 (Filtering and GPU Optimization to Reliably Express the Exaggeration of 3D Triangular Meshes)

  • 이수빈;문성혁;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.349-352
    • /
    • 2023
  • 본 논문에서는 법선벡터를 이용해 3D 삼각형 메쉬의 형태를 안정적으로 과장하고 GPU 기반으로 새롭게 설계하는 프레임워크를 제안한다. 우리는 High-boost 메쉬 필터링 알고리즘에서의 Aliasing 문제를 양방향 필터를 적용하여 노이지를 제거하고, GPU 기반에서 설계해 고속화한다.

  • PDF

CUDA GPGPU 상에서 경량 블록 암호 PIPO의 최적 구현 (Optimal Implementation of Lightweight Block Cipher PIPO on CUDA GPGPU)

  • 김현준;엄시우;서화정
    • 정보보호학회논문지
    • /
    • 제32권6호
    • /
    • pp.1035-1043
    • /
    • 2022
  • 사물인터넷(IoT), 클라우드 컴퓨팅, 빅데이터 등의 확산으로 애플리케이션에 대한 고속 암호화의 필요성이 대두되고 있다. GPU 최적화는 GPU가 이론적으로 얻은 암호 분석 결과 또는 축소된 버전을 합리적인 시간에 검증하는데 사용될 수 있다. 본 논문에서는 다양한 환경에서 구현되고 있는 PIPO 경량암호를 대상으로 GPU 상에서 구현하였다. PIPO에 대한 무차별 대입 공격을 고려하여 최적 구현하였다. 특히 비트 슬라이싱 기법을 적용한 최적화 구현과 GPU 요소를 최대한 사용하였다. 결과적으로 제안 기법의 구현은 RTX 3060 환경에서 초당 약 195억의 처리량을 보여 이전 연구 보다 약 122배 높은 처리량을 달성하였다.

CUDA를 이용한 웹캠 영상의 색상 형식 변환 최적화 (Optimization of Color Format Conversion of WebCam Images Using the CUDA)

  • 김진우;정윤혜;박진홍;박용진;한탁돈
    • 한국게임학회 논문지
    • /
    • 제11권1호
    • /
    • pp.147-157
    • /
    • 2011
  • 웹캠은 영상 데이터의 전송시간을 줄이기 위해 메모리 정렬은 고려하지 않는다. 메모리 정렬이 되지 않은 영상 데이터는 GPU에서 처리하기 부적합하며 고속의 영상처리를 위해서는 GPU에서 메모리 최적화가 가능한 색상 형식으로 변환되어야 한다. 본 논문은 웹캠 영상의 색상 형식 변환을 NVIDIA CUDA를 이용하여 가속하는 최적화 기법을 제안한다. 메모리 접근과 쓰레드 구성에 대한 최적화를 진행하였고, 제안하는 구조의 성능 측정과 최적화 정도를 분석하기 위해 GPU 메모리와 연산의 성능을 제한하여 실험하였다. 그 결과 최적화 방법에 따라 최대 68% 이상 성능이 향상됐다.

Heterogeneous 멀티 코어 환경의 Thick Client에서 VDI 성능 최적화를 위한 혼합 병렬 처리 기법 연구 (VDI Performance Optimization with Hybrid Parallel Processing in Thick Client System under Heterogeneous Multi-Core Environment)

  • 김명섭;허의남
    • 한국통신학회논문지
    • /
    • 제38B권3호
    • /
    • pp.163-171
    • /
    • 2013
  • 최근 HD급 동영상이나 3D 어플리케이션과 같은 이전보다 저사양, 모바일 단말에서는 구동하기 힘든 프로그램들에 대한 이용 요구가 확대되면서 처리해야 할 콘텐츠 데이터들이 고용량화 되고 있다. 클라우드 기반의 VDI(Virtual Desktop Infrastructure) 서비스는 이를 처리하기 위해 효율적인 데이터 처리 능력이 필요해졌으며 QoE(Quality of Experience) 보장을 위한 성능 개선 연구가 이슈가 되고 있다. 본 논문에서는 H/W 성능이 향상되어 CPU와 GPU를 탑재한 Thick Client기반의 3가지 Thick-Thin간 VDI 자원 공유 및 위임이 가능한 VDI 서비스에 대해 제안하며, VDI 서비스 성능의 개선을 위해 CPU와 GPU가 혼합된 Heterogeneous 멀티코어 환경에서 CPU와 GPU 병렬 처리 기법인 OpenMP와 CUDA를 활용하여 VDI 서비스 최적화 방안을 제안하고 기존의 VDI와 비교한 성능을 거론한다.

GPU의 병렬 처리 기능을 이용한 PSO(Particle Swarm Optimization) 알고리듬 구현 (Implementation of PSO(Particle Swarm Optimization) Algorithm using Parallel Processing of GPU)

  • 김은수;김조환;김종욱
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 학술대회 논문집 정보 및 제어부문
    • /
    • pp.181-182
    • /
    • 2008
  • 본 논문에서는 연산 최적화 알고리듬 중 PSO(Particle Swarm Optimization) 알고리듬을 NVIDIA사(社)에서 제공한 CUDA(Compute Unified Device Architecture)를 이용하여 새롭게 구현하였다. CUDA는 CPU가 아닌 GPU(Graphic Processing Unit)의 다양한 병렬 처리 능력을 사용해 복잡한 컴퓨팅 문제를 해결하는 소프트웨어 개발을 가능케 하는 기술이다. 이 기술을 연산 최적화 알고리듬 중 PSO에 적용함으로써 알고리듬의 수행 속도를 개선하였다. CUDA를 적용한 PSO 알고리듬의 검증을 위해 언어 기반으로 프로그래밍하고 다양한 Test Function을 통해 시뮬레이션 하였다. 그리고 기존의 PSO 알고리듬과 비교 분석하였다. 또한 알고리듬의 성능 향상으로 여러 가지 최적화 분야에 적용 할 수 있음을 보인다.

  • PDF

병렬 Shifted Sort 알고리즘의 Warp 단위 CUDA 구현 최적화 (Optimization of Warp-wide CUDA Implementation for Parallel Shifted Sort Algorithm)

  • 박태정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권4호
    • /
    • pp.739-745
    • /
    • 2017
  • 본 논문에서는 GPU 병렬 처리 하드웨어 아키텍처 내 최소 물리적 스레드 실행 단위(warp) 내에서 shifted sort 기반 k개 최근접 이웃 검색 기법을 구현하는 방법을 논의하고 일반적으로 동일한 목적으로 널리 사용되는 GPU 기반 kd-tree 및 CPU 기반 ANN 라이브러리와 비교한 결과를 제시한다. 또한 많은 애플리케이션에서 k가 비교적 작은 값이 필요한 경우가 많다는 사실을 고려해서 k가 warp 내부에서 직접 처리 가능한 2, 4, 8, 16개일 때 최적화에 집중한다. 구현 세부에서는 사용한 CUB 공개 라이브러리의 루프 내 메모리 관리 방법, GPU 하드웨어 직접 명령 적용 방법 등의 최적화 방법을 논의한다. 실험 결과, 제안하는 방법은 기존의 GPU 기반 유사 방법에 비해 데이터 지점과 질의 지점의 개수가 각각 $2^{23}$개 일 때 16배 이상의 빠른 처리 속도를 보였으며 이러한 경향은 처리해야 할 데이터의 크기가 커지면 더욱 더 커지는 것으로 판단된다.