DOI QR코드

DOI QR Code

누리온 시스템에서의 All-Reduce 알고리즘 성능평가

Performance Evaluation of All-Reduce Algorithms on Nurion System

  • 명훈주 (한국과학기술정보연구원) ;
  • 정기문 (한국과학기술정보연구원)
  • Myung, Hunjoo (Korea Institute of Science and Technology Information) ;
  • Jeong, Kimoon (Korea Institute of Science and Technology Information)
  • 발행 : 2020.11.05

초록

GPU 기술과 빅데이터의 성장에 힘입어 최근 딥러닝 기술은 괄목할만한 성장을 이루었고, 구글, 페이스북, 우버 등의 빅데이터를 보유한 업체들과 슈퍼컴퓨팅분야에서는 이러한 빅데이터를 빠른 시간 안에 학습하기 위해 분산 딥러닝 기술을 연구해오고 있다. 이러한 대규모 분산 딥러닝에서는 집합 통신, IO 부하 등이 주요 병목으로 알려져 있다. 본 연구에서는 분산 딥러닝에서 시도되고 있는 주요 All-Reduce 알고리즘들에 대해 누리온 시스템에서 성능평가를 수행하였고, 512노드 이상의 대규모에서는 2D-torus 알고리즘이 우수한 성능을 보였다.

키워드