PIM 아키텍처를 위한 GEMM 최적화 기법 탐구: UPMEM 사례 연구

Exploring GEMM Optimization Techniques for PIM Architecture: A Case Study on UPMEM

  • 이찬 (연세대학교 전기전자공학과 통합과정) ;
  • 최희림 (연세대학교 전기전자공학과 통합과정) ;
  • 김한준 (연세대학교 전기전자공학부)
  • Chan Lee (Dept. of Electrical Electronic Engineering, Yonsei University) ;
  • Heelim Choi (Dept. of Electrical Electronic Engineering, Yonsei University) ;
  • Hanjun Kim (Dept. of Electrical Electronic Engineering, Yonsei University)
  • 발행 : 2024.05.23

초록

이 연구는 PIM(Processing-in-Memory) 아키텍처를 활용하여 General Matrix Multiplication(GEMM)의 최적화 기법을 UPMEM PIM 을 통해 탐구한다. 본 연구는 CPU 에서 경험하는 메모리 대역폭의 제한을 극복하고 병렬 처리 구조를 활용함으로써 GEMM 연산에서 PIM 의 잠재적 이점을 확인한다. 또한 연속된 세 개의 행렬 곱셈에 대한 효율성을 평가하고, 데이터 전송 시간이 성능 최적화의 주요병목 현상으로 작용하는 것을 확인한다. CPU 에서 UPMEM 커널로 전송되는 데이터의 양을 한 번에 늘리면서 전송 횟수를 줄이는 방법을 사용하여 CPU 에 비해 성능을 최대 6.57 배 향상시켰다.

키워드

참고문헌

  1. J. Gomez-Luna, et al., "Benchmarking a new paradigm: An experimental analysis of a real processing-in-memory architecture." IEEE Access, vol. 10, pp. 52565-52608, 2022.
  2. J. Gomez-Luna, et al., "An experimental evaluation of machine learning training on a real processing-in-memory system." arXiv preprint arXiv:2207.07886, 2023
  3. F. Devaux, "The true Processing In Memory accelerator" in HCS, 2019.
  4. Sukhan, Lee, et al., "Hardware Architecture and Software Stack for PIM Based on Commercial DRAM Technology." in ISCA, 2021.
  5. UPMEM. (2021). UPMEM Software Development Kit (SDK). URL: https://sdk.upmem.com/2021.3.0/.