고비용 활성화 함수의 효율적 GPU 추론을 위한 사전 계산 및 룩업 테이블 최적화

Lookup Table Optimization for Efficient GPU Inference of High-Cost Activation Functions

  • 김재민 (한양대학교 인공지능학과) ;
  • 김성균 (한양대학교 컴퓨터소프트웨어학과) ;
  • 서지원 (한양대학교 컴퓨터소프트웨어학과)
  • Jaemin Kim (Dept. of Artificial Intelligence, Hanyang University) ;
  • Sungkyun Kim (Dept. of Computer Science, Hanyang University) ;
  • Jiwon Seo (Dept. of Computer Science, Hanyang University)
  • 발행 : 2024.10.31

초록

본 연구에서는 대규모 언어 모델(LLM)에서 GeLU 와 SiLU 활성화 함수의 높은 연산 비용을 해결하기 위해 룩업 테이블(LUT) 기반 최적화 기법을 제안하였다. BERT, GPT2, OLMo 모델을 대상으로 실험을 수행하였으며, 특히 OpenAI GeLU 를 사용하는 GPT2 모델에서 최대 9 배의 성능 개선을 확인하였다. 또한, 배치 크기 변화에 따른 성능 분석 결과, GPT2 는 배치 크기가 클수록 더 큰 성능 향상을 보였고, BERT 와 OLMo 는 상대적으로 낮은 개선율을 나타냈다. 최적화 기법을 통해 각 활성화 함수의 연산 시간을 크게 줄이면서도 오차율을 낮게 유지할 수 있었다.

키워드

과제정보

이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (IITP-2024-2021-0-01817, No.RS-2020-II201373, 인공지능대학원지원(한양대학교))

참고문헌

  1. Hendrycks, Dan, and Kevin Gimpel. "Gaussian error linear units (gelus)." arXiv preprint arXiv:1606.08415 (2016).
  2. Elfwing, Stefan, Eiji Uchibe, and Kenji Doya. "Sigmoid-weighted linear units for neural network function approximation in reinforcement learning." Neural networks 107 (2018): 3-11.
  3. Devlin, Jacob. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
  4. Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
  5. Groeneveld, Dirk, et al. "Olmo: Accelerating the science of language models. arXiv preprint, 2024." URL https://api.semanticscholar.org/CorpusID267365485.