DOI QR코드

DOI QR Code

Energy Efficient Mixed Precision FPGA Design for Online Adaptation in Deep Reinforcement Learning

선택적 정밀도를 활용한 FPGA 기반 온라인 심층 강화학습 가속기

  • Received : 2024.11.29
  • Accepted : 2024.12.30
  • Published : 2024.12.31

Abstract

Deep Reinforcement Learning (DRL) has demonstrated human-level performance in sequential decision-making tasks and enables edge devices to adapt autonomously to unknown environments. However, implementing DRL adaptation remains challenging due to its massive data interactions and extensive DNN computations. Existing FPGA-based DRL accelerators focus solely on computation acceleration, leading to prolonged adaptation times. This paper proposes an energy-efficient FPGA accelerator tailored for fast online DRL adaptation, leveraging three key innovations: 1) A Heterogeneous Replay Buffer (HRB) that reduces training iterations by up to 90%, 2) Mixed-Precision Selective Re-Training (MP-SELRET) that decreases computations by 12% while replacing 27.2% of 32-bit floating-point operations with 16-bit fixed-point operations, 3) A Mixed-Precision Heterogeneous Architecture (MPHA) that maximizes resource utilization and boosts throughput by 39.8%. The proposed accelerator significantly enhances the efficiency and speed of DRL adaptation, addressing the limitations of traditional scratch trainingmethods.

심층 강화학습(Deep Reinforcement Learning, DRL)은 순차적 의사결정 문제에서 인간 수준의 성능을 발휘하며, 엣지 디바이스가 알 수 없는 환경에 스스로 적응할 수 있는 능력을 제공한다. 그러나 대규모 데이터 처리와 방대한 DNN 연산량 요구로 인해 DRL 의 적응 구현은 여전히 어려운 과제다. 기존의 FPGA 기반 DRL 가속기는 계산 가속화에만 초점을 맞춘 탓에 적응 시간이 길어지는 한계를 가진다. 본 논문에서는 빠른 온라인 DRL 적용을 실현하기 위해 에너지 효율적인 FPGA 가속기를 제안한다. 제안된 가속기는 다음과 같은 핵심 기술을 통해 기존 한계를 극복한다: 1) 학습 반복 횟수를 최대 90%까지 줄이는 이기종 리플레이 버퍼(HRB), 2) 계산량을 12% 줄이고, 32 비트 부동소수점 연산의 27.2%를 16 비트 고정소수점 연산으로 대체하는 혼합 정밀도를 적용한 선택적 재학습(MP-SELRET), 3)FPGA 자원의 활용도를 극대화하며 처리량을 39.8% 향상시키는 혼합 정밀도 이기종 아키텍처(MPHA).

Keywords

Acknowledgement

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능반도체고급인재양성사업 연구 결과로 수행되었음(IITP-2024-RS-2023-00256472)