DOI QR코드

DOI QR Code

선택적 정밀도를 활용한 FPGA 기반 온라인 심층 강화학습 가속기

Energy Efficient Mixed Precision FPGA Design for Online Adaptation in Deep Reinforcement Learning

  • 투고 : 2024.11.29
  • 심사 : 2024.12.30
  • 발행 : 2024.12.31

초록

심층 강화학습(Deep Reinforcement Learning, DRL)은 순차적 의사결정 문제에서 인간 수준의 성능을 발휘하며, 엣지 디바이스가 알 수 없는 환경에 스스로 적응할 수 있는 능력을 제공한다. 그러나 대규모 데이터 처리와 방대한 DNN 연산량 요구로 인해 DRL 의 적응 구현은 여전히 어려운 과제다. 기존의 FPGA 기반 DRL 가속기는 계산 가속화에만 초점을 맞춘 탓에 적응 시간이 길어지는 한계를 가진다. 본 논문에서는 빠른 온라인 DRL 적용을 실현하기 위해 에너지 효율적인 FPGA 가속기를 제안한다. 제안된 가속기는 다음과 같은 핵심 기술을 통해 기존 한계를 극복한다: 1) 학습 반복 횟수를 최대 90%까지 줄이는 이기종 리플레이 버퍼(HRB), 2) 계산량을 12% 줄이고, 32 비트 부동소수점 연산의 27.2%를 16 비트 고정소수점 연산으로 대체하는 혼합 정밀도를 적용한 선택적 재학습(MP-SELRET), 3)FPGA 자원의 활용도를 극대화하며 처리량을 39.8% 향상시키는 혼합 정밀도 이기종 아키텍처(MPHA).

Deep Reinforcement Learning (DRL) has demonstrated human-level performance in sequential decision-making tasks and enables edge devices to adapt autonomously to unknown environments. However, implementing DRL adaptation remains challenging due to its massive data interactions and extensive DNN computations. Existing FPGA-based DRL accelerators focus solely on computation acceleration, leading to prolonged adaptation times. This paper proposes an energy-efficient FPGA accelerator tailored for fast online DRL adaptation, leveraging three key innovations: 1) A Heterogeneous Replay Buffer (HRB) that reduces training iterations by up to 90%, 2) Mixed-Precision Selective Re-Training (MP-SELRET) that decreases computations by 12% while replacing 27.2% of 32-bit floating-point operations with 16-bit fixed-point operations, 3) A Mixed-Precision Heterogeneous Architecture (MPHA) that maximizes resource utilization and boosts throughput by 39.8%. The proposed accelerator significantly enhances the efficiency and speed of DRL adaptation, addressing the limitations of traditional scratch trainingmethods.

키워드

과제정보

본 연구는 과학기술정보통신부 및 정보통신기획평가원의 인공지능반도체고급인재양성사업 연구 결과로 수행되었음(IITP-2024-RS-2023-00256472)