DOI QR코드

DOI QR Code

Comparative Analysis of Multi-Agent Reinforcement Learning Algorithms Based on Q-Value

상태 행동 가치 기반 다중 에이전트 강화학습 알고리즘들의 비교 분석 실험

  • Kim, Ju-Bong (Future Convergence Engineering/Advanced Technology Research Center Korea University of Technology and Education) ;
  • Choi, Ho-Bin (Future Convergence Engineering/Advanced Technology Research Center Korea University of Technology and Education) ;
  • Han, Youn-Hee (Future Convergence Engineering/Advanced Technology Research Center Korea University of Technology and Education)
  • 김주봉 (한국기술교육대학교 미래융합공학전공/첨단기술연구소) ;
  • 최호빈 (한국기술교육대학교 미래융합공학전공/첨단기술연구소) ;
  • 한연희 (한국기술교육대학교 미래융합공학전공/첨단기술연구소)
  • Published : 2021.05.12

Abstract

시뮬레이션을 비롯한 많은 다중 에이전트 환경에서는 중앙 집중 훈련 및 분산 수행(centralized training with decentralized execution; CTDE) 방식이 활용되고 있다. CTDE 방식 하에서 중앙 집중 훈련 및 분산 수행 환경에서의 다중 에이전트 학습을 위한 상태 행동 가치 기반(state-action value; Q-value) 다중 에이전트 알고리즘들에 대한 많은 연구가 이루어졌다. 이러한 알고리즘들은 Independent Q-learning (IQL)이라는 강력한 벤치 마크 알고리즘에서 파생되어 다중 에이전트의 공동의 상태 행동 가치의 분해(Decomposition) 문제에 대해 집중적으로 연구되었다. 본 논문에서는 앞선 연구들에 관한 알고리즘들에 대한 분석과 실용적이고 일반적인 도메인에서의 실험 분석을 통해 검증한다.

Keywords

Acknowledgement

이 논문은 2020년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업 (No. NRF-2020R1I1A3065610) 이며, 또한 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임 (No. 2018R1A6A1A03025526).