Acrobot 제어를 위한 강화학습에서의 연속적인 행위 선택 알고리즘의 개발

Development of reinforcement learning algorithm with countinuous action selection for acrobot

  • 서승환 (한양대학교 전자전기제어계측공학과) ;
  • 장시영 (한양대학교 전자전기제어계측공학과) ;
  • 서일홍 (한양대학교 전자전기제어계측공학과)
  • Seo, Sung-Hwan (School of Electrical Engineering and Computer Science, Hanyang Univ.) ;
  • Jang, Si-Young (School of Electrical Engineering and Computer Science, Hanyang Univ.) ;
  • Suh, Il-Hong (School of Electrical Engineering and Computer Science, Hanyang Univ.)
  • 발행 : 2003.07.21

초록

Acrobat은 대표석인 비선형, underactuated 시스템이며, acrobot의 제어목적에는 swing-up 제어와 balancing 제어가 있다. 이 두 가지 제어목적을 달성하기 위해 기존에 많은 연구가 진행되었다. 그러나 이 방법들은 두 개의 독립적인 제어기를 acrobot의 상태에 따라 전환하여 사용하는 방법으로서 전환 시점의 선정기준에 대한 어려움과 두 가지 제어목적의 달성을 위한 전체 학습 시간지연의 문제점이 있다. 이를 개선하기 위하여 우리는 acrobot의 두 가지 제어목적을 동시에 해결할 수 있도록 기존에 연구하였던 연속적인 상태공간의 근사화가 가능한 영역기반 Q-학습(Region-based Q-Learning)[11]을 기반으로 한 하나의 제어기로 구현하는 방법을 연구하였다. 제안한 방법을 제작한 acrobot에 적용한 실험을 통하여 그 유용성을 검증하였다.

키워드