강화 학습에 의한 로봇축구 에이전트 행동 전략

Behavior Strategies of Robot Soccer Agent by Reinforcement Learning

  • 최소라 (경희대학교 컴퓨터공학과) ;
  • 이승관 (가톨릭대학교 컴퓨터정보공학부) ;
  • 이영아 (용인송담대학 컴퓨터게임정보과) ;
  • 정태충 (경희대학교 컴퓨터공학과)
  • Choe, So-Ra (Dept. of Computer Engineering, KyungHee University) ;
  • Lee, Seung-Gwan (School of computer science & Information Engineering, Catholic University) ;
  • Lee, Young-Ah (Dept. of Computer Game & Infomation, YongIn SongDam Collage) ;
  • Chung, Tae-Choong (Dept. of Computer Engineering, KyungHee University)
  • 발행 : 2005.11.18

초록

강화 학습이란 개체가 동적인 환경에서 시행착오를 통해 자신의 최적 행동을 찾아내는 기법이다. 특히 Q-learning과 같은 비(非)모델 기반의 강화학습은 사전에 환경에 대한 모델을 필요로 하지 않으며, 다양한 상태와 행동들을 충분히 경험한다면 최적의 행동 전략에 도달할 수 있으므로 여러 분야에 적용되고 있다. 본 논문에서는 로봇의 행동을 효율적으로 제어하기 위하여 Q-learning을 이용하였다. 로봇 축구 시스템은 공과 여러 대의 로봇이 시시각각 움직이는 시변 환경이므로 모델링이 상당히 복잡하다. 공을 골대 가까이 보내는 것이 로봇 축구의 목표지만 때로는 공을 무조건 골대 방향으로 보내는 것보다 더 효율적인 전략이 있을 수도 있다. 어떤 상황에서 어떤 행동을 하여야 장기적으로 보았을 때 더 우수한지 학습을 통해 로봇 스스로가 판단해가도록 시스템을 구현하고, 학습된 결과를 분석한다.

키워드