감독 지식을 융합하는 강화 학습 기법들에 대한 비교 연구

A Comparison Study on Reinforcement Learning Method that Combines Supervised Knowledge

  • 김성완 (서강대학교 컴퓨터공학과) ;
  • 장형수 (서강대학교 컴퓨터공학과)
  • Kim, S.W. (Department of Compute Science and Engineering, Sogang University) ;
  • Chang, H.S. (Department of Compute Science and Engineering, Sogang University)
  • 발행 : 2007.06.25

초록

최근에 제안된 감독 지식을 융합하는 강화 학습 기법인 potential-based RL 기법의 효용성은 이론적 최적 정책으로의 수렴성 보장으로 증명되었고, policy-reuse RL 기법의 우수성은 감독지식을 융합하지 않는 기존의 강화학습과 실험적인 비교를 통하여 증명되었지만, policy-reuse RL 기법을 potential-based RL 기법과 비교한 연구는 아직까지 제시된 바가 없었다. 본 논문에서는 potential-based RL 기법과 policy-reuse RL 기법의 실험적인 성능 비교를 통하여 기법이 policy-reuse RL 기법이 policy-reuse RL 기법에 비하여 더 빠르게 수렴한다는 것을 보이며, 또한 policy-reuse RL 기법의 성능은 재사용하는 정책의 optimality에 영향을 받는다는 것을 보인다.

키워드