목표지향적 강화학습 시스템

Goal-Directed Reinforcement Learning System

  • 이창훈 (한경대학교 컴퓨터공학과)
  • 투고 : 2010.10.08
  • 심사 : 2010.10.15
  • 발행 : 2010.10.31

초록

강화학습(reinforcement learning)은 동적 환경과 시행-착오를 통해 상호 작용하면서 학습을 수행한다. 그러므로 동적 환경에서 TD-학습과 TD(${\lambda}$)-학습과 같은 강화학습 방법들은 전통적인 통계적 학습 방법보다 더 빠르게 학습을 할 수 있다. 그러나 제안된 대부분의 강화학습 알고리즘들은 학습을 수행하는 에이전트(agent)가 목표 상태에 도달하였을 때만 강화 값(reinforcement value)이 주어지기 때문에 최적 해에 매우 늦게 수렴한다. 본 논문에서는 미로 환경(maze environment)에서 최단 경로를 빠르게 찾을 수 있는 강화학습 방법(GORLS : Goal-Directed Reinforcement Learning System)을 제안하였다. GDRLS 미로 환경에서 최단 경로가 될 수 있는 후보 상태들을 선택한다. 그리고 나서 최단 경로를 탐색하기 위해 후보 상태들을 학습한다. 실험을 통해, GDRLS는 미로 환경에서 TD-학습과 TD(${\lambda}$)-학습보다 더 빠르게 최단 경로를 탐색할 수 있음을 알 수 있다.

Reinforcement learning performs learning through interacting with trial-and-error in dynamic environment. Therefore, in dynamic environment, reinforcement learning method like TD-learning and TD(${\lambda}$)-learning are faster in learning than the conventional stochastic learning method. However, because many of the proposed reinforcement learning algorithms are given the reinforcement value only when the learning agent has reached its goal state, most of the reinforcement algorithms converge to the optimal solution too slowly. In this paper, we present GDRLS algorithm for finding the shortest path faster in a maze environment. GDRLS is select the candidate states that can guide the shortest path in maze environment, and learn only the candidate states to find the shortest path. Through experiments, we can see that GDRLS can search the shortest path faster than TD-learning and TD(${\lambda}$)-learning in maze environment.

키워드

참고문헌

  1. M .L. Minsky "Theory of Neural-Aanlog Reinforcement Systems and Application to the Brain-Model Problem", Ph.D. Thesis Princetion University, Princetion, 1954.
  2. D. P. Bertsekas, "Dynamic Programming and Optimal Control", Athena Scientific, Belmont, MA., 1995.
  3. M.H.Kalos and P. A. Whitlock, " Monte Carlo Methods", Wiley, NY., 1986.
  4. P. Dayan and G. E. Hinton, "Improving generalization for temporal difference learning : the successor representation", Neural Computation, 5, pp.613-624, 1993. https://doi.org/10.1162/neco.1993.5.4.613
  5. C. J. C. H. Watkins, "Learning from Delayed Rewards, Ph.D. Thesis, King's College, Cambride, U.K., 1989.
  6. R. S. Sutton, "Generalization in Reinforcement Learning : Successful examples using sparse coarse coding", Advances in Nural Information Processing Systems, 8, pp. 1038-1045, MIT Press, Cambridge MA, 1996.
  7. Abbott, R: Mad Mazes: Intriguing Mind Twisters for Puzzle Buffs, Game Nuts and Other Smart People. Adams Media, 1990
  8. S.P. Singh and R. S. Sutton, "Reinforcement learning with Replacing Eigibility Traces", Machine Learning, 22, pp. 123-158, 1996.