DOI QR코드

DOI QR Code

Evaluating SR-Based Reinforcement Learning Algorithm Under the Highly Uncertain Decision Task

불확실성이 높은 의사결정 환경에서 SR 기반 강화학습 알고리즘의 성능 분석

  • 김소현 (상명대학교 지능정보공학과) ;
  • 이지항 (상명대학교 휴먼지능정보공학과)
  • Received : 2021.12.30
  • Accepted : 2022.02.22
  • Published : 2022.08.31

Abstract

Successor representation (SR) is a model of human reinforcement learning (RL) mimicking the underlying mechanism of hippocampal cells constructing cognitive maps. SR utilizes these learned features to adaptively respond to the frequent reward changes. In this paper, we evaluated the performance of SR under the context where changes in latent variables of environments trigger the reward structure changes. For a benchmark test, we adopted SR-Dyna, an integration of SR into goal-driven Dyna RL algorithm in the 2-stage Markov Decision Task (MDT) in which we can intentionally manipulate the latent variables - state transition uncertainty and goal-condition. To precisely investigate the characteristics of SR, we conducted the experiments while controlling each latent variable that affects the changes in reward structure. Evaluation results showed that SR-Dyna could learn to respond to the reward changes in relation to the changes in latent variables, but could not learn rapidly in that situation. This brings about the necessity to build more robust RL models that can rapidly learn to respond to the frequent changes in the environment in which latent variables and reward structure change at the same time.

차기 상태 천이 표상(Successor representation, SR) 기반 강화학습 알고리즘은 두뇌에서 발현되는 신경과학적 기전을 바탕으로 발전해온 강화학습 모델이다. 해마에서 형성되는 인지맵 기반의 환경 구조 정보를 활용하여, 변화하는 환경에서도 빠르고 유연하게 학습하고 의사결정 가능한 자연 지능 모사형 강화학습 방법으로, 불확실한 보상 구조 변화에 대해 빠르게 학습하고 적응하는 강인한 성능을 보이는 것으로 잘 알려져 있다. 본 논문에서는 표면적인 보상 구조가 변화하는 환경뿐만 아니라, 상태 천이 확률과 같은 환경 구조 내 잠재 변수가 보상 구조 변화를 유발하는 상황에서도 SR-기반 강화학습 알고리즘이 강인하게 반응하고 학습할 수 있는지 확인하고자 한다. 성능 확인을 위해, 상태 천이에 대한 불확실성과 이로 인한 보상 구조 변화가 동시에 나타나는 2단계 마르코프 의사결정 환경에서, 목적 기반 강화학습 알고리즘에 SR을 융합한 SR-다이나 강화학습 에이전트 시뮬레이션을 수행하였다. 더불어, SR의 특성을 보다 잘 관찰하기 위해 환경을 변화시키는 잠재 변수들을 순차적으로 제어하면서 기존의 환경과 비교하여 추가적인 실험을 실시하였다. 실험 결과, SR-다이나는 환경 내 상태 천이 확률 변화에 따른 보상 변화를 제한적으로 학습하는 행동을 보였다. 다만 기존 환경에서의 실험 결과와 비교했을 때, SR-다이나는 잠재 변수 변화로 인한 보상 구조 변화를 빠르게 학습하지는 못하는 것으로 확인 되었다. 본 결과를 통해 환경 구조가 빠르게 변화하는 환경에서도 강인하게 동작할 수 있는 SR-기반 강화학습 에이전트 설계를 기대한다.

Keywords

Acknowledgement

이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2020R1G1A1102683). 본 연구는 삼성미래기술육성센터의 지원을 받아 수행하였음(No. SRFC-TC1603-52).

References

  1. R. S. Sutton and A. G. Barto, "Reinforcement learning: An introduction," MIT press, 2018.
  2. D. Silver, et al., "Mastering the game of go with deep neural networks and tree search," Nature, Vol.529, No.7587, pp.484-489, 2016. https://doi.org/10.1038/nature16961
  3. D. Silver, et al., "Mastering the game of go without human knowledge," Nature, Vol.550, No.7676, pp.354-359, 2017. https://doi.org/10.1038/nature24270
  4. J. Schrittwieser, et al., "Mastering atari, go, chess and shogi by planning with a learned model," Nature, Vol.588, No.7839, pp.604-609, 2020. https://doi.org/10.1038/s41586-020-03051-4
  5. J. H. Lee, B. Seymour, J. Z. Leibo, S. J. Lee, and S. W. Lee, "Toward high-performance, memory-efficient, and fast reinforcement learning-Lessons from decision neuro-science," Science Robotics, Vol.4, No.26, pp.eaav2975, 2019.
  6. S. W. Lee, S. Shimojo, and J. P. O'Doherty, "Neural computations underlying arbitration between model-based and model-free learning," Neuron, Vol.81, No.3, pp.687-699, 2014. https://doi.org/10.1016/j.neuron.2013.11.028
  7. J. P. O'Doherty, S. W. Lee, and D. McNamee, "The structure of reinforcement-learning mechanisms in the human brain," Current Opinion in Behavioral Sciences, Vol.1, pp.94-100, 2014.
  8. J. X. Wang, et al., "Prefrontal cortex as a meta-reinforcement learning system," Nature Neuroscience, Vol.21, No.6, pp.860-868, 2018. https://doi.org/10.1038/s41593-018-0147-8
  9. W. Dabney, G. Ostrovski, D. Silver, and R.Munos, "Implicit quantile networks for distributional reinforcement learning," In: International Conference on Machine Learning, PMLR, pp.1096-1105, 2018.
  10. D. Hassabis, D. Kumaran, C. Summerfield, and M.Botvinick, "Neuroscience-inspired artificial intelligence," Neuron, Vol.95, No.2, pp.245-258, 2017. https://doi.org/10.1016/j.neuron.2017.06.011
  11. S.-H. Kim, and J. H. Lee, "Evaluating a successor representation-based reinforcement learning algorithm in the 2-stage Markov decision task," In: Proceedings of the Korea Information Processing Society Conference, Korea Information Processing Society, pp.910-913, 2021.
  12. K. L. Stachenfeld, M. M. Botvinick, and S. J. Gershman, "The hippocampus as a predictive map," Nature Neuroscience, Vol.20, No.11, pp.1643-1653, 2017. https://doi.org/10.1038/nn.4650
  13. R. S. Sutton, "Learning to predict by the methods of temporal differences," Machine Learning, Vol.3, No.1, pp.9-44, 1988. https://doi.org/10.1007/BF00115009
  14. S. J. Gershman, "The successor representation: Its computational logic and neural substrates," Journal of Neuro-scence, Vol.38, No.33, pp.7193-7200, 2018. https://doi.org/10.1523/JNEUROSCI.0151-18.2018
  15. I. Momennejad, E. M. Russek, J. H. Cheong, M. M. Botvinick, N. D. Daw, and S. J. Gershman, "The successor representation in human reinforcement learning," Nature Human Behaviour, Vol.1, No.9, pp.680-692, 2017. https://doi.org/10.1038/s41562-017-0180-8
  16. E. M. Russek, I. Momennejad, M. M. Botvinick, S. J. Gershman, and N. D. Daw, "Predictive representations can link model-based reinforcement learning to model-free mechanisms," PLoS Computational Biology, Vol.13, No.9, pp.e1005768, 2017.
  17. E. C. Tolman, "Cognitive maps in rats and men," Psychological Review, Vol.55, No.4, pp.189, 1948.
  18. R. S. Sutton, "Dyna, an integrated architecture for learning, planning, and reacting," ACM Sigart Bulletin, Vol.2, No.4, pp.160-163, 1991. https://doi.org/10.1145/122344.122377
  19. J. X. Wang, et al., "Learning to reinforcement learn," arXiv preprint arXiv:1611.05763, 2016.
  20. G. Farquhar, et al., "Self-Consistent Models and Values," Advances in Neural Information Processing Systems, Vol.34, pp.1111-1125, 2021