DOI QR코드

DOI QR Code

2-stage 마르코프 의사결정 상황에서 Successor Representation 기반 강화학습 알고리즘 성능 평가

Evaluating a successor representation-based reinforcement learning algorithm in the 2-stage Markov decision task

  • 김소현 (상명대학교 지능정보공학과) ;
  • 이지항 (상명대학교 지능정보공학과)
  • Kim, So-Hyeon (Department of AI & Informatics, Sangmyung University) ;
  • Lee, Jee Hang (Department of AI & Informatics, Sangmyung University)
  • 발행 : 2021.11.04

초록

Successor representation (SR) 은 두뇌 내 해마의 공간 세포가 인지맵을 구성하여 환경을 학습하고, 이를 활용하여 변화하는 환경에서 유연하게 최적 전략을 수립하는 기전을 모사한 강화학습 방법이다. 특히, 학습한 환경 정보를 활용, 환경 구조 안에서 목표가 변화할 때 강인하게 대응하여 일반 model-free 강화학습에 비해 빠르게 보상 변화에 적응하고 최적 전략을 찾는 것으로 알려져 있다. 본 논문에서는 SR 기반 강화학습 알고리즘이 보상의 변화와 더불어 환경 구조, 특히 환경의 상태 천이 확률이 변화하여 보상의 변화를 유발하는 상황에서 어떠한 성능을 보이는 지 확인하였다. 벤치마크 알고리즘으로 SR 의 특성을 목적 기반 강화학습으로 통합한 SR-Dyna 를 사용하였고, 환경 상태 천이 불확실성과 보상 변화가 동시에 나타나는 2-stage 마르코프 의사결정 과제를 실험 환경으로 사용하였다. 시뮬레이션 결과, SR-Dyna 는 환경 내 상태 천이 확률 변화에 따른 보상 변화에는 적절히 대응하지 못하는 결과를 보였다. 본 결과를 통해 두뇌의 강화학습과 알고리즘 강화학습의 차이를 이해하여, 환경 변화에 강인한 강화학습 알고리즘 설계를 기대할 수 있다.

키워드

과제정보

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. 2020R1G1A1102683). 본 연구는 삼성미래기술육성센터의 지원을 받아 수행하였음 (No. SRFC-TC1603-52). 본 결과물은 교육부와 한국연구재단의 재원으로 지원을 받아 수행된 사회맞춤형 산학협력 선도대학(LINC+) 육성사업의 연구결과임.