Solving POMDP problem using Self-organizing state RL

상태 조직화 강화학습을 사용한 POMDP 문제 해결

  • 이승준 (서울대학교 컴퓨터공학부) ;
  • 장병탁 (서울대학교 컴퓨터공학부)
  • Published : 2001.05.01

Abstract

본 논문에서는 부분적으로 관측 가능한 환경에서 사전의 모델 정보 없이 확률적인 행동 정책을 학습하는 상태 조직화 강화 학습 모델을 제안한다. 기존의 강화학습은 환경 모델을 사전에 필요로 하고 상태 전체의 관측이 필요하기 때문에 학습 이전에 문제에 대해 알아야 한다는 제약이 있다. 또한 작은 문제에 대해서는 잘 적용되지만 상태의 수가 매우 많고 부분적으로만 관측한 경우가 많은 실제 문제에는 그대로 적용하기가 불가능하다. 이러한 두 가지 단점을 해결하기 위해 본 논문에서는 사전의 모델 정보 없이 부분적인 관측값으로부터 상태와 행동 정책을 동시에 학습해 나가는 강화 학습 모델을 제안하고, 제안된 방법을 부분적으로만 관측이 가능한 미로 탐색 문제에 적용하였다.

Keywords