• 제목/요약/키워드: Partial Observable Markov Devision Process

검색결과 1건 처리시간 0.015초

상태 조직화 강화학습을 사용한 POMDP 문제 해결 (Solving POMDP problem using Self-organizing state RL)

  • 이승준;장병탁
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.73-77
    • /
    • 2001
  • 본 논문에서는 부분적으로 관측 가능한 환경에서 사전의 모델 정보 없이 확률적인 행동 정책을 학습하는 상태 조직화 강화 학습 모델을 제안한다. 기존의 강화학습은 환경 모델을 사전에 필요로 하고 상태 전체의 관측이 필요하기 때문에 학습 이전에 문제에 대해 알아야 한다는 제약이 있다. 또한 작은 문제에 대해서는 잘 적용되지만 상태의 수가 매우 많고 부분적으로만 관측한 경우가 많은 실제 문제에는 그대로 적용하기가 불가능하다. 이러한 두 가지 단점을 해결하기 위해 본 논문에서는 사전의 모델 정보 없이 부분적인 관측값으로부터 상태와 행동 정책을 동시에 학습해 나가는 강화 학습 모델을 제안하고, 제안된 방법을 부분적으로만 관측이 가능한 미로 탐색 문제에 적용하였다.

  • PDF