• 제목/요약/키워드: n-step Temporal-Difference Learning

검색결과 1건 처리시간 0.014초

멀티-스텝 누적 보상을 활용한 Max-Mean N-Step 시간차 학습 (Max-Mean N-step Temporal-Difference Learning Using Multi-Step Return)

  • 황규영;김주봉;허주성;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권5호
    • /
    • pp.155-162
    • /
    • 2021
  • n-스텝 시간차 학습은 몬테카를로 방법과 1-스텝 시간차 학습을 결합한 것으로, 적절한 n을 선택할 경우 몬테카를로 방법과 1-스텝 시간차 학습보다 성능이 좋은 알고리즘으로 알려져 있지만 최적의 n을 선택하는 것에 어려움이 있다. n-스텝 시간차 학습에서 n값 선택의 어려움을 해소하기 위해, 본 논문에서는 Q의 과대평가가 초기 학습의 성능을 높일 수 있다는 특징과 Q ≈ Q* 경우, 모든 n-스텝 누적 보상이 비슷한 값을 가진다는 성질을 이용하여 1 ≤ k ≤ n에 대한 모든 k-스텝 누적 보상의 최댓값과 평균으로 구성된 새로운 학습 타겟인 Ω-return을 제안한다. 마지막으로 OpenAI Gym의 Atari 게임 환경에서 n-스텝 시간차 학습과의 성능 비교 평가를 진행하여 본 논문에서 제안하는 알고리즘이 n-스텝 시간차 학습 알고리즘보다 성능이 우수하다는 것을 입증한다.