Journal of Korea Multimedia Society (한국멀티미디어학회논문지)
- Volume 9 Issue 5
- /
- Pages.649-657
- /
- 2006
- /
- 1229-7771(pISSN)
- /
- 2384-0102(eISSN)
Q-learning Using Influence Map
영향력 분포도를 이용한 Q-학습
- Published : 2006.05.01
Abstract
Reinforcement Learning is a computational approach to learning whereby an agent take an action which maximize the total amount of reward it receives among possible actions within current state when interacting with a uncertain environment. Q-learning, one of the most active algorithm in Reinforcement Learning, is consist of rewards which is obtained when an agent take an action. But it has the problem with mapping real world to discrete states. When state spaces are very large, Q-learning suffers from time for learning. In constant, when the state space is reduced, many state spaces map to single state space. Because an agent only learns single action within many states, an agent takes an action monotonously. In this paper, to reduce time for learning and complement simple action, we propose the Q-learning using influence map(QIM). By using influence map and adjacent state space's learning result, an agent could choose proper action within uncertain state where an agent does not learn. When this paper compares simulation results of QIM and Q-learning, we show that QIM effects as same as Q-learning even thought QIM uses 4.6% of the Q-learning's state spaces. This is because QIM learns faster than Q-learning about 2.77 times and the state spaces which is needed to learn is reduced, so the occurred problem is complemented by the influence map.
강화학습이란 환경에 대한 정보가 주어지지 않았을 때 현재의 상태에서 가능한 행동들을 취한 후 얻어지는 보상값이 가장 큰 행동을 최적의 행동 전략으로 학습하는 것이다. 강화학습에서 가장 많이 사용하는 Q-학습은 환경의 특정 상태에서 가능한 행동 중에 하나를 선택해서 취한 행동으로 얻어지는 보상값으로 구성되는데 실세계 상태를 이산값으로 표현하기에는 많은 어려움이 있다. 상태를 많이 정의하면 그만큼 학습에 필요한 시간이 많아지게 되고 반대로 상태 공간을 줄이면 다양한 환경상태를 한 개의 환경상태로 인지를 하고 그 환경에 맞는 한 가지의 행동만 취하도록 학습하기 때문에 행동이 단순해진다. 본 논문에서는 학습 시간을 단축하기 위해 상태 공간을 줄이는 데서 발생하는 행동의 단순화의 단점을 보완하기 위한 방법으로 영향력 분포도를 이용한 Q-학습 방법을 제안한다. 즉, 영향력 분포도와 인접한 학습 결과를 이용해서 학습하지 못한 중간 상태에 적합한 행동을 취하게 하여 동일한 상태 개수에 대해서 학습 시간을 단축하는 것이다. 동일한 학습 시간 동안에 일반적인 강화학습 방법으로 학습한 에이전트와 영향력 분포도와 강화학습을 이용해서 학습한 에이전트의 성능을 비교해 보았을 때 영향력 분포도와 강화학습을 이용해서 학습한 에이전트가 단지 일반적인 강화학습에 필요한 상태공간의 4.6%만 정의를 하고도 성능 면에서는 거의 비슷한 효과를 볼 수가 있음을 확인하였다. 이는 영향력 분포도와 강화학습을 이용한 학습이 일반적인 강화학습에 비해서 학습 속도가 2.77배정도 빨리 이루어지고 실제 학습해야 할 상태 공간의 개수가 적어져서 발생되는 문제를 영향력 분포도를 이용해서 보완을 하기 때문이다.