Abstract
Automatic stock trading systems should be able to solve various kinds of optimization problems such as market trend prediction, stock selection, and trading strategies, in a unified framework. But most of the previous trading systems based on supervised learning have a limit in the ultimate performance, because they are not mainly concerned in the integration of those subproblems. This paper proposes a stock trading system, called R-Trader, based on reinforcement teaming, regarding the process of stock price changes as Markov decision process (MDP). Reinforcement learning is suitable for Joint optimization of predictions and trading strategies. R-Trader adopts two popular reinforcement learning algorithms, temporal-difference (TD) and Q, for selecting stocks and optimizing other trading parameters respectively. Technical analysis is also adopted to devise the input features of the system and value functions are approximated by feedforward neural networks. Experimental results on the Korea stock market show that the proposed system outperforms the market average and also a simple trading system trained by supervised learning both in profit and risk management.
자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.