DOI QR코드

DOI QR Code

Analysis of Horse Races: Prediction of Winning Horses in Horse Races Using Statistical Models

서울 경마 경기 우승마 예측 모형 연구

  • 최혜민 (이화여자대학교 통계학과) ;
  • 황나영 (이화여자대학교 통계학과) ;
  • 황찬경 (이화여자대학교 통계학과) ;
  • 송종우 (이화여자대학교 통계학과)
  • Received : 2015.09.14
  • Accepted : 2015.10.19
  • Published : 2015.12.31

Abstract

The Horse race industry has the largest proportion of the domestic legal gambling industry. However, there is limited statistical analysis on horse races versus other sports. We propose prediction models for winning horses in horse races using data mining techniques such as logistic regression, linear regression, and random forest. Horse races data are from the Korea Racing Authority and we use horse racing reports, information of racehorses, jockeys, and horse trainers. We consider two models based on ranks and time records. The analysis results show that prediction of ranks is affected by information on racehorses, number of wins of racehorses and jockeys. We place wagers for the last month of races based on our prediction models that produce serious profits.

경마 산업은 국내 합법 사행산업의 대부분을 차지하고 있다. 그러나 사행성 도박이라는 인식 하에 여타 스포츠 산업에 비해 활발한 통계적 분석이 이루어지지 않고 있다. 본 연구의 목적은 다양한 데이터마이닝 기법을 이용하여 우승마를 예측하는 모형 개발에 있다. 모형 적합에 사용한 데이터는 한국 마사회에서 제공하는 자료를 바탕으로 하였으며, 경마 성적표, 경주마 정보, 기수 정보, 조교사 정보 등을 사용하였다. 예측 모형은 크게 두 모형으로 나누어 순위를 기반으로 한 모형과 기록을 기반으로 한 모형으로 적합하였고, 분석 방법으로는 선형회귀분석, 랜덤 포레스트, 로지스틱 회귀 분석을 사용하였다. 그 결과 말 기본 정보와 과거 우승 경력, 기수의 과거 우승 경력 등이 순위 예측에 큰 영향을 미치는 것을 알 수 있었다. 모형 적합에 사용되지 않은 최근 1개월 간 데이터를 이용하여 단승식, 복승식, 삼복승식으로 배팅한 결과 모형 간 큰 차이가 없었고, 모두 양의 수익을 얻을 수 있었다.

Keywords

References

  1. Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
  2. Hastie, T. J. and Pregibon, D. (1992). Generalized Linear Models, Chapter 6 of Statistical Models in S eds J. M. Chambers and T. J. Hastie, Wadsworth & Brooks/Cole.
  3. McCullagh, P. and Nelder, J. A. (1989). Generalized Linear Models, 37, CRC press.
  4. Park, C., Kim, Y., Kim, J., Song, J. and Choi, H. (2011). Datamining using R, Kyowoo, Seoul.
  5. R Development Core Team (2010). R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, ISBN 3-900051-07-0. http://www.R-project.org
  6. Statistics Korea e-National indicators (2015). http://www.index.go.kr/potal/main/EachDtlPageDetail.do?idxcd=1662
  7. The Korea Racing Authority (2014). http://www.kra.co.kr/main.do
  8. The National Gambling Control Commission (2015). http://static.ngcc.go.kr/user/index.jsp
  9. The National Gambling Control Commission (2014). http://www.ngcc.go.kr/Board/ReadView.do?idx=pds&page=1&no=9346
  10. Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S, Springer, New York.
  11. Yoo, S. and Park, H. (2000). The horse race winning probability via logistic regression, Korean Journal of Applied Statistics, 13, 35-44.