DOI QR코드

DOI QR Code

Analysis of cycle racing ranking using statistical prediction models

통계적 예측모형을 활용한 경륜 경기 순위 분석

  • Park, Gahee (Department of Statistics, Ewha Womans University) ;
  • Park, Rira (Department of Statistics, Ewha Womans University) ;
  • Song, Jongwoo (Department of Statistics, Ewha Womans University)
  • 박가희 (이화여자대학교 통계학과) ;
  • 박리라 (이화여자대학교 통계학과) ;
  • 송종우 (이화여자대학교 통계학과)
  • Received : 2016.09.07
  • Accepted : 2016.10.26
  • Published : 2017.02.28

Abstract

Over 5 million people participate in cycle racing betting and its revenue is more than 2 trillion won. This study predicts the ranking of cycle racing using various statistical analyses and identifies important variables which have influence on ranking. We propose competitive ranking prediction models using various classification and regression methods. Our model can predict rankings with low misclassification rates most of the time. We found that the ranking increases as the grade of a racer decreases and as overall scores increase. Inversely, we can observe that the ranking decreases when the grade of a racer increases, race number four is given, and the ranking of the last race of a racer decreases. We also found that prediction accuracy can be improved when we use centered data per race instead of raw data. However, the real profit from the future data was not high when we applied our prediction model because our model can predict only low-return events well.

최근 경륜은 2015년도 기준, 5백만 명 이상의 많은 사람들이 참여하고 2조를 넘어선 매출을 발생시키는 대중적인 레저스포츠로서 자리 잡고 있다. 본 연구의 목적은 다양한 통계적 분석기법을 사용하여 경륜경기의 순위를 예측하고, 순위에 유의한 영향을 미치는 변수들을 파악하는 데에 있다. 다양한 Classification 방법과 Regression 방법들을 적용하여 순위예측모형을 만들고 비교분석하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면, 등급이 강급될수록, 종합득점이 높을수록 순위가 높아지며 반대로 등급이 승급될수록, 번호 4번을 부여받을수록 그리고 최근성적의 순위가 낮을수록 순위가 낮아지는 것을 알 수 있었다. 또한, 선수의 실력과 관련된 연속형 변수들을 각 경기별로 평균값을 빼서 보정한 자료와 원자료를 사용하여 모형을 적합시킨 결과 모든 모형에서 보정된 자료를 사용하였을 때 더 낮은 오분류율을 보였다. 마지막으로 분석에 사용하지 않은 최근 한 달 경기결과를 예측해서 베팅했을 때 모든 경우에 예측률은 높았지만 큰 이익을 거두지 못했는데 그 이유는 낮은 배당률을 가진 경기의 결과만을 잘 예측했기 때문이다.

Keywords

References

  1. Breiman, L. (2001). Random forests, Machine Learning, 45, 5-32. https://doi.org/10.1023/A:1010933404324
  2. Cho, H. C., Kang, S. K., and Kim, J. K. (2008). Relationship of lower extremity factors, 200m record and Wingate anaerobic power in racing and competitive cyclists, Korean Journal of Sport Science, 19, 9-20. https://doi.org/10.24985/kjss.2008.19.1.9
  3. Choe, H., Hwang, N., Hwang, C., and Song, J. (2015). Analysis of horse races : prediction of winning horses in horse races using statistical models, Korean Journal of Applied Statistics, 28, 1133-1146. https://doi.org/10.5351/KJAS.2015.28.6.1133
  4. Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning; Data Mining, Inference and Prediction, Springer, New York.
  5. Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: biased estimation for nonorthogonal problems, Technometrics, 12, 55-67. https://doi.org/10.1080/00401706.1970.10488634
  6. Kim, B. S. and Kim, J. S. (2007). Relationship between customer satisfaction and patterns of ticket purchase of cycle racing customers, Journal of Sport and Leisure Studies, 30, 203-211.
  7. Park, C., Kim, Y., Kim, J., Song, J., and Choi, H. (2011). Datamining using R, Kyowoo, Seoul.
  8. Ridgeway, G. (2006). Generalized boosted models: a guide to the gbm package, Available from: http://cran.r-project.org/web/packages/gbm
  9. Tibshirani, R. (1996). Regression shrinkage and selection via the LASSO, Journal of the Royal Statistical Society Series B (Methodological), 58, 267-288.