DOI QR코드

DOI QR Code

Multi-objective Genetic Algorithm for Variable Selection in Linear Regression Model and Application

선형회귀모델의 변수선택을 위한 다중목적 유전 알고리즘과 응용

  • 김동일 (고려대학교 정보경영공학부) ;
  • 박정술 (고려대학교 정보경영공학부) ;
  • 백준걸 (고려대학교 정보경영공학부) ;
  • 김성식 (고려대학교 정보경영공학부)
  • Received : 2009.09.11
  • Accepted : 2009.11.02
  • Published : 2009.12.30

Abstract

The purpose of this study is to implement variable selection algorithm which helps construct a reliable linear regression model. If we use all candidate variables to construct a linear regression model, the significance of the model will be decreased and it will cause 'Curse of Dimensionality'. And if the number of data is less than the number of variables (dimension), we cannot construct the regression model. Due to these problems, we consider the variable selection problem as a combinatorial optimization problem, and apply GA (Genetic Algorithm) to the problem. Typical measures of estimating statistical significance are $R^2$, F-value of regression model, t-value of regression coefficients, and standard error of estimates. We design GA to solve multi-objective functions, because statistical significance of model is not to be estimated by a single measure. We perform experiments using simulation data, designed to consider various kinds of situations. As a result, it shows better performance than LARS (Least Angle Regression) which is an algorithm to solve variable selection problems. We modify algorithm to solve portfolio selection problem which construct portfolio by selecting stocks. We conclude that the algorithm is able to solve real problems.

본 논문의 목적은 신뢰성 있는 선형회귀모델을 구축하기 위하여 후보독립변수 중 유효변수를 선택하는 알고리즘을 구현하는 것이다. 선형회귀모델을 구축하는데 있어서 데이터 상의 모든 후보독립변수를 포함하는 것은 모델의 통계적 유의성을 감소시킬 수 있으며, 차원의 저주(Curse of dimensionality)를 유발할 수 있고, 데이터의 개수보다 변수의 개수가 많을 경우 모델의 구축이 불가능한 문제점 등이 있다. 이와 같은 문제점을 해결하기 위하여 변수선택의 문제를 조합최적화의 문제로 보고 유전 알고리즘(Genetic Algorithm)을 활용하였다. 일반적으로 선형회귀모델의 통계적 유의성을 평가하는 대표적인 통계량으로는 종속변수에 대한 독립변수의 설명력을 나타내는 결정계수($R^2$), 회귀식의 통계적 유의성을 검정하는 F통계량, 회귀계수의 통계적 유의성을 검정하는 t통계량, 잔차의 표준오차 등이 있다. 모델의 통계적 유의성은 하나의 통계량으로 표현될 수 없으므로 다양한 기준을 고려한 다중목적식(Multi-objective function)을 가지는 유전 알고리즘을 설계하였다. 설계한 알고리즘의 성능평가를 위하여 다양한 조건을 가정한 시뮬레이션 데이터에 적용하였다. 그 결과 구축한 알고리즘이 유효변수를 판단함에 있어 기존의 대표적인 변수선택 알고리즘인 LARS(Least Angle Regression)에 비해 우수한 성능을 보임을 확인할 수 있었다. 또한, 주가 데이터를 이용한 포트폴리오 선택에 적용해 본 결과 우수한 응용문제 해결 능력이 있음을 확인할 수 있었다.

Keywords

References

  1. 김두섭, 강남중 (2008), 회귀분석 기초와 응용, 나남, 파주.
  2. 문병로 (2003), 유전 알고리즘, 두양사, 서울.
  3. 양경숙, 김미정 (2007), R을 활용한 회귀분석, 자유아카데미, 파주.
  4. 진강규 (2000), 유전알고리즘과 그 응용, 교우사, 서울.
  5. Beasley J.E., Chu P.C. (1996), A genetic algorithm for the set covering problem. European Journal of Operational Research, Vol. 94, pp. 392-404. https://doi.org/10.1016/0377-2217(95)00159-X
  6. Kalyanmoy Deb. (2001), Multi-objective optimization using evolutionary algorithms, John Wiley & Sons, Ltd.
  7. Efron, B and T. Hastie (2004), "Least Angle Regression", The Annals of Statistics, Vol. 32, No. 2, pp. 407-451. https://doi.org/10.1214/009053604000000067
  8. Fonseca, C. M., Fleming, P. J. (1993). Genetic algorithms for multiobjective optimization : formulation, discussion and generalization. Proceedings of the Fifth International Conference on Genetic Algorithms. Morgan-Kauffman, pp. 416-423.
  9. Furnival, G.M. and Wilson, R.W. (1974), "Regression by Leaps and Bounds", Technometrics, Vol. 16, No. 4, pp. 499-511. https://doi.org/10.2307/1267601
  10. Goldberg, D. E. (1989), Genetic Algorithms in Search, Optimization, and Machine Learning, Addison-Wesley Publishing Company, Inc.
  11. T. Hesterberg, N. H. Choi, L. Meier, and C. Fraley (2008), Least angle and $\ell$penalized regression : A review, Statistics Surveys, Vol. 2, pp. 61-93. https://doi.org/10.1214/08-SS035
  12. Isablle Guyon and Andre Elisseeff (2003), "An Introduction to Variable and Feature Selection", Journal of Machine Learning Research, Vol. 3, No. 10, pp. 1157-1182. https://doi.org/10.1162/153244303322753616
  13. Konno, H., Yamazaki, H. (1991), "Optimization Model and Its Application to Tokyo Stock Market", Management Science, Vol. 37, No. 5, pp. 519-531. https://doi.org/10.1287/mnsc.37.5.519
  14. Luenberger, D. G. 1998. Investment Science. Oxford Unversity Press, New York.
  15. Mallows, C. L. (2000), "Some Comments on CP", Technometrics, Vol. 42, No. 1, pp. 87-94. https://doi.org/10.2307/1271437
  16. Mitchell, T.M. (1997), Machine Learning, McGraw-Hill, Singapore.
  17. T. Murata, H. Ishibuchi (1995), "MOGA : Multi-Objective Genetic Algorithms", Proc. of 2nd IEEE-ICEC Conferenc, pp. 289-294.
  18. C.R. Reeves (1993), Modern Heuristic Techniques for Combinatorial Problems, Blackwell Scientific.
  19. J.D.Schaffer (1985), "Multiple objective optimization with vector evaluated genetic algorithms", the 1st International Conference on Genetic Algorithms, pp. 93-100.