Development of Variable Selection Technique using Stepwise Regression and Data Envelopment Analysis

단계적 회귀법과 자료봉합분석을 이용한 변수선택기법의 개발

  • 정민의 (한국해양대학교 해운경영학과) ;
  • 유성진 (한국해양대학교 해운경영학과)
  • Received : 2014.04.22
  • Accepted : 2014.06.10
  • Published : 2014.08.15

Abstract

In this paper, we develop stepwise regression data envelopment model to select important variables. We formulate null hypothesis to understand the importance of each variable and use Kruskal-Wallis test for this purpose. If the Kruskal-Wallis test does reject the null hypothesis this will imply there is significant fluctuation in the efficiency score relative to base model. And therefore we have to further check the pair of variables that causes the fluctuation in order to determine its importance using Conover-Inman test. The proposed models helps understand the extent of misclassification decision making units as efficient/inefficient when variables are retained or discarded alongside provides useful managerial prescription to make improvement strategies.

본 연구는 주요변수를 선정하는 기법을 개발하기 위해서 단계적 회귀와 변수들의 효율성을 평가하기 위해 사용되는 자료봉합분석을 결합한 새로운 방법을 제안하였다. 이를 위해서 먼저 단계적 회귀를 이용하여 중요 변수들을 일차적으로 선정하고, 선정된 각 변수들의 중요도를 이해하기 위해 귀무가설을 세웠고, 중요 변수를 선택하기 위해 Kruskal-Wallis 검정을 사용했다. 또한 해당되는 변수를 Conover-Inman 검정을 사용하여 변동이 발생하는 각 변수들의 우선순위를 결정하였다. 따라서 그 결과, 많은 변수들과 DEA(Data Envelopment Analysis)의 한계를 극복하기 위해 원래 계획된 변수들 중 기준에 의해 원래 유지된 변수와 높은 연관성을 가진 변수들을 남기는 방식으로 변수를 선정하는 기법을 개발한 Jenkins의 기존연구에서는 I2, I4, I5, I6 변수가 누락되었고 I1, I3 변수만이 DEA에 사용되었지만, 본 논문에서 제안된 모델의 효율성 결과로는 I2와 I4 변수를 각각 유지하였다. 본 연구는 다른 문헌에서 단계적 변수의 선택을 보여주기 위해 같은 데이터 집합을 사용하였는데, 여기서 Jenkins의 연구와 같이 변수 I6과 I1, I2를 삭제하였고, I3, I4, I5는 유지하였다. 결론적으로 단계적 회귀 DEA 모델을 사용하여 긴 계산적 절차 없이 변수 선택이 가능함을 발견했으며 기존 연구의 데이터를 적용하여 제안된 모델을 검증하였다. 개발한 DEA모델 결과는 상호 변수에 따라 포함되거나 생략할 수 있기 때문에 실제 현실 상황에서의 지식과 경영적 판단에 매우 유용할 것이다.

Keywords

Acknowledgement

Supported by : 한국연구재단

References

  1. Chong, I., Jun, C, 2005, "Performance of some variable selection methods when multicollinearity is present," Chemometrics and intellegent laboratory systems 78, pp.103-112. https://doi.org/10.1016/j.chemolab.2004.12.011
  2. Jenkins, L., Anderson, M, 2003, "A multivariate statistical approach to reducing the number of variables in data envelopment analysis," European Journal of Operational Research, 147, pp.51-61. https://doi.org/10.1016/S0377-2217(02)00243-6
  3. Chun Han Cho, Seung Ho Ahn, Byung Moo Park, Seung Min Lim, 2012, "Estimate and Forecast Air Freight Rates Using Stepwise Regression," Korea Research Academy of Distribution and Management, vol.15, no.2, pp.17-26.
  4. Gwang Sic Sim, Jae Yun Kim, 2012, "The Development of the DEA-AR Model using Multiple Regression Analysis and Efficiency Evaluation of Regional Corporation in Korea," Journal of the Korean Operations Research and Management Science Society, vol.37, no.1, pp.29-43. https://doi.org/10.7737/JKORMS.2012.37.1.029
  5. Lutjohann, H, 1970, "The stepwise regression algorithm seen from the statician's point of view," Metrika, vol.15, no.1, pp.110-125. https://doi.org/10.1007/BF02613564
  6. Conover, W.J, 1999, "Practical Nonparametric Statistics, John Wiley"
  7. Ragsdale, C.T, 2004, "Spreadsheet Modeling and Decision Analysis," South-Wester, Mason.
  8. Wagner, J.M., Shimshak, D, 2007, "Stepwise selection of variables in data envelopment analysis: procedures and managerial perspectives," European Journal of Operational Research, 180, pp.57-67. https://doi.org/10.1016/j.ejor.2006.02.048