DOI QR코드

DOI QR Code

Efficient variable selection method using conditional mutual information

조건부 상호정보를 이용한 분류분석에서의 변수선택

  • Ahn, Chi Kyung (Department of Statistics, Sunkyunkwan University) ;
  • Kim, Donguk (Department of Statistics, Sunkyunkwan University)
  • 안치경 (성균관대학교 통계학과) ;
  • 김동욱 (성균관대학교 통계학과)
  • Received : 2014.07.15
  • Accepted : 2014.09.12
  • Published : 2014.09.30

Abstract

In this paper, we study efficient gene selection methods by using conditional mutual information. We suggest gene selection methods using conditional mutual information based on semiparametric methods utilizing multivariate normal distribution and Edgeworth approximation. We compare our suggested methods with other methods such as mutual information filter, SVM-RFE, Cai et al. (2009)'s gene selection (MIGS-original) in SVM classification. By these experiments, we show that gene selection methods using conditional mutual information based on semiparametric methods have better performance than mutual information filter. Furthermore, we show that they take far less computing time than Cai et al. (2009)'s gene selection but have similar performance.

상호정보 (mutual information)를 이용한 변수 선택법은 반응변수와 설명변수간의 선형적인 연관성뿐만 아니라 비선형적인 연관성을 감지하며, 설명변수 사이의 연관성도 고려하는 좋은 변수선택 방법이다. 하지만 고차원 자료에서 상호정보를 추정하기가 쉽지 않아 이에 대한 연구가 필요하다. Cai 등 (2009)은 조건부 상호정보를 이용한 전진선택법과 가지치기법을 이용하여 이러한 문제를 해결하였으며, 마이크로어레이 자료와 같은 고차원 자료에서 조건부 상호정보를 이용한 변수 선택법으로 선택된 변수들로 구성된 SVM의 분류 성능이 SVM-RFE 및 기존의 필터링 방법으로 선택된 변수들로 구성된 SVM의 분류 성능보다 뛰어남을 보였다. 하지만 조건부 상호정보를 추정할 때 사용된 Parzen window 방법은 변수의 수가 많아질수록 변수 선택 시간이 길어지는 단점으로 인해 이에 대한 보완이 필요하다. 본 논문에서는 조건부 상호정보 계산 시 필요한 설명변수의 분포를 다변량 정규분포로 가정함으로써 변수선택을 위한 계산시간을 단축시키며 동시에 변수선택의 성능을 향상시키고자 한다. 반면, 설명변수의 분포를 다변량 정규분포로 가정한다는 것은 강한 제약이 될 수 있으므로 이를 완화시킨 Edgeworth 근사를 이용한 조건부 상호정보 기반의 변수 선택법을 제안한다. 실증분석을 통해 본 논문에서 제안한 방법의 효율성을 살펴보았으며, 기존의 조건부 상호정보 기반 변수 선택법에 비해 계산 속도나 분류 성능 면에서 우수함을 보였다.

References

  1. Cai, R., Hao, Z., Yang, X. and Wen, W. (2009). An efficient gene selection algorithm based on mutual information. Neurocomputing, 72, 991-999. https://doi.org/10.1016/j.neucom.2008.04.005
  2. Chang, C. F., Wai, K. M. and Patterton, H. G. (2004). Calculating the statistical significance of physical clusters of co-regulated genes in the genome: The role of chromatin in domain-wide gene regulation. Nucleic Acids, 32, 1798-1807. https://doi.org/10.1093/nar/gkh507
  3. Cover, T. M. and Thomas, J. A. (2006). Elements of information theory, 2nd Ed., Wiley, New York.
  4. Efron, B. and Tibshirani, R. (1997). Improvements on cross-validation; The bootstrap method. Journal of the American Statistical Association, 92, 548-560.
  5. Fleuret, F. (2004). Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research, 5, 1531-1555.
  6. Golub, T. R., Slonim, T. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. H., Downing, J. R., Caligiuri, M. A., Bloomeld, C. D. and Lander, E. S. (1999). Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, 286, 531-537. https://doi.org/10.1126/science.286.5439.531
  7. Grad, H. (1949). Note on n-dimensional Hermite polynomials. Communications on Pure and Applied Mathematics, 3, 325-330.
  8. Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, 1157-1182.
  9. Guyon, I., Weston, J., Barnhill, S. and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine Learning, 46, 389-422. https://doi.org/10.1023/A:1012487302797
  10. Hulle, M. M. A. (2005). Edgeworth approximation of multivariate differential entropy. Neural Computation, 17, 1903-1910. https://doi.org/10.1162/0899766054323026
  11. Kwak, N. and Choi, C. H. (2002). Input feature selection by mutual information based on parzen window. Pattern Analysis and Machine Intelligence, 24, 1667-1671. https://doi.org/10.1109/TPAMI.2002.1114861
  12. Maz'ya, V. and Schmidt, G. (1996). On approximate approximations using Gaussian kernels. IMA Journal of Numerical Analysis, 16, 13-29. https://doi.org/10.1093/imanum/16.1.13
  13. McCullagh, P. (1987). Tensor methods in statistics, Chapman & Hall, London.
  14. Silverman, B. W. (1992). Density estimation for statistics and data analysis, Chapman & Hall, London.
  15. Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to ionizing radiation response. PNAS, 98, 5116-5121. https://doi.org/10.1073/pnas.091062498
  16. Withers, C. S. (2000). A simple expression for the multivariate Hermite polynomials. Statistics & Probability Letters, 47, 165-169. https://doi.org/10.1016/S0167-7152(99)00153-4