VRIFA: LRBF 커널과 Nomogram을 이용한 예측 및 비선형 SVM 시각화도구

VRIFA: A Prediction and Nonlinear SVM Visualization Tool using LRBF kernel and Nomogram

  • 투고 : 2009.12.01
  • 심사 : 2010.01.20
  • 발행 : 2010.05.31

초록

예측 문제를 해결하기 위한 데이타마이닝 기법은 다양한 분야에서 주목받고 있다. 이것에 대한 한 예로 컴퓨터-기반의 질병의 예측 혹은 진단은 CDSS(Clinical Decision support System)에서 가장 중요한 요소이기도 하다. 이러한 예측 문제를 해결하기 위해서 RBF커널 같은 비선형 커널을 사용한 SVM이 가장 널리 사용되고 있는데, 이는 비선형 SVM이 어떠한 다른 분류기법보다 정확한 성능을 보이기 때문이다. 하지만 비선형 SVM을 사용한 경우에는 모델내부를 시각화하는 일이 어려워서 예측결과에 대한 직관적인 이해가 힘들고, 의학 전문가들은 이러한 비선형 SVM의 사용을 기피하고 있는 실정이다. Nomogram은 SVM을 시각화하기 위해 제안된 기법이다. 하지만 이는 선형 SVM의 경우에만 사용이 가능하고. 이 문제를 해결하기 위해서 LRBF 커널이 제안된 바 있다. LRBF 커널은 기존의 RBF 커널을 사용한 SVM과 대등한 결과를 보이면서도 예측결과의 선형적 분석도 가능하게 한다. 본 논문에서는 노모그램(Nomogram)과 LRBF 커널을 사용한 SVM이 통합되어 있는 예측 툴 VRIFA를 제안한다. 이 툴은 사용자와 상호작용하며 비선형 SVM 모델의 내부구조를 데이타의 각 속성별로 보여주는 방법으로 사용자가 예측결과를 직관적으로 이해하도록 도와준다. VRIFA는 Nomogram기반의 피쳐선택(feature selection) 기능도 포함하고 있는데, 이 기능은 예측결과에 부정적인 영향을 끼치거나 중복된 연관성을 보이는 속성을 제거함으로써 모델의 정확도를 높이는 데 기여한다. 그리고 데이터에 포함된 클래스의 비율이 한 쪽으로 치우쳐져 있는 경우에는 ROC 곡선 넓이(AUC)를 예측결과를 평가하기 위한 측도로 사용할 수 있다. 이 툴은 컴퓨터-기반의 질병 예측 혹은 질병의 위험 요소 분석에 대해 연구하는 연구자들에게 유용하게 사용될 것으로 전망하는 바이다.

Prediction problems are widely used in medical domains. For example, computer aided diagnosis or prognosis is a key component in a CDSS (Clinical Decision Support System). SVMs with nonlinear kernels like RBF kernels, have shown superior accuracy in prediction problems. However, they are not preferred by physicians for medical prediction problems because nonlinear SVMs are difficult to visualize, thus it is hard to provide intuitive interpretation of prediction results to physicians. Nomogram was proposed to visualize SVM classification models. However, it cannot visualize nonlinear SVM models. Localized Radial Basis Function (LRBF) was proposed which shows comparable accuracy as the RBF kernel while the LRBF kernel is easier to interpret since it can be linearly decomposed. This paper presents a new tool named VRIFA, which integrates the nomogram and LRBF kernel to provide users with an interactive visualization of nonlinear SVM models, VRIFA visualizes the internal structure of nonlinear SVM models showing the effect of each feature, the magnitude of the effect, and the change at the prediction output. VRIFA also performs nomogram-based feature selection while training a model in order to remove noise or redundant features and improve the prediction accuracy. The area under the ROC curve (AUC) can be used to evaluate the prediction result when the data set is highly imbalanced. The tool can be used by biomedical researchers for computer-aided diagnosis and risk factor analysis for diseases.

키워드

과제정보

연구 과제번호 : 구조형 웹 데이터 분석을 통한 커널 기반 실시간 추천 시스템 개발

참고문헌

  1. C. Cortes and V. Vapnik, "Support vector networks," Machine Learning, Vol.20, pp. 273-297, 1995.
  2. V. Vapnik, The Nature of Statistical Learning Theory, New York: Springer-Verlag, 1995.
  3. C. J. C. Burges, "A tutorial on support vector machines for pattern recognition," Data Mining Knowledge Discovery, Vol.2, pp. 121-167, 1998. https://doi.org/10.1023/A:1009715923555
  4. T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarski, M. Schummer, and D. Haussler, "Support vector machine classification and validation of cancer tissue samples using microarray expression data," Bioirformatics, Vol.16, pp. 906-914, 2000. https://doi.org/10.1093/bioinformatics/16.10.906
  5. C.-C. Chang and C.-J. Lin, "LIBSVM: A library for support vector machines [Online]," Available: http://www.csie.ntu.edu.tw/-cjlin/libsvm, 2001.
  6. I. Guyon, J. Weston, S. Barnhill, and V. Vapnik, "Gene selection for cancer classification using support vector machines," Machine Learning, Vol.46, pp. 389-422, 2002. https://doi.org/10.1023/A:1012487302797
  7. I. Guyon and A. Elisseeff, "An introduction to variable and feature selection," the Journal of Machine Learning Research, Vol.3, pp. 1157-1182, 2003.
  8. A. Jakulin, M. Mozina, J. Demsar, I. Bratko, and B. Zupan, "Nomograms for visualizing support vector machines," Knowledge Discouery and Data Mining, 2005.
  9. B. Cho, H. Yu, J. Lee, Y. Chee, and I. Kim, "Nonlinear support vector machine visualization for risk factor analysis using nomograms and localized radial basis function kernels," the Institute of Electrical and Electronics Engineers Transactions on Information Technology in Biomedicine, 2005.
  10. J. H. OH, J. Gao, A. nandi. P. Gurnani, L. Knowles, J. Schorge, and K. P. Rosenblatt. "Multicategory classification using extended SVM-RFE and markov blanket on SELDI-TOF mass spectrometry data," the Institute of Electrical and Electronics Engineers Symposium. Computational Intelligence in Bioinformatics and Computational Biology, 2005.
  11. K. Takeuchi and N. Collier, "Bio-medical entity extraction using support vector machines," Artificial Intelligence in Medicine, Vol.33, pp. 125-137, 2005. https://doi.org/10.1016/j.artmed.2004.07.019
  12. T.Arodz, M. Kurdziel, E. O. D. Sevre, and D. A. Yuen, "Pattern recognition techniques for automatic detection of suspicious-looking anomalies in mammograms," Computer Methods and Programs in Biomedicine, Vol.79, pp. 135-149, 2005. https://doi.org/10.1016/j.cmpb.2005.03.009
  13. G. Cohen, M. Hilario, H. Sax, S. Hugonnet, and A. Geissbuhler, "Learning from imbalanced data in surveillance of nosocomial infection," Artificial Intelligence in Medicine, Vol.37, pp. 7-18, 2006. https://doi.org/10.1016/j.artmed.2005.03.002
  14. M. E. Mavroforakix, H. V. Georgiou, N. Dimitropuoulox, D. Cavoura, and S. Theodoridis, "Mammographic masses characterization based on localized texture and dataset fractal analysis using linear, neural and support vector machine classifiers," Artificial Intelligence in Medicine, Vol.37, pp. 145-162, 2006. https://doi.org/10.1016/j.artmed.2006.03.002
  15. L. Ramirez, N. G. Durdle, V. J. Raso, and D. L. Hill, "A support vector machines classifier to assess the severity of idiopathic scoliosis from surface topology," the Institute of Electrical and Electronics Engineers Transactions on Information Technology in Biomedicine, Vol.10, No.1, pp. 84-91, 2006.