다종 형태 데이터를 위한 요소선택 방법

Feature Selection for Mixed Type of Data

  • 양재경 (전북대학교 산업정보시스템공학과) ;
  • 이태한 (전북대학교 산업정보시스템공학과)
  • Yang, Jae-Kyung (Dept. of Industrial and Information Systems Eng, Chonbuk National University) ;
  • Lee, Tae-Han (Dept. of Industrial and Information Systems Eng, Chonbuk National University)
  • 투고 : 2009.12.28
  • 심사 : 2010.01.27
  • 발행 : 2010.03.31

초록

데이터마이닝의 사전 단계에서 데이터의 차원(Dimensionality)을 줄이기 위한 단계로서 많은 요소선택(Feature Selection) 방법들이 개발되었다. 이 방법은 결과를 예측하거나 데이터를 설명하고자 할 때 어떤 요소들이 관련이 있는지를 결정하는 과정을 포함한다. 또한 이 방법은 데이터의 크기에 대한 확장성 (Scalability)를 향상시키며 학습 모델을 더욱 이해하기 쉽도록 줄 수 있다. 이 논문에서는 NP(Nested Partition) 방법을 사용한 최적화 기반의 새로운 요소선택 방법을 NP 구조의 기본적인 이론 근거와 함께 제안한다. 또 한 편으로 많은 요소선택 방법들이 다중 형태의 데이터를 처리하는데 한계를 가지고 있는데, NP 기반의 요소선택 방법에 다중 형태의 데이터를 처리할 수 있도록 하는 요소 성능 평가도구(Evaluators)를 도입하여 이를 극복하고자 한다. 또한 어떤 평가도구가 특정 데이터 형태에서 더욱 좋은 결과를 보이는지를 실험 결과와 함께 제시하였다.

키워드

참고문헌

  1. Blake, C. L and Merz, C. J.; UCI Repository of machine learning databases , University of California, Irvine, CA, 2006.
  2. Bradley, P. S., Mangasarian, O. L, and Street, W. N.; "Feature selection via mathematical programming," INFORMS Journal on Computing, 10(2) : 209-217, 1998. https://doi.org/10.1287/ijoc.10.2.209
  3. Clark, G., Sengupta, S., Aimonentti, W. D., Roeske, F., and Donetti, J. G.; Multispectral image feature selection for land mine detection, IEEE Transactions on Geoscience and remote sensing," 38(1) : 304-311,2000. https://doi.org/10.1109/36.823923
  4. Evgeniou, T., Pontil, M., Papageorgiou, C., and Poggio, T.; "Image representations and feature selection for multimedia database search," IEEE Transactions on Knowledge and Data Engineering, 15(4) : 911-920, 2003. https://doi.org/10.1109/TKDE.2003.1209008
  5. Hall, M. A.; "Correlation-based feature selection for discrete and numeric class machine learning, in Proceedings of the Seventeenth International Conference on Machine Leaming," Stanford University, CA. Morgan Kaufmann, 1998.
  6. Kim, Y, S., Street, W. N., and Menczer, F.; "Feature slection in unsupervised learning via evolutionary search," in Proceedings of the 6th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, 2000.
  7. Kira, K. and Rendell, L.; "A practical approach to feature selection, in Proceedings of International Conference on Machine Learning," ICML-92 : 249-256, 1992.
  8. Kononenko, I.; "Estimating features: analysis and extensions of RELIEF," in Proc. European Conf. on Machine Learning, 1994.
  9. Liu, H. and Motoda, H.; "Feature Extraction, Construction and Selection; A Data Mining Perspective," Kluwer Academic Publishers, 1998.
  10. Narendra, P. M. and Fukunaga, K.; "A branch and bound algorithm for feature subset selection," IEEE Transactions on Computers, 26(9) : 917-922, 1977.
  11. Olafsson, S. and Yang, J.; "Intelligent partitioning for feature selection," INFORMS Journal on Computing, 17(3) : 339-355, 2005. https://doi.org/10.1287/ijoc.1040.0104