특징 래핑을 통한 숫자형 특징과 범주형 특징이 혼합된 데이터의 클래스 분류 성능 향상 기법

Improving Classification Performance for Data with Numeric and Categorical Attributes Using Feature Wrapping

  • 발행 : 2009.12.15

초록

본 논문에서는 혼합형 데이터에 대한 특징 선별 기법의 효율성을 비교하기 위해 특징 필터링과 특징 래핑을 통한 특징 선별 후, 클래스 분류 성능을 측정하였다. 혼합형 데이터는 숫자형 특징과 범주형 특징이 함께 혼합되어 있으므로, 숫자형 특징을 범주형 특징으로 이산화를 하여 단일형 데이터로 변환한 뒤 특징 선별 기법 등을 적용할 수 있다. 본 연구에서는 혼합형 데이터를 전처리하여 단일형 데이터로 변환하고, 널리 활용되는 특징 필터링 기법과 특징 래핑 기법을 통해 클래스 분류 성능을 높일 수 있는 특징 집합을 선별하였다. 선별된 특징 집합을 통한 클래스 분류 성능을 비교한 결과, 특징 필터링에 비해 특징 래핑을 통해 선별한 특징 집합을 활용하여 클래스 분류를 하였을 때 분류 정확도가 높은 것을 확인할 수 있었다.

In this letter, we evaluate the classification performance of mixed numeric and categorical data for comparing the efficiency of feature filtering and feature wrapping. Because the mixed data is composed of numeric and categorical features, the feature selection method was applied to data set after discretizing the numeric features in the given data set. In this study, we choose the feature subset for improving the classification performance of the data set after preprocessing. The experimental result of comparing the classification performance show that the feature wrapping method is more reliable than feature filtering method in the aspect of classification accuracy.

키워드

참고문헌

  1. K. Cios and G. W. Moore, 'Uniqueness of Medical Data Mining,' Artificial Intelligence in Medicine journal, vol.26, no.1, pp.1-24, Sep, 2002 https://doi.org/10.1016/S0933-3657(02)00049-0
  2. E. Tuv, A. Borisov and K. Torkkola, 'Unsupervised learning with mixed numeric and nominal data,' IEEE Transactions on Knowledge and Data Engineering, vol.14, no.4, pp.673-690 2002 https://doi.org/10.1109/TKDE.2002.1019208
  3. Z. Sun, G. Bebis, and R. Miller, 'Object detection using feature subset selection,' Pattern recognition, vol.37, no.11, pp.2165-2176, Nov, 2004 https://doi.org/10.1016/j.patcog.2004.03.013
  4. D. R. Wilson, and T. R. Martinez, 'Improved Heterogeneous Distance Functions,' Journal of Artificial Intelligence Research, vol.6, no.1, pp.1-34, Jun, 1997
  5. Y. Su, T. M. Murali, V. Pavlovic, M. Schaffer, and Simon Kasif, 'Rankgene: a program to rank genes from expression data,' Bioinformatics, vol. 19, no.12, pp.1578-1579, Jan, 2003 https://doi.org/10.1093/bioinformatics/btg179
  6. A. Asuncion, and D. J. Newman, 'UCI Machine Learning Repository [http://www.ics.uci.edu/mlearn/MLRepository .html],' irvine, CA: University of California, School of Information and Computer Science, 2007