DOI QR코드

DOI QR Code

Fuzzy discretization with spatial distribution of data and Its application to feature selection

데이터의 공간적 분포를 고려한 퍼지 이산화와 특징선택에의 응용

  • 손창식 (명대학교 의과대학 의료정보학교실) ;
  • 신아미 (명대학교 의과대학 의료정보학교실) ;
  • 이인희 (명대학교 의과대학 의료정보학교실) ;
  • 박희준 (계명대학교 의과대학 의용공학과) ;
  • 박형섭 (계명대학교 의과대학 내과학(심장내과) 교실) ;
  • 김윤년 (계명대학교 의과대학 내과학(심장내과) 교실)
  • Received : 2009.10.21
  • Accepted : 2010.03.17
  • Published : 2010.04.25

Abstract

In clinical data minig, choosing the optimal subset of features is such important, not only to reduce the computational complexity but also to improve the usefulness of the model constructed from the given data. Moreover the threshold values (i.e., cut-off points) of selected features are used in a clinical decision criteria of experts for differential diagnosis of diseases. In this paper, we propose a fuzzy discretization approach, which is evaluated by measuring the degree of separation of redundant attribute values in overlapping region, based on spatial distribution of data with continuous attributes. The weighted average of the redundant attribute values is then used to determine the threshold value for each feature and rough set theory is utilized to select a subset of relevant features from the overall features. To verify the validity of the proposed method, we compared experimental results, which applied to classification problem using 668 patients with a chief complaint of dyspnea, based on three discretization methods (i.e., equal-width, equal-frequency, and entropy-based) and proposed discretization method. From the experimental results, we confirm that the discretization methods with fuzzy partition give better results in two evaluation measures, average classification accuracy and G-mean, than those with hard partition.

임상 데이터마이닝에서 최적의 특징 집합을 선택하는 것은 주어진 데이터로부터 생성된 모델의 복잡성을 줄일 뿐만 아니라 유용성을 향상시키는 데에 매우 중요하고, 선택된 특징들의 임계값은 질병의 감별진단을 위해 임상 전문가의 결정기준으로 사용된다. 본 논문에서는 데이터의 공간적인 분포, 즉 중첩영역에서 중복 속성값을 포함하는 데이터의 분리성 정도를 평가함으로써 연속형 속성을 가진 데이터에 대한 퍼지 이산화기법을 제안한다. 제안된 방법에서 중복 속성값의 가중치 평균값은 각 특징의 임계값(즉 경계값)을 결정하기 위해서 사용되었고, 러프집합은 전체 특징들 중에서 중요특징들의 집합을 선택하기 위해서 이용하였다. 제안된 방법의 타당성을 검증하기 위해 호흡곤란을 주호소로 내원한 668명의 환자 데이터를 근거로 3가지 이산화방법과 제안된 이산화방법에 대한 실험을 수행하였다. 실험결과, 퍼지분할을 기반으로 한 이산화방법이 하드분할을 기반으로 한 이산화방법에 비해서 평균 분류정확도와 G-mean 성능에서 보다 좋은 결과를 제공함을 확인하였다.

Keywords

References

  1. I. Kononenko, "Machine learning for medical diagnosis: history, state of the art and perspective," Artificial Intelligence in Medicine, vol.23, no.1, pp.89-109, 2001. https://doi.org/10.1016/S0933-3657(01)00077-X
  2. 이상훈, 박정은, 오경환, "데이터 분포를 고려한 연속 값 속성의 이산화," 한국퍼지 및 지능시스템 학회 논문지, 제13권, 4호, pp.391-396, 2003. https://doi.org/10.5391/JKIIS.2003.13.4.391
  3. D. Chiu, A. Wong, and B. Cheung, Information discovery through hierarchical maximum entropy discretization and synthesis, MIT Press, 1991.
  4. U.M. Fayyad and K.B. Irani, "Multi-interval discretization of continuous attributes as preprocessing for classification learning," Proc. 13th International Joint Conference on Artificial Intelligence, pp.1022-1027, 1993.
  5. R. Kerber, "Discretization of numerical attributes," Proc. the 10th National Conference on Artificial Intelligence (AAAI-92), pp.123-128, 1992.
  6. J. MacQueen, "Some methods for classification and analysis of multivariate observations," Proc. the 5th Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297, 1967.
  7. L. Kaufman and P.J. Rousseeuw, Finding group in data: an introduction to cluster analysis, John Wiley & Sons, New York, 1990.
  8. C.-C. Shen and Y.-L. Chen, "A dynamic-programming algorithm for hierarchical discretization of continuous attributes," European Journal of Operational Research, vol.184, no.2, pp. 636-651, 2008. https://doi.org/10.1016/j.ejor.2006.12.013
  9. Z. Pawlak, "Rough set," Int. J. Comput. Inform. Sci., vol.11, no.5, pp.341-356, 1982. https://doi.org/10.1007/BF01001956
  10. Z. Pawlak, Rough sets, Theoretical aspects of reasoning about data, Kluwer, Dordrecht, Netherlands, 1991.
  11. H. Ishibuchi and T. Nakashima, "Effect of rule weights in fuzzy rule-based classification systems," IEEE Trans. Fuzzy Systems, vol.9, no.4, pp.506-515, 2001. https://doi.org/10.1109/91.940964
  12. 손창식, 정환묵, 서석태, 권순학, "규칙의 커플링문제를 최소화하기 위한 퍼지-러프 분류방법," 한국 퍼지 및 지능시스템 학회 논문지, 제17권, 4호, pp.460-465, 2007. https://doi.org/10.5391/JKIIS.2007.17.4.460
  13. Y.M. Sun, M.S. Kamel, A.K.C. Wong, and Y. Wang, "Cost-sensitive boosting for classification of imbalanced data," Pattern Recognition, vol.40, no.12, pp.3358-3378, 2007. https://doi.org/10.1016/j.patcog.2007.04.009
  14. 전시자 외 9인, 성인간호학 (상) 4판, 현문사, 2005.
  15. R. Slowinski, Intelligent decision support, Handbook of applications and advances of the rough sets theory, Kluwer Academic Publishers, Dordrecht, 1992.
  16. B. Walczak and D.L. Massart, "Rough set theory," Chemometrics and Intelligent Laboratory Systems, vol.47, no.1, pp.1-16, 1999. https://doi.org/10.1016/S0169-7439(98)00200-7

Cited by

  1. Knowledge Extractions, Visualizations, and Inference from the big Data in Healthcare and Medical vol.23, pp.5, 2013, https://doi.org/10.5391/JKIIS.2013.23.5.400