DOI QR코드

DOI QR Code

SMOTE by Mahalanobis distance using MCD in imbalanced data

불균형 자료에서 MCD를 활용한 마할라노비스 거리에 의한 SMOTE

  • Jieun Jung (Department of Statistics, Pusan National University) ;
  • Yong-Seok Choi (Department of Statistics, Pusan National University)
  • 정지은 (부산대학교 통계학과) ;
  • 최용석 (부산대학교 통계학과)
  • Received : 2024.01.27
  • Accepted : 2024.03.10
  • Published : 2024.08.31

Abstract

SMOTE (synthetic minority over-sampling technique) has been used the most as a solution to the problem of imbalanced data. SMOTE selects the nearest neighbor based on Euclidean distance. However, Euclidean distance has the disadvantage of not considering the correlation between variables. In particular, the Mahalanobis distance has the advantage of considering the covariance of variables. But if there are outliers, they usually influence calculating the Mahalanobis distance. To solve this problem, we use the Mahalanobis distance by estimating the covariance matrix using MCD (minimum covariance determinant). Then apply Mahalanobis distance based on MCD to SMOTE to create new data. Therefore, we showed that in most cases this method provided high performance indicators for classifying imbalanced data.

불균형 자료 문제에 대한 해결책으로 SMOTE (synthetic minority over-sampling technique)가 가장 많이 사용되고 있다. SMOTE는 유클리드 거리를 기반으로 가장 가까운 이웃을 선택한다. 그러나 유클리드 거리의 단점 중 하나는 변수들 간의 상관관계를 고려하지 않는다는 것이다. 이에 대한 대안으로 변수 간의 공분산을 고려하는 마할라노비스 거리가 제안되었다. 그러나 이상치가 존재하는 경우, 대개 마할라노비스 거리를 계산하는 데 영향을 미친다. 이 문제를 해결하기 위해 최소 공분산 행렬 MCD (minimum covariance determinant)를 사용하여 공분산 행렬을 추정하여 마할라노비스 거리를 사용한다. 이후 MCD를 활용한 마할라노비스 거리를 SMOTE에 적용하여 새로운 관측치를 생성한다. 대부분의 경우 이 방법이 불균형 자료를 분류하는 데 높은 성능 지표를 제공함을 보여주었다.

Keywords

References

  1. Abdi L and Hashemi S (2016). To combat multi-class imbalanced problems by means of over-sampling techniques, IEEE Transactions on Knowledge and Data Engineering, 28, 238-250.
  2. Aelst SV and Rousseeuw P (2009). Minimum volume ellipsoid, WIREs Computational Statistics, 1, 71-82.
  3. Chawla NV, Hall LO, Bowyer KW, and Kegelmeyer WP (2002). Smote : Syntetic minority over-sampling technique, Journal of Artificial Intelligence Research, 16, 321-357.
  4. Davies PP (1992). The asymptotics of Rousseeuw's minimum volume ellipsoid estimator, The Annals of Statistics, 20, 1828-1843.
  5. Hubert M and Debruyne M (2010). Minimum covariance determinant, WIREs Computational Statistics, 2, 36-43.
  6. Menardi G and Torelli N (2010). Training and assessing classification rules with imbalanced data, Data Mining and Knowledge Discovery 28, 92-122.
  7. Rousseeuw PJ and Driessen KV (1999). A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212-223.
  8. Rousseuw PJ and van Zomeren BC (1990). Unmasking multivariate outliers and leverage points, Journal of the Statistical Association, 85, 633-639.
  9. Sun Y, Wong AKC, and Kamel MS (2009). Classification of imbalanced data : A review, International Jorunal of Pattern Recognition, 23, 687-719.
  10. Wing WY Ng, Hu J, Yeung DS, Yin S, and Roli F (2015). Diversified sen-sitivity-based undersampling for imbalance classification problems, IEEE Transactions on Cybernetics, 45, 2402-2412.