DOI QR코드

DOI QR Code

Improved Focused Sampling for Class Imbalance Problem

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링

  • Published : 2007.08.31

Abstract

Many classification algorithms for real world data suffer from a data class imbalance problem. To solve this problem, various methods have been proposed such as altering the training balance and designing better sampling strategies. The previous methods are not satisfy in the distribution of the input data and the constraint. In this paper, we propose a focused sampling method which is more superior than previous methods. To solve the problem, we must select some useful data set from all training sets. To get useful data set, the proposed method devide the region according to scores which are computed based on the distribution of SOM over the input data. The scores are sorted in ascending order. They represent the distribution or the input data, which may in turn represent the characteristics or the whole data. A new training dataset is obtained by eliminating unuseful data which are located in the region between an upper bound and a lower bound. The proposed method gives a better or at least similar performance compare to classification accuracy of previous approaches. Besides, it also gives several benefits : ratio reduction of class imbalance; size reduction of training sets; prevention of over-fitting. The proposed method has been tested with kNN classifier. An experimental result in ecoli data set shows that this method achieves the precision up to 2.27 times than the other methods.

실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

Keywords

References

  1. T. Fawcett, F. Provost, 'Adaptive Fraud Detection, Data Mining and Knowledge Discovery,' Vol.1, No.3, pp. 291-316, 1997 https://doi.org/10.1023/A:1009700419189
  2. S. Cho, H. Shin, E. Yu, K. Ha, and D. MacLachlan, 'Data Mining Problems and Solutions for Response Modeling in CRM,' Entrue Journal of Information Technology, Vol.5, No.1, pp.55-64, 2006
  3. L. Bruzzone, D. Fernandez Prieto, 'A Combined Supervised and Unsupervised Approach to Classification of Multi Temporal Remote Sensing Images,' In Proceedings of the IEEE 2000 International Geoscience and Remote Sensing Symposium (IGARSS), Honolulu, Hawaii, 24-28, Vol. 1, pp. 162- 164, July, 2000 https://doi.org/10.1109/IGARSS.2000.860455
  4. R. Yan, Y. Liu, R. Jin, A. Hauptmann, 'On Predicting Rare Classes With SVM Ensembles In Scene Classification,' IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 21-24, April, 2003 https://doi.org/10.1109/ICASSP.2003.1199097
  5. N. Japkowicz, 'The Class Imbalance Problem: Significance and Strategies,' in Proceedings of the 2000 International Conference on Artificial Intelligence, pp. 111-117, 2000
  6. G. M, Foody, 'The Significance of Border Training Patterns in Classification By A Feedforword Neural Network Using Back Propagation Learning,' International Journal of Remote Sensing, Vol.20, No.18, pp. 3549-3562, 1999 https://doi.org/10.1080/014311699211192
  7. 신 현정, 조 성준, '신경망 앙상블의 편기와 분산을 이용한 '분류' 패턴 선택,' 한국정보과학회 추계학술대회, 2001
  8. M. Kubat, S. Matwin, 'Addressing the Curse of Imbalanced Data Sets: One-Sided Sampling,' Proceedings of the Fourteenth International Conference on Machine Learning , pp. 179-186, 1997
  9. N. Chawla, N. Japkowicz, A. Kolcz, Special Issue on Class Imbalances, SIGKDD Explorations 6(1), June 2004
  10. X. Liu, J. Wu, Z. Zhou, 'Exploratory Under-Sampling for Class-Imbalance Learning,' International Conference on Data Mining(ICDM) pp. 965-969, 2006 https://doi.org/10.1109/ICDM.2006.68
  11. H. Shin and S. Cho, 'Fast Pattern Selection for Support Vector Classifiers,' 7th Pacific-Asia Conference, PAKDD 2003, Seoul, Korea, April 30 - May 2, 2003
  12. http://www.ics.uci.edu/~mlearn/databases/
  13. Foster Provost, 'Machine Learning from Imbalanced Data Sets 101,' Learning from Imbalanced Data Sets Papers from the AAAI Workshop, 2005
  14. Mixture of Expert Agents for Handling Imbalanced Data Sets, annals of mathematics, computing & teleinformatics, Vol 1, no 1, pp. 46-55, 2003
  15. 오장민, 장병탁, '불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법,' 한국정보과학회 2001년도 봄 학술발표논문집 제28권 제1호(B), pp. 304-306, 2001
  16. Yanmin Sun, Mohamed S. Kamel, Andrew K.C. Wong and Yang Wang, 'Cost-sensitive boosting for classification of imbalanced data,' Pattern Recognition, In Press, Corrected Proof, Available online 5 May 2007 https://doi.org/10.1016/j.patcog.2007.04.009
  17. Guobin Ou and Yi Lu Murphey, 'Multi-class pattern classification using neural networks,' Pattern Recognition, Vol 40, Issue 1, pp. 4-18, 2007 https://doi.org/10.1016/j.patcog.2006.04.041
  18. Jigang Xie and Zhengding Qiu, 'The effect of imbalanced data sets on LDA: A theoretical and empirical analysis,' Pattern Recognition, Vol 40, Issue 2, pp. 557-562, 2007 https://doi.org/10.1016/j.patcog.2006.01.009
  19. Vicenc Soler, Jesus Cerquides, Iosep Sabria, Iordi Roig, Marta Prim, Imbalanced Datasets Classification by Fuzzy Rule Extraction and Genetic Algorithms, Sixth IEEE International Conference on Data Mining - Workshops (ICDMW'06), pp. 330-336, 2006 https://doi.org/10.1109/ICDMW.2006.95
  20. Yang Liu, Nitesh V. Chawla, Mary P. Harper, Elizabeth Shriberg and Andreas Stolcke, 'A study in machine learning from imbalanced data for sentence boundary detection in speech,' Computer Speech & Language, Vol 20, Issue 4, pp. 468-494, 2006 https://doi.org/10.1016/j.csl.2005.06.002
  21. Teuvo Kohonen, Self-Organizind Maps:Second Edition, Springer, 1997