An Improved Co-training Method without Feature Split

속성분할이 없는 향상된 협력학습 방법

  • 이창환 (동국대학교 정보통신학과) ;
  • 이소민 (한국외환은행 정보시스템부)
  • Published : 2004.10.01

Abstract

In many applications, producing labeled data is costly and time consuming while an enormous amount of unlabeled data is available with little cost. Therefore, it is natural to ask whether we can take advantage of these unlabeled data in classification teaming. In machine learning literature, the co-training method has been widely used for this purpose. However, the current co-training method requires the entire features to be split into two independent sets. Therefore, in this paper, we improved the current co-training method in a number of ways, and proposed a new co-training method which do not need the feature split. Experimental results show that our proposed method can significantly improve the performance of the current co-training algorithm.

분류학습에서 높은 정확도를 유지하기 위해서는 충분한 분류 데이타가 필요하게 되는데 분류 데이타는 미 분류 데이타보다 생성하기가 어려운 경우가 많다. 따라서 미 분류 데이타를 활용하여 분류의 정확도를 향상시키는 것은 큰 효용성을 가지며 이러한 미 분류 데이타를 활용하는 대표적인 학습방법 중의 하나는 협력학습(co-training) 알고리즘이다. 이는 데이타를 두 개의 독립적인 속성그룹으로 나누어 두개의 분류자로 학습한 후 미 분류 데이타를 분류하고 그중 가장 신뢰성이 높은 데이타를 분류 데이터에 포함하고 이를 반복하는 학습모델이다. 하지만 이 방법은 전체 데이타의 속성을 독립적인 두개의 집합으로 분할하여야하는 제약이 있다. 따라서 본 연구에서는 이와 같은 문제점을 개선하여 보통의 데이터베이스에 적용시킬 수 있는 새로운 협력학습방법을 제시 하고자한다. 즉. 두 개의 독립적인 속성 그룹으로 나누는 가정을 따르지 않고 전체 속성을 사용할 수 있으며 두 개 이상의 분류자를 사용하는 새로운 협력학습방법을 제안하였다.

Keywords

References

  1. T. G. Dietterich, 'Machine Learning Research Four Current Directions,' AI Magazine, 1997
  2. T. Mitchell, 'The Role of Unlabeled Data in Supervised Learning,' In Proc. of the Sixth International Colloquium on Cognitive Science, 1999
  3. A. Blum and T. Mitchell, 'Combining Labeled and Unlabeled Data with Co-training,' In Proceedings of COLT '98, 1998 https://doi.org/10.1145/279943.279962
  4. K. Nigam & R. Ghani, 'Understanding the Behavior of Co-training,' In Proceedings of KDD2000 Workshop on Text Mining, 2000
  5. S. Goldman & Y. Zhou, 'Enhancing Superviased Learning with Unlabeled Data,' In Proceedings of ICML2000, 2000
  6. K. Nigam & R. Ghani, 'Analyzing the Effectiveness and Applicability of Co-training,' In Proceedings of the 9th International Conference on Irformation Knowledge Management, 2000 https://doi.org/10.1145/354756.354805
  7. K. Nigam & A. McCallum & S. Thrun & T. Mitchell, 'Learning to Classify Text from Labeled and Unlabeled Documents,' In Proceedings of the 15th National Conference on Artificial Intelligence AAAI-98, 1998
  8. A. P. Dempster, N. M. Laird, and D. B. Rubin 'Maximum Likelihood from Incomplete Data via the EM Algorithm,' Journal of Royal Statistical Society, Vol 39, pp. 1-38, 1977
  9. S. Kiritchenko & S. Matwin, 'Email Classification with Co-Training.'
  10. S. Haykin 'Neural Networks: A Comprehensive Foundation,' Prentice Hall, 1999
  11. P. Murphy & D. Aha, UCI Repository of Machine Learning Databases, 1995. (http://www.ics.uci.edu/ mlearn/ Ml.Repository.html)
  12. K. P. Beneett & A. Demiriz & R. Maclin, 'Exploiting Unlabeled Data in Ensemble Methods,' In Proceedings of the SIGKDD'02, 2002 https://doi.org/10.1109/ICMLC.2006.258568
  13. Virginia R. de Sa, 'Learning Classification with Unlabeled Data,' Advances in Neural Information Processing Systems 6, pp. 112-119
  14. F. Cozman & I. Cohen, 'Unlabeled Data can Degrade Classification Performance of Generative Classifiers,' Technical Report, HP labs, 2002