Committee Learning Classifier based on Attribute Value Frequency

속성 값 빈도 기반의 전문가 다수결 분류기

  • 이창환 (동국대학교 정보통신공학과) ;
  • 정인철 (동국대학교 산업시스템공학과) ;
  • 권영식 (동국대학교 산업시스템공학과)
  • Received : 2009.11.30
  • Accepted : 2010.06.28
  • Published : 2010.08.15

Abstract

In these day, many data including sensor, delivery, credit and stock data are generated continuously in massive quantity. It is difficult to learn from these data because they are large in volume and changing fast in their concepts. To handle these problems, learning methods based in sliding window methods over time have been used. But these approaches have a problem of rebuilding models every time new data arrive, which requires a lot of time and cost. Therefore we need very simple incremental learning methods. Bayesian method is an example of these methods but it has a disadvantage which it requries the prior knowledge(probabiltiy) of data. In this study, we propose a learning method based on attribute values. In the proposed method, even though we don't know the prior knowledge(probability) of data, we can apply our new method to data. The main concept of this method is that each attribute value is regarded as an expert learner, summing up the expert learners lead to better results. Experimental results show our learning method learns from data very fast and performs well when compared to current learning methods(decision tree and bayesian).

센서 정보, 물류/유통정보, 신용 정보, 주식 정보 등이 과거보다 다양하면서 대용량의 연속 발생 형태 데이터가 발생하고 있다. 이러한 데이터는 대용량의 특의 변화가 빠른 특징들을 가지고 있기 때문에 학습이 어렵다. 이러한 문제점을 해결하기 위해 일정 윈도우 크기의 최근 데이터를 연속적으로 학습시킴으로써 전체 모형을 새롭게 만들거나 모형의 일부분을 대체 하는 방법을 사용하여 왔다. 그러나 이러한 방법은 계속해서 새로운 학습모형을 만들어야 하므로 대용량의 연속 데이터를 학습시키는데 많은 시간과 비용이 든다. 따라서, 이러한 특성에 대비하기 위하여 추가적인 학습 데이터가 발생할 때 마다, 점진적이며 지속적으로 학습을 할 수 있는 학습 기법이 필요하다. 보다 빠른 속도로 학습 모형의 변화 없이 분류를 하기 위하여 대표적인 점진적 학습 방법으로 베이지안 분류기를 사용할 수 있지만, 사전확률을 알고 있다는 가정으로부터 시작을 하게 되어 일정량 이상의 학습데이터가 필요하다. 따라서 본 연구에서는 베이지안 분류기와 같이 점진적으로 학습을 할 수 있지만, 사전 확률을 알지 못하더라고 학습을 할 수 있는 새로운 점진적 학습 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘의 기본 개념은 여러 전문가의 의견을 종합하는 방식이다. 여기서는 속성값(attribute value)을 한명의 전문가로 보고 전문가 집단의 의사 결정이 맞을 경우에는 가점을 주고 틀릴 경우에는 감점을 하는 방식으로 학습을 하게 된다. 실험결과 이 방법은 의사결정나무나 베이지언 분류기와 비교해 비슷한 성능을 나타내었으며, 향후에 스트림 데이터 분석에 사용할 가능성을 보였다.

Keywords

References

  1. G. Widmer and M. Kubat, Learning in the Presence of Concept Drift and Hidden Contexts, Machine Learning, vol.23, no.1, pp.69-101, 1996.
  2. C. Aggarwal, A Framework for Diagnosing Changes in Evolving Data Streams. Proceedings of the ACM SIGKDD Conference, 2003.
  3. J.F. Gantz et al,. The Expanding Digital Universe: A Forecast of Worldwide Information Growth through 2010, IDC Whitepaper, March 2007.
  4. A. Tsymbal, The problem of concept drift: definitions and related work, Technical Report TCDCS- 2004-15, Department of Computer Science, Trinity College Dublin, Ireland, 2004.
  5. C. Aggarwal, Data Streams: Models and Algorithms, Springer, p.354, 2007.
  6. M. Last, "Online Classification of Nonstationary Data Streams," Intelligent Data Analysis, vol.6, no.2, pp.129-147, 2002.
  7. L. Cohen, M. Last, G. Avrahami, "Incremental Info-Fuzzy Algorithm for Real Time Data Mining of Non-Stationary Data Streams," TDM Workshop, Brighton UK, 2004.
  8. G. Hulten, L, Spencer, and P. Domingos, "Mining Time-Changing Data Streams," Proc. of KDD 2001, ACM Press, pp.97-106, 2001.
  9. P. Domingos and G. Hulten, "Mining high-speed data streams," In Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.71-80, Boston, MA, 2000. ACM Press.
  10. J. W. Kim, J. W. Song, J. H. Lee, "Data Streams classification using Local Concept-adapted IOLIN System," Proc. of the KIISE Korea Computer Congress 2008, vol.13, no.1(C), pp.37-44, 2008. (in Korean)
  11. Fayyad, Irani, Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning, France, 1993.