DOI QR코드

DOI QR Code

Incremental Generation of A Decision Tree Using Global Discretization For Large Data

대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성

  • Published : 2005.08.01

Abstract

Recently, It has focused on decision tree algorithm that can handle large dataset. However, because most of these algorithms for large datasets process data in a batch mode, if new data is added, they have to rebuild the tree from scratch. h more efficient approach to reducing the cost problem of rebuilding is an approach that builds a tree incrementally. Representative algorithms for incremental tree construction methods are BOAT and ITI and most of these algorithms use a local discretization method to handle the numeric data type. However, because a discretization requires sorted numeric data in situation of processing large data sets, a global discretization method that sorts all data only once is more suitable than a local discretization method that sorts in every node. This paper proposes an incremental tree construction method that efficiently rebuilds a tree using a global discretization method to handle the numeric data type. When new data is added, new categories influenced by the data should be recreated, and then the tree structure should be changed in accordance with category changes. This paper proposes a method that extracts sample points and performs discretiration from these sample points to recreate categories efficiently and uses confidence intervals and a tree restructuring method to adjust tree structure to category changes. In this study, an experiment using people database was made to compare the proposed method with the existing one that uses a local discretization.

최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.

Keywords

References

  1. J. Cattlet. Megalnduction: Machine Learning on Very Large Databases. PhD thesis, University of Sydney, 1991
  2. P. K. Chan and S. J. Stolfo. Meta-Learing for Multistrategy and parallel leaning. In Proc. Second Intl. Workshop on Multistrategy Leaning, pp.150-165, 1993
  3. M. Mehta, R. Agrawal, and J. Rissanen. SLIQ: A fast scalable classifier for data mining. Proceedings of the Fifth Int'l Conference on Extending Database Technology (EDBT), 1996
  4. J, Shafer, R. Agrawal, and M. Mehta SPRINT: A scalable parallel classifier for data mining. Proceedings of Very Large DataBase(VLDB), 1996
  5. J. Gehrke, R. Ramakrishnan, and V. Ganti. RainForest - A framework for fast decision tree construction of large datasets. VLDB 1996
  6. P. E Utgoff. Incremental induction of decision trees. Machine Learning, Vol.4, pp.161-186, 1989 https://doi.org/10.1023/A:1022699900025
  7. J. Gehrke, V. Ganti, R. Ramakrishnan, and W. Loh. Boatoptimistic decision tree construction. Proceedings of the ACM SIGMOD Conference on Management of Data, 1999
  8. J. Dougherty, R. Kohavi, and M. Sahami. Supervised and unsupervised discretization of continuous Features. Proceedings of Twelfth International Conference on Machine Learning, pp.194-202, 1995
  9. L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees. Wadsworth, Belmont, 1984
  10. J. R. Quinlan. Induction of decision trees. Machine Learning, 1(8), pp.1-106, 1986 https://doi.org/10.1023/A:1022643204877
  11. U. M. Fayyad, K. B. Irani. On the handling of continuous-valued attributes in decision tree generation. Machine Learning, Vol.8, pp.87-102, 1992 https://doi.org/10.1007/BF00994007
  12. U. M. Fayyad, K. B. Irani. Multi-interval discretization of continuous-valued attributes for classification learning, Proceedings of the 13th International Joint Conference on Artificial Intelligence, Morgan Kaufmann; pp.1022-1027
  13. T. Elomaa and J. Rousu. General and efficient multisplitting of numerical attributes. Machine Learning, Vol.36, pp.200-244, 1999 https://doi.org/10.1023/A:1007674919412
  14. T. Elomaa and J. Rousu. Generalizing boundary points. In Proceedings of the Seventeenth National Conference on Artificial Intelligence, Menlo Park, CA, 2000. AAAI Press. In press
  15. 한경식, 이수원, 전역적 범주화를 위한 샘플 포인트를 이용한 점진적 기법. 정보과학회 논문지 : 소프트웨어 및 응용, 제31권, 제7호, pp.849-858. 2004. 07
  16. Rakesh Agrawal, Tomasz Imielinski, and Arun Swami, Database Mining : A Performance Perspective. IEEE Transactions on Knowledge and Data Engineering, Vol.5, No.6, pp.914-925, 1993 https://doi.org/10.1109/69.250074