DOI QR코드

DOI QR Code

A Study on the Implementation of SQL Primitives for Decision Tree Classification

판단 트리 분류를 위한 SQL 기초 기능의 구현에 관한 연구

  • Received : 2013.05.28
  • Accepted : 2013.10.08
  • Published : 2013.12.31

Abstract

Decision tree classification is one of the important problems in data mining fields and data minings have been important tasks in the fields of large database technologies. Therefore the coupling efforts of data mining systems and database systems have led the developments of database primitives supporting data mining functions such as decision tree classification. These primitives consist of the special database operations which support the SQL implementation of decision tree classification algorithms. These primitives have become the consisting modules of database systems for the implementations of the specific algorithms. There are two aspects in the developments of database primitives which support the data mining functions. The first is the identification of database common primitives which support data mining functions by analysis. The other is the provision of the extended mechanism for the implementations of these primitives as an interface of database systems. In data mining, some primitives want be stored in DBMS is one of the difficult problems. In this paper, to solve of the problem, we describe the database primitives which construct and apply the optimized decision tree classifiers. Then we identify the useful operations for various classification algorithms and discuss the implementations of these primitives on the commercial DBMS. We implement these primitives on the commercial DBMS and present experimental results demonstrating the performance comparisons.

판단 트리 분류는 데이터 마이닝의 중요한 문제의 하나이고, 데이터 마이닝은 대형 데이터베이스 기술의 중요한 과제가 되고 있다. 그러므로 데이터베이스와 데이터 마이닝 시스템의 결합 노력은 판단 트리 분류와 같은 데이터 마이닝 기능을 지원하는 데이터베이스 기초 기능의 개발로 이어지고 있다. 이런 기초 기능은 분류 알고리즘의 SQL 구현을 지원하는 특수한 데이터베이스 연산들로 구현되며, 특정 알고리즘을 구현하여 데이터베이스 시스템의 구성 모듈로 사용하고 있다. 데이터마이닝 기능을 제공하는 데이터베이스 기초 기능의 개발에는 두 가지 관점이 있다. 하나는 데이터 마이닝 기능을 분석해서 그런 기능들을 제공하는 데이터베이스 공통 기초 기능을 확인하는 것, 다른 하나는 데이터베이스 시스템의 인터페이스의 한 부분으로 이런 기초 기능의 구현을 위한 확장된 메커니즘을 제공하는 것이다. 데이터마이닝에서 어떤 기초 기능들을 DBMS에 저장할 것인가는 어려운 문제 중에 하나이다. 따라서 본 논문에서는 이러한 문제를 해결하기 위하여, 최적화된 판단 트리 분류기를 만들고 데이터베이스 기초 기능에 대해서 기술한다. 판단 트리 분류 알고리즘의 유용한 연산들을 확인하고, 상업적 DBMS에서 이러한 기초 기능의 구현에 대해서 기술하고, 성능 비교를 위한 실험 결과를 제시한다.

Keywords

References

  1. Surajit Chaudhuri, "Data Mining and Database Systems: Where is the Intersection?," Data Engineering Bulletin, 21(1): 4-8, 1998.
  2. R. Meo, G. Psaila, and S. Ceri. A New SQL-like Operators for Mining Association Rules. VLDB'96, pp. 122-133, Mumbai, India, Sept., 3-6, 1996. R.
  3. A. Netz, S. Chaudhuri, J. Bernhardt, and U. M. Fayyad, "Integration of Data Mining with Database Technology," Proceedings of 26th International Conference on Very Large Data Bases, September 10-14, 2000.
  4. Vipin Kumar, etc., Introduction to data mining, Addison-Wesley, May 12, 2005.
  5. L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone, "Classification and Regression Trees," Chapman and Hall, 1984.
  6. M. Xu, J. Wang, and T. Chen, "Improved decision tree algorithm: ID3+," Intelligent Computing in Signal Processing and Pattern Recognition, Vol.345, pp.141-149, 2006. https://doi.org/10.1007/978-3-540-37258-5_15
  7. M. Mehta, I. Rissanen, and R. Agrawal, "MDL-based Decision Tree Pruning," Proc. of Intl. Conf. on Knowledge Discovery in Databases and Data Mining, Montreal, Canada, 1995.
  8. S. Chaudhuri, U. M. Fayyad, and J. Bernhardt, "Scalable Classification over SQL Databases," ICDE-99, pp.470-479, Sydney, Australia, 1999.
  9. J. Gerhke, R. Ramakrishnan, and V. Ganti, "RainForest - A Framework for Fast Decision Tree Construction of Large Datasets," VLDB'98, pp.416-427, New York City, New York, USA, 1999.
  10. S.B. Kotsiantis, D. Kanellopoulos and P.E. Pintelas, "Data Preprocessing for supervised learning," International Journal of Computer Science, Vol.1, No.2, 2006.
  11. M. BenHajHmida and A. Congiusta, "Parallel, distributed, and grid-based data mining : algorithms, systems, and applications," Handbook of Research on Computational Grid, IGI Global, pp.90-119, May, 2009.
  12. L. Zhou, Z. Zhang, and M. Xu, "Massive data mining based on item sequence set grid space," In Proceedings of the 2nd International Asia Conference on Informatics in Control, Automation and Robotics, pp.208-211, March, 2010.