Reduction of Approximate Rule based on Probabilistic Rough sets

확률적 러프 집합에 기반한 근사 규칙의 간결화

  • 권은아 (주성대학교 컴퓨터정보공학부) ;
  • 김홍기 (충북대학교 컴퓨터공학과)
  • Published : 2001.06.01

Abstract

These days data is being collected and accumulated in a wide variety of fields. Stored data itself is to be an information system which helps us to make decisions. An information system includes many kinds of necessary and unnecessary attribute. So many algorithms have been developed for finding useful patterns from the data and reasoning approximately new objects. We are interested in the simple and understandable rules that can represent useful patterns. In this paper we propose an algorithm which can reduce the information in the system to a minimum, based on a probabilistic rough set theory. The proposed algorithm uses a value that tolerates accuracy of classification. The tolerant value helps minimizing the necessary attribute which is needed to reason a new object by reducing conditional attributes. It has the advantage that it reduces the time of generalizing rules. We experiment a proposed algorithm with the IRIS data and Wisconsin Breast Cancer data. The experiment results show that this algorithm retrieves a small reduct, and minimizes the size of the rule under the tolerant classification rate.

본 논문에서는 저장 데이터베이스의 정보 시스템을 정제하여 새로운 객체를 근사 추론하기 위한 규칙 생성에 관한 연구이다. 이 때 많은 수의 규칙 생성은 의사결정자로 하여금 직관적인 판단을 어렵게 하며 의사 결정 시 부가되는 시간적인 단점도 있다. 그러므로 본 논문에서는 확률적 러프 이론에 기반하여 규칙을 최대한 간결화 하는 데 주안점을 두었다. 제안하는 알고리즘은 러프 이론에 기반한 최적 리덕트를 생성하는 과정에 확률적 개념을 도입하여 리덕트 생성에서부터 어느 정도의 허용치를 부여함으로써 기존의 규칙 생성 알고리즘의 근사 결정 규칙을 보다 간결하게 표현할 수 있다. 이 과정에서 제안한 확률적 최소 리덕트 생성 알고리즘은 기존의 리덕트를 더욱 작게하여 추론에 필요한 조건 속성의 수를 최소화하였고 이는 확률적 근사 결정 규칙의 생성 과정에서 시간 복잡도에 따른 시간을 줄일 수 있다. 제안된 알고리즘을 이용하여 패턴 분류 문제에 표준적으로 사용되는 IRIS 데이터와 Wisconsin Breast Cancer 데이터에 대해 실험하였으며 허용된 분류율 하에서 규칙의 수와 간결함의 정도를 기존 알고리즘과 비교하였다.

Keywords

References

  1. Fayyad, U.M., Piatesky-Shapiro, G., Smyth, P., 'From Data mining to Knowledge Discovery : An Overview,' in Advances in Knowledge Discovery and Data Mining, Fayyad,U.M., Piatesky-shapiro, G., Smyth, P., pp.1-34, MIT Press, 1996
  2. Chen, M. S., Han, J., and Yu, P. S., 'Data Mining : An overview from Database Perspective,' IEEE TKDE, Vol.8, No.6, 1996 https://doi.org/10.1109/69.553155
  3. Agrawal, R., et al., 'An Internal Classifier for Database Mining Applications,' Proceedings of the 18th VLDB Conference, 1992
  4. Mehta, M., Agrawal, R. and Rissanen, J., 'SLIQ : A Fast Scalable Classifier for Data Mining,' Proc. of the Fifth Int'l Conference on Extending Database Technology, Avignon, France, March 1996 https://doi.org/10.1007/BFb0014141
  5. Quinlan, J. R., 'Induction of Decision Trees,' Machine Learning, 1, pp.81-106, 1986 https://doi.org/10.1007/BF00116251
  6. Quinlan, J. R., C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, 1993
  7. Pawlak, Z., Rough sets : Rough Sets : Theoretical Aspects of Reasoning About Data, A Kluwer Academy Publisher, 1991
  8. Pawlak, Z., 'Rough Sets Present state and Further prospects,' Intelligent Automation and Soft Computing, Vol.2, pp.96-102, 1996
  9. Lin, T. Y. and Cercone, N., Rough Sets and Data Mining : Analysis of imprecise data, Kluwer Academic Publisher, 1997
  10. Catlett, J., 'On changing Continuous Attributes into Order Discrete Attributes,' European Working Session on Learning, Springer-Verlag, pp.164-178, 1991 https://doi.org/10.1007/BFb0017012
  11. Kerber, R., 'ChiMerge : Discretization of Numeric Attributes,' Proceedings of AAAI-92, pp.123-128, 1992
  12. Skowron, A. and Nguyen, H. S., 'Quantization of Real Value Attributes,' Proceeding of the Second Joint Annual Conference on Information Sciences, Wrightsville Beach, North Carolina, USA, 1995
  13. Agrawal, R., Ghosh, S., Imielinski, T., Iyer, B. and Swami, A., 'An Interval Classifier for Database Mining Applications,' Proceedings of the 18th VLDB Conference Vancouver, British Columbia, Canada, 1992
  14. Ziarko, W., 'Variable Precision Rough Set Model,' Journal of Computer and System Sciences, Vol.46, pp.39-59, 1993 https://doi.org/10.1016/0022-0000(93)90048-2
  15. 권은아, 김흥기, 'Discretization of Continuous Valued Attributes and Approximate Reasoning based on Rough Membership Function,' submitted
  16. 민창우, 김명원, 김수광, '간결한 퍼지 규칙을 생성하는 데이터 마이닝 알고리즘,' 정보과학회 논문지(B), 26권 11호, pp.1559-1565, 1999
  17. http://www.ics.uci.edu/~mlearn/MLRepository.html