DOI QR코드

DOI QR Code

관심 항목의 발생 가능한 규칙의 수를 고려한 연관성 평가기준

Association rule thresholds considering the number of possible rules of interest items

  • 투고 : 2012.06.12
  • 심사 : 2012.07.08
  • 발행 : 2012.07.31

초록

데이터 마이닝은 데이터베이스로부터 쉽게 드러나지 않는 의미 있는 정보를 생성하는 기법이다. 이 중에서 연관성 규칙은 일반적으로 발생 여부를 나타내는 자료를 이용하여 지지도, 신뢰도, 향상도 등을 수치화함으로써 항목들 간의 관련성을 나타낸다. 기존의 연관성 규칙은 발생 빈도의 크기를 고려하지 않음으로써 정보 손실에 의한 오류를 범할 수 있다. 이를 위해 본 논문에서는 발생 가능한 규칙의 수를 고려한 연관성 평가 기준들을 제안하고 예제를 통하여 기존 연구와 비교한 후, 본 논문에서 제안한 연관성 평가 기준의 유용성을 살펴보았다. 실제 데이터를 통하여 분석한 결과, 기존의 연관성 규칙 평가 기준은 관심항목 수와 트랜잭션의 수를 2배로 하여도 지지도와 신뢰도, 향상도의 값이 동일한 반면에 본 논문에서 제안한 평가 기준은 발생 가능한 규칙의 수를 고려하기 때문에 각각의 평가 기준의 값들이 트랜잭션의 수에 따라 다르다는 것을 알 수 있었다. 또한 본 논문에서 제안하는 평가 기준이 기존의 연관성 규칙 평가 기준에 비해 좀 더 정확한 정보를 제공하는 것을 알 수 있다. 특히 본 논문에서 제안한 신뢰도의 범위가 기존 연관성 평가 기준에 비해 크므로 좀 더 비교 가능한 정보를 제공하는 동시에 향상도의 비교를 용이하게 한다고 할 수 있다.

Data mining is a method to find useful information for large amounts of data in database. One of the well-studied problems in data mining is exploration for association rules. Association rule mining searches for interesting relationships among items in a given database by support, confidence, and lift. If we use the existing association rules, we can commit some errors by information loss not to consider the size of occurrence frequency. In this paper, we proposed a new association rule thresholds considering the number of possible rules of interest items and compare with existing association rule thresholds by example and real data. As the results, the new association rule thresholds were more useful than existing thresholds.

키워드

참고문헌

  1. Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, 207-216.
  2. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th VLDB Conference, 487-499.
  3. Cai, C. H., Fu, A. W. C., Cheng, C. H. and Kwong, W. W. (1998). Mining association rules with weighted items. Proceedings of International Database Engineering and Applications Symposium, 68-77.
  4. Cho, K. H. and Park, H. C. (2008). A study of association rule application using self-organizing map for fused data. Journal of the Korean Data & Information Science Society, 19, 95-104.
  5. Choi, J. H. and Park, H. C. (2008). Comparative study of quantitative data binning methods in association rule. Journal of the Korean Data & Information Science Society, 19, 903-910.
  6. Han, J. and Fu, Y. (1999). Mining multiple-level association rules in large databases. IEEE Transactions on Knowledge and Data Engineering, 11, 68-77.
  7. Han, J., Pei, J. and Yin, Y. (2000). Mining frequent patterns without candidate generation. Proceedings of ACM SIGMOD Conference on Management of Data, 1-12.
  8. Lim, J., Lee, K. and Cho, Y. (2010). A study of association rule by considering the frequency, Journal of the Korean Data & Information Science Society, 21, 1061-1069.
  9. Liu, B., Hsu, W. and Ma, Y. (1999). Mining association rules with multiple minimum supports. Proceedings of the 5th International Conference on Knowledge Discovery and Data Mining, 337-241.
  10. Park, H. C. (2010a). Weighted association rules considering item RFM scores. Journal of the Korean Data & Information Science Society, 21, 1147-1154.
  11. Park, H. C. (2010b). Standardization for basic association measures in association rule mining. Journal of the Korean Data & Information Science Society, 21, 891-899.
  12. Park, H. C. (2010c). Decision process for right association rule generation. Journal of the Korean Data & Information Science Society, 21, 263-270.
  13. Park, H. C. (2011a). The application for predictive similarity measures of binary data in association rule mining. Journal of the Korean Data & Information Science Society, 22, 495-503.
  14. Park, H. C. (2011b). The application of some similarity measures to association rule thresholds. Journal of the Korean Data Analysis Society, 13, 1331-1342.
  15. Park, J. S., Chen, M. S. and Philip, S. Y. (1995). An effective hash-based algorithms for mining association rules. Proceedings of ACM SIGMOD Conference on Management of Data, 175-186.
  16. Pasquier, N., Bastide, Y., Taouil, R. and Lakhal, L. (1999). Discovering frequent closed itemsets for association rules. Proceedings of the 7th International Conference on Database Theory, 398-416.
  17. Pei, J., Han, J. and Mao, R. (2000). CLOSET: An efficient algorithm for mining frequent closed itemsets. Proceedings of ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, 21-30.
  18. Toivonen H. (1996). Sampling large database for association rules. Proceedings of the 22nd VLDB Conference, 134-145.
  19. Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405. https://doi.org/10.1145/1010614.1010616