A study of association rule by considering the frequency

발생빈도를 고려한 연관성분석 연구

  • Received : 2010.08.16
  • Accepted : 2010.10.27
  • Published : 2010.11.30

Abstract

In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So, we need the new association rule which consider the frequency.In this paper, we proposed the new association rule. We compared the proposed association rule with the original association rule from example data. As a result, we knew our function was better than the original function in terms of sensitivity.

데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.

Keywords

References

  1. 강현철, 한상태, 최종후, 이성건, 김은석, 엄익현, 김미경 (2006). <데이터마이닝 방법론>, 자유아카데미, 경기도.
  2. Agrawal, R., Imielinski, T. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, 207-216.
  3. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on VLDB, 487-499.
  4. Cho, K. H. and Park, H. C. (2007). Association rule mining by environmental data fusion. Journal of the Korean data & Information Science Society, 18, 279-287.
  5. Park, H, C. (2008). The proposition of conditionally pure confidence in association rule mining. Journal of the Korean data & Information science Society, 19, 1141-1151.
  6. Park, H. C. (2010a). Association rule ranking function by decreased lift influence. Journal of the Korean data & Information science Society, 21, 397-405.
  7. Park, H. C. (2010b). Development of associative rank decision function using basic association rule thresholds. Journal of the Korean data Analysis Society, 12, 961-971.
  8. Park, H. C. (2010c). Proposition of symmetric confidence considering relative size of item frequencies. Journal of the Korean data Analysis Society, 12, 1463-1472.
  9. Park, H. C. (2010d). Association rule ranking fuction using conditional probability increment ratio. Journal of the Korean data & Information science Society, 21, 709-717.
  10. Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405 https://doi.org/10.1145/1010614.1010616