DOI QR코드

DOI QR Code

Utilizing the Effect of Market Basket Size for Improving the Practicality of Association Rule Measures

연관규칙 흥미성 척도의 실용성 향상을 위한 장바구니 크기 효과 반영 방안

  • 김원서 (국민대학교 비즈니스IT전문대학원) ;
  • 정승렬 (국민대학교 비즈니스IT전문대학원) ;
  • 김남규 (국민대학교 비즈니스IT전문대학원)
  • Published : 2010.02.28

Abstract

Association rule mining techniques enable us to acquire knowledge concerning sales patterns among individual items from voluminous transactional data. Certainly, one of the major purposes of association rule mining is utilizing the acquired knowledge to provide marketing strategies such as catalogue design, cross-selling and shop allocation. However, this requires too much time and high cost to only extract the actionable and profitable knowledge from tremendous numbers of discovered patterns. In currently available literature, a number of interest measures have been devised to accelerate and systematize the process of pattern evaluation. Unfortunately, most of such measures, including support and confidence, are prone to yielding impractical results because they are calculated only from the sales frequencies of items. For instance, traditional measures cannot differentiate between the purchases in a small basket and those in a large shopping cart. Therefore, some adjustment should be made to the size of market baskets because there is a strong possibility that mutually irrelevant items could appear together in a large shopping cart. Contrary to the previous approaches, we attempted to consider market basket's size in calculating interest measures. Because the devised measure assigns different weights to individual purchases according to their basket sizes, we expect that the measure can minimize distortion of results caused by accidental patterns. Additionally, we performed intensive computer simulations under various environments, and we performed real case analyses to analyze the correctness and consistency of the devised measure.

연관규칙 마이닝은 물품들 간의 동시 구매 패턴 파악에 사용되는 대표적 마이닝 기법 중 하나로, 카탈로그 설계, 교차판매, 매장배치 등 다양한 마케팅 전략 수립에 활용된다. 방대한 데이터로부터 도출된 많은 연관규칙 중 수익성이 있는 규칙만을 식별해 내는 작업은 지나치게 많은 시간 및 비용을 필요로 한다. 따라서 연관규칙들의 흥미성 평가 과정을 신속하고 체계적으로 수행하기 위해 다양한 흥미성 척도들이 고안되어 왔다. 하지만 신뢰도와 지지도를 비롯한 대다수의 척도들은 대상 물품들의 발생 빈도수에만 근거하여 도출되므로, 실제 판매 현상을 정확하게 반영하지 못한다는 한계를 갖는다. 예를 들어, 기존의 척도는 매우 큰 장바구니에서 동시 구매된 한 건의 거래와 작은 크기의 장바구니에서 동시 구매된 한 건의 거래를 동일한 빈도로 측정한다. 그런데 매우 큰 장바구니에서는 서로 연관관계가 없는 물품들이 우연히 동시에 존재할 가능성이 크므로, 이에 대한 보정이 이루어지는 것이 타당하다. 기존의 척도들과 달리, 본 논문에서는 장바구니 크기 효과를 반영한 흥미성 척도를 새롭게 소개한다. 제안하는 척도는 큰 바구니에서 발생한 패턴과 작은 바구니에서 발생한 패턴에 대해 상이한 가중치를 부여하는 방식으로 계산됨으로써, 우연히 발생한 패턴으로 인해 결과가 왜곡되는 현상을 최소화할 수 있을 것으로 기대된다. 또한, 시뮬레이션 데이터 및 실 데이터에 대한 실험을 통해 제안하는 척도와 기존 척도가 다양한 환경 하에서 보이는 정확성과 일관성을 분석하고 그 결과를 제시하였다.

Keywords

References

  1. J. Han and M. Kamber, “Data Mining: Concepts and Techniques,” Morgan Kaufmann Publishers, California, 2007.
  2. D. Olson and Y. Shi, “Introduction to Business Data Mining,” McGraw-Hill, New York, 2007.
  3. R. Agrawal, T. Imielinski, and A. Swami, “Mining Association Rules between Sets of Items in Large Databases,” in Proc. ACM SIGMOD International Conference on Management of Data, Washington D.C, pp.207-216, 1993.
  4. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," in Proc. 20th International Conference on Very Large Data Bases, Santiago, Chile, pp.487-499, 1994
  5. 한경록, “CRM과 SCM의 전략적 통합을 위한 데이터 마이닝의 활용,” LGCNS 엔트루정보기술연구소, 제7권, pp.151-161, 2008.
  6. 한갑수, “연관규칙 탐사 응용을 위한 한 번 읽기에 의한 최대크기 빈발항목 추정기법,” 정보처리학회논문지(D), 제15권, 제4호, pp.475-484, 2008. https://doi.org/10.3745/KIPSTD.2008.15-D.4.475
  7. 채덕진, 김룡, 이용미, 황부현, 류근호, “한 번의 데이터베이스 탐색에 의한 빈발항목집합 탐색,” 정보처리학회논문지(D), 제15권, 제1호, pp.15-30, 2008. https://doi.org/10.3745/KIPSTD.2008.15-D.1.15
  8. K. Wang, Y. He, and J. Han, “Pushing Support Constraints into Association Rule Mining,” IEEE Transactions on Knowledge and Data Engineering, Vol.15, No.3, pp.642-657, 2003. https://doi.org/10.1109/TKDE.2003.1198396
  9. W. Y. Lin and M. C. Tseng, “Automated Support Specification for Efficient Mining of Interesting Association Rules,” Journal of Information Science, Vol.32, No.3, pp.238-250, 2006. https://doi.org/10.1177/0165551506064364
  10. 송명진, 김대인, 황부현. “인터벌이벤트의 영향력관계에 기반한 연관규칙 탐사기법,” 한국정보과학회 2009 한국컴퓨터종합학술대회 논문집(C), 제36권, 제1호, pp.96-100, 2009.
  11. B. Barber and H. Hamilton, “Extracting Share Frequent Itemsets with Infrequent Subsets,” Data Mining and Knowledge Discovery, Vol.7, pp.153-185, 2003. https://doi.org/10.1023/A:1022419032620
  12. L. Geng and H. J. Hamilton, “Interestingness Measures for Data Mining: A Survey,” ACM Computing Surveys, Vol.38, No.3, 2006. https://doi.org/10.1145/1132960.1132963
  13. P. Lenca, B. Vaillant, P. Meyer, and S. Lallich, “Association Rule Interestingness Measures: Experimental and Theoretical Studies,” Quality Measures in Data Mining, Chap.3, Springer, pp.51-76, 2007.
  14. P. Lenca, P. Meyer, B. Vaillant, and S. Lallich, “On Selecting Interestingness Measures for Association Rules: User Oriented Description and Multiple Criteria Decision Aid,” European Journal of Operational Research, Vol.184, No.2, pp.610-626, 2008. https://doi.org/10.1016/j.ejor.2006.10.059
  15. P. N. Tan, V. Kumar, and J. Srivastava, “Selecting the Right Interestingness Measure for Association Patterns,” in Proc. 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Alberta, Canada, pp.32-41, 2002.
  16. R. Agrawal, M. Mehta, J. C. Shafer, R. Srikant, A. Arning, and T. Bollinger, “The Quest Data Mining System,” in Proc. 2nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Portland, Oregon, pp.244-249, 1996.
  17. C. Cooper and M. Zito, “Realistic Synthetic Data for Testing Association Rule Mining Algorithms for Market Basket Databases,” in Proc. 11th European Conference on Principles and Practice of Knowledge Discovery in Databases, Warsaw, Poland, pp.398-405, 2007.
  18. 김남규, “장바구니 크기가 연관규칙 척도의 정확성에 미치는 영향,” 경영정보학연구, 제18권, 제2호, pp.95-114, 2008.