DOI QR코드

DOI QR Code

Performance analysis of Frequent Itemset Mining Technique based on Transaction Weight Constraints

트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법의 성능분석

  • Yun, Unil (Dept. of Computer Engineering, Sejong University) ;
  • Pyun, Gwangbum (Dept. of Computer Engineering, Sejong University)
  • Received : 2014.08.28
  • Accepted : 2015.01.21
  • Published : 2015.02.28

Abstract

In recent years, frequent itemset mining for considering the importance of each item has been intensively studied as one of important issues in the data mining field. According to strategies utilizing the item importance, itemset mining approaches for discovering itemsets based on the item importance are classified as follows: weighted frequent itemset mining, frequent itemset mining using transactional weights, and utility itemset mining. In this paper, we perform empirical analysis with respect to frequent itemset mining algorithms based on transactional weights. The mining algorithms compute transactional weights by utilizing the weight for each item in large databases. In addition, these algorithms discover weighted frequent itemsets on the basis of the item frequency and weight of each transaction. Consequently, we can see the importance of a certain transaction through the database analysis because the weight for the transaction has higher value if it contains many items with high values. We not only analyze the advantages and disadvantages but also compare the performance of the most famous algorithms in the frequent itemset mining field based on the transactional weights. As a representative of the frequent itemset mining using transactional weights, WIS introduces the concept and strategies of transactional weights. In addition, there are various other state-of-the-art algorithms, WIT-FWIs, WIT-FWIs-MODIFY, and WIT-FWIs-DIFF, for extracting itemsets with the weight information. To efficiently conduct processes for mining weighted frequent itemsets, three algorithms use the special Lattice-like data structure, called WIT-tree. The algorithms do not need to an additional database scanning operation after the construction of WIT-tree is finished since each node of WIT-tree has item information such as item and transaction IDs. In particular, the traditional algorithms conduct a number of database scanning operations to mine weighted itemsets, whereas the algorithms based on WIT-tree solve the overhead problem that can occur in the mining processes by reading databases only one time. Additionally, the algorithms use the technique for generating each new itemset of length N+1 on the basis of two different itemsets of length N. To discover new weighted itemsets, WIT-FWIs performs the itemset combination processes by using the information of transactions that contain all the itemsets. WIT-FWIs-MODIFY has a unique feature decreasing operations for calculating the frequency of the new itemset. WIT-FWIs-DIFF utilizes a technique using the difference of two itemsets. To compare and analyze the performance of the algorithms in various environments, we use real datasets of two types (i.e., dense and sparse) in terms of the runtime and maximum memory usage. Moreover, a scalability test is conducted to evaluate the stability for each algorithm when the size of a database is changed. As a result, WIT-FWIs and WIT-FWIs-MODIFY show the best performance in the dense dataset, and in sparse dataset, WIT-FWI-DIFF has mining efficiency better than the other algorithms. Compared to the algorithms using WIT-tree, WIS based on the Apriori technique has the worst efficiency because it requires a large number of computations more than the others on average.

최근, 아이템들의 가치를 고려한 빈발 아이템셋 마이닝 방법은 데이터 마이닝 분야에서 가장 중요한 이슈 중 하나로 활발히 연구되어왔다. 아이템들의 가치를 고려한 마이닝 기법들은 적용 방법에 따라 크게 가중화 빈발 아이템셋 마이닝, 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝, 유틸리티 아이템셋 마이닝으로 구분된다. 본 논문에서는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝들에 대해 실증적인 분석을 수행한다. 일반적으로 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법들은 데이터베이스 내 아이템들의 가치를 고려함으로써 트랜잭션 가중치를 계산한다. 또한, 그 기법들은 계산된 각 트랜잭션의 가중치를 바탕으로 가중화 빈발 아이템셋들을 마이닝 한다. 트랜잭션 가중치는 트랜잭션 내에 높은 가치의 아이템이 많이 포함 될수록 높은 값으로 나타나기 때문에 우리는 각 트랜잭션의 가중치의 분석을 통해 그 가치를 파악할 수 있다. 우리는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 기법 중에서 가장 유명한 알고리즘인 WIS와 WIT-FWIs, IT-FWIs-MODIFY, WIT-FWIs-DIFF의 장 단점을 분석하고 각각의 성능을 비교한다. WIS는 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝의 개념과 그 기법이 처음 제안된 알고리즘이며, 전통적인 빈발 아이템셋 마이닝 기법인 Apriori를 기반으로 하고 있다. 또 다른 트랜잭션 가중치 기반의 빈발 아이템셋 마이닝 방법인 WIT-FWIs와 WIT-FWIs-MODIFY, WIT-FWIs-DIFF는 가중화된 빈발 아이템셋 마이닝을 더 효율적으로 수행하기 위해 격자구조(Lattice) 형태의 특별한 저장구조인 WIT-tree를 이용한다. WIT-tree의 각 노드에는 아이템셋 정보와 아이템셋이 포함된 트랜잭션의 ID들이 저장되며, 이 구조를 사용함으로써 아이템셋 마이닝 과정에서 발생되는 다수의 데이터베이스 스캔 과정이 감소된다. 특히, 전통적인 알고리즘들이 수많은 데이터베이스 스캔을 수행하는 반면에, 이 알고리즘들은 WIT-tree를 이용해 데이터베이스를 오직 한번만 읽음으로써 마이닝과정에서 발생 가능한 오버헤드 문제를 해결한다. 또한, 공통적으로 길이 N의 두 아이템셋을 이용해 길이 N+1의 새로운 아이템셋을 생성한다. 먼저, WIT-FWIs는 각 아이템셋이 동시에 발생되는 트랜잭션들의 정보를 활용하는 것이 특징이다. WIT-FWIs-MODIFY는 조합되는 아이템셋의 정보를 이용해 빈도수 계산에 필요한 연산을 줄인 알고리즘이다. WIT-FWIs-DIFF는 두 아이템셋 중 하나만 발생한 트랜잭션의 정보를 이용한다. 우리는 다양한 실험환경에서 각 알고리즘의 성능을 비교분석하기 위해 각 트랜잭션의 형태가 유사한 dense 데이터와 각 트랜잭션의 구성이 서로 다른 sparse 데이터를 이용해 마이닝 시간과 최대 메모리 사용량을 평가한다. 또한, 각 알고리즘의 안정성을 평가하기 위한 확장성 테스트를 수행한다. 결과적으로, dense 데이터에서는 WIT-FWIs와 WIT-FWIs-MODIFY가 다른 알고리즘들보다 좋은 성능을 보이고 sparse 데이터에서는 WIT-FWI-DIFF가 가장 좋은 효율성을 갖는다. WIS는 더 많은 연산을 수행하는 알고리즘을 기반으로 했기 때문에 평균적으로 가장 낮은 성능을 보인다.

Keywords

References

  1. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules", Proceedings of 20th International Conference on Very Large Data Bases, pp. 487-499, 1994. http://dl.acm.org/citation.cfm?id=672836
  2. L. Cagliero and P. Garza, "Infrequent Weighted Itemset Mining Using Frequent Pattern Growth", IEEE Transactions on Knowledge and Data Engineering, Vol. 26, no. 4, pp. 903-915, 2014. http://dx.doi.org/10.1109/TKDE.2013.69
  3. J. Han, J. Pei, Y. Yin, and R. Mao, "Mining frequent patterns without candidate generation : a frequent pattern tree approach", Data Mining and Knowledge Discovery, Vol. 8, no. 1, pp. 53-87, 2004. http://dl.acm.org/citation.cfm?id=954525 https://doi.org/10.1023/B:DAMI.0000005258.31418.83
  4. Y. Kim, W. Kim, and U. Kim, "Mining Frequent Itemsets with Normalized Weight in Continuous Data Streams", The Journal of Information Processing Systems, Vol. 6, no. 1, pp. 79-90, 2010. http://65.54.113.26/Publication/13268251/mining-frequent-itemsets-with-normalized-weight-in-continuous-data-streams https://doi.org/10.3745/JIPS.2010.6.1.079
  5. Y. Lee and S. Park, "Optimal Moving Pattern Mining using Frequency of Sequence and Weights", Journal of Korean Society for Internet Information, Vol. 10, no. 5, pp. 79-94, 2009. http://www.koreascience.or.kr/article/ArticleFullRecord.jsp?cn=OTJBCD_2009_v10n5_79
  6. C. Lin, T. Hong, G. Lan, J. Wong, W. Lin, "Incrementally mining high utility patterns based on pre-large concept", Applied Intelligence, Vol. 40, no. 2, pp. 343-357, 2014. http://dl.acm.org/citation.cfm?id=2584602 https://doi.org/10.1007/s10489-013-0467-z
  7. H. Min, J. Park, D. Lee, and I. Kim, "Outlier Detection Method for Mobile Banking with User Input Pattern and E-finance Transaction Pattern", Journal of Korean Society for Internet Information, Vol. 15, no. 1, 157-170, 2014. http://www.researchgate.net/publication/264171355_Outlier_Detection_Method_for_Mobile_Banking_with_User_Input_Pattern_and_E-finance_Transaction_Pattern
  8. G.D. Ramkumar, S. Ranka, and S. Tsur, "Weighted Association Rules: Model and Algorithm", Proceedings of 4th ACM International Conference on Knowledge Discovery and Data Mining, pp. 661-666, 1998. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.22.9320
  9. H. Ryang and U. Yun, "Performance Analysis of Frequent Pattern Mining with Multiple Minimum Supports", Journal of Korean Society for Internet Information, Vol. 14, no. 6, 1-8, 2013. http://dx.doi.org/10.7472/jksii.2013.14.6.01
  10. M. Shin and W. Paik, "Design and Implementation of Sequential Pattern Miner to Analyze Alert Data Pattern", Journal of Korean Society for Internet Information, Vol. 10, no. 2, pp. 1-13, 2009. http://ocean.kisti.re.kr/IS_mvpopo001P.do?method=multMain&poid=ksii1&free=
  11. B. Vo, F. Coenen, and B. Le, "A new method for mining Frequent Weighted Itemsets based on WIT-trees", Expert system with applications, Vol. 40, pp. 1256-1264, 2013. http://dl.acm.org/citation.cfm?id=2400944 https://doi.org/10.1016/j.eswa.2012.08.065
  12. U. Yun, "On pushing weight constraints deeply into frequent itemset mining", Intelligent Data Analysis, Vol. 13, no. 2, pp. 359-383, 2009. http://iospress.metapress.com/content/b1720248602407ut/
  13. S. Zhang, P. Guo, Jifu Z., X. Wang, and W. Pedrycz, "A completeness analysis of frequent weighted concept lattices and their algebraic properties", Data and Knowledge Engineering, Vols. 81-82, pp. 104-117, 2012. http://www.sciencedirect.com/science/article/pii/S0169023X12000833 https://doi.org/10.1016/j.datak.2012.08.002