DOI QR코드

DOI QR Code

An Efficient Method for Mining Frequent Patterns based on Weighted Support over Data Streams

데이터 스트림에서 가중치 지지도 기반 빈발 패턴 추출 방법

  • Kim, Young-Hee (School of Information and Communication Engineering, Sungkyunkwan University) ;
  • Kim, Won-Young (School of Information and Communication Engineering, Sungkyunkwan University) ;
  • Kim, Ung-Mo (School of Information and Communication Engineering, Sungkyunkwan University)
  • 김영희 (성균관대학교 정보통신공학부) ;
  • 김원영 (Dept. of Computer Education, ChungBuk National University) ;
  • 김응모 (Dept. of Computer Education, ChungBuk National University)
  • Published : 2009.08.31

Abstract

Recently, due to technical developments of various storage devices and networks, the amount of data increases rapidly. The large volume of data streams poses unique space and time constraints on the data mining process. The continuous characteristic of streaming data necessitates the use of algorithms that require only one scan over the stream for knowledge discovery. Most of the researches based on the support are concerned with the frequent itemsets, but ignore the infrequent itemsets even if it is crucial. In this paper, we propose an efficient method WSFI-Mine(Weighted Support Frequent Itemsets Mine) to mine all frequent itemsets by one scan from the data stream. This method can discover the closed frequent itemsets using DCT(Data Stream Closed Pattern Tree). We compare the performance of our algorithm with DSM-FI and THUI-Mine, under different minimum supports. As results show that WSFI-Mine not only run significant faster, but also consume less memory.

다양한 저장 장치의 발달과 네트워크의 발전은 대용량의 데이터를 연속적으로 빠르게 생성한다. 데이터 스트림에서의 데이터 마이닝은 처리 시간 및 메모리 사용에 제한적이다. 또한 생성된 데이터를 한 번의 스캔으로 유용한 패턴을 발견할 수 있어야 하고 정보 변화 가능성이 큰 데이터 속성을 갖는 경우 최근의 정보를 반영한 빠른 분석이 가능해야 한다. 기존의 지지도 기반 마이닝 방법들은 일정 기간 동안 미리 정의된 지지도 이상의 빈발 항목에 대하여만 고려하므로 중요도가 높은 항목들을 간과하는 문제점을 가지고 있다. 본 논문에서는 시간의 변화에 따른 가변성을 고려하여 가중치 지지도를 갖는 데이터 항목들에 대하여 보다 의미 있는 정보를 제공하기 위한 효율적인 빈발패턴 추출 방법을 제안하고자 한다. 제안된 WSFI-Mine(Weighted Support Frequent Itemsets Mine) 방법은 DCT(Data Stream Closed Pattern Tree) 데이터 구조를 이용하여 패쇄 빈발 항목을 탐사한다. 제안된 알고리즘은 DSM-FI와 THUI-Mine 알고리즘과 지지도 변화에 따른 성능을 비교하였고 그 결과 비교 알고리즘 보다 수행 시간이 우수함을 보였고, 빈발 항목을 생성하는 후보 항목의 수를 줄이므로 메모리 사용량을 효율적으로 사용할 수 있음을 보였다.

Keywords

References

  1. Chang, J., Lee, W.: A Sliding Window Method for Finding Recently Frequent Itemsets over Online Data Streams. Journal of Information Science and Engineering, Vol. 20, No. 4, July, 2004.
  2. Agrawal, R., Srikant, R.: Fast Algorithms for Mining Association Rules. In Conf. of the 20th VLDB conference, pp. 487-499, 1994.
  3. Manku, G. S., Motwani, R.: Approximate Frequency Counts Over Data Streams. In Proc. of the 28th VLDB, pp. 346-357, 2002.
  4. Li., H.F., Lee, S.Y., Shan, M. K.: An Efficient Algorithm for Mining Frequent Itemsets over the Entire History of Data Streams. In Proceedings of First International Workshop on Knowledge Discovery in Data Streams 9IWKDDS, 2004.
  5. Li., H. F., Lee, S.Y., Shan, M. K.: Online Mining (Recently) Maximal Frequent Itemsets over Data Streams. In Proceedings of the 15th IEEE International Workshop on Research Issues on Data Engineering(RIDE), 2005. https://doi.org/10.1109/RIDE.2005.13
  6. Li, H. F., Lee, S. Y.: Mining frequent itemsets over data streams using efficient window sliding techniques. Expert Systems with Applications, 2008.
  7. Lee, C. H., Lin, C. R., Chen, M. S.: Sliding window filtering: An efficient method for incremental mining on a time-variant database. Information Systems, 30, pp. 227-244, 2005. https://doi.org/10.1016/j.is.2004.02.001
  8. Chi, Y., Wang, H., Yu, P. S., Muntz, R. R.: Moment: Maintaining Closed Frequent Itemsets over a Stream Sliding Window. In Proceedings of the Fourth IEEE International Conference on Data Mining (ICDM'04), 2004. https://doi.org/10.1109/ICDM.2004.10084
  9. Chu, C.J., Tseng, V.S., Mao, R.: An efficient algorithm for mining temporal high utility itemsets from data streams. The Journal of System and Software, no81, pp. 1105-1117, 2008. https://doi.org/10.1016/j.jss.2007.07.026
  10. Yun, U., Leggett, J, J.: WFIM: Weighted Frequent Itemset Mining with a weight range and a minimum weight. Proceedings of the Fourth SIAM International Conference on Data Mining, pp636-640, 2005.
  11. http://fimi.cs.helsinki.fi/data/

Cited by

  1. A Study on Prediction Model of Equipment Failure Through Analysis of Big Data Based on RHadoop pp.1572-834X, 2018, https://doi.org/10.1007/s11277-017-4151-1