DOI QR코드

DOI QR Code

개방 데이터 마이닝에 효율적인 이동 윈도우 기법

A Sliding Window Technique for Open Data Mining over Data Streams

  • 장중혁 (연세대학교 대학원 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • 발행 : 2005.06.01

초록

근래들어 구성 요소가 빠른 속도로 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 개방 데이터 마이닝 방법들이 활발히 제안되고 있다. 데이터 스트림에 내재된 정보들은 시간 흐름에 따른 변화의 가능성이 매우 높다. 따라서, 이러한 변화를 빠른 시간에 분석할 수 있다면 해당 데이터 스트림에 대한 분석에서 보다 유용한 정보를 제공할 수 있다. 본 논문에서는 개방 데이터 마이닝 환경에서 효율적인 최근 빈발 항목 탐색을 위한 이동 윈도우 기법을 제시한다. 해당 기법에서는 데이터 스트림이 지속적으로 확장되더라도 지연 추가 및 전지 작업을 적용하여 마이닝 수행과정에서의 메모리 사용량이 매우 작게 유지되며, 분석 대상 범위의 데이터 객체들을 반복적으로 탐색하지 않기 때문에 각 시점에서 마이닝 결과를 짧은 시간에 구할 수 있다. 더불어, 해당 방법은 데이터 스트림의 최근 정보에 집중한 분석을 통해 해당 데이터 집합의 변화를 효율적으로 감지할 수 있다.

Recently open data mining methods focusing on a data stream that is a massive unbounded sequence of data elements continuously generated at a rapid rate are proposed actively. Knowledge embedded in a data stream is likely to be changed over time. Therefore, identifying the recent change of the knowledge quickly can provide valuable information for the analysis of the data stream. This paper proposes a sliding window technique for finding recently frequent itemsets, which is applied efficiently in open data mining. In the proposed technique, its memory usage is kept in a small space by delayed-insertion and pruning operations, and its mining result can be found in a short time since the data elements within its target range are not traversed repeatedly. Moreover, the proposed technique focused in the recent data elements, so that it can catch out the recent change of the data stream.

키워드

참고문헌

  1. G.S. Manku, R. Motwani, Approximate frequency counts over data streams, Proceedings of the 28th International Conference on Very Large Databases, Hong Kong, China, August, 2002
  2. C.-H. Lee, C.-R. Lin, M.-S. Chen, Sliding-window filtering: An efficient algorithm for incremental mining, Proceedings of the 10th International Conference on Information and Knowledge Management, Atlanta, GE, pp.263-270, November, 2001 https://doi.org/10.1145/502585.502630
  3. M. Datar, A. Gionis, P. Indyk, R. Motawi, Maintaining stream statistics over sliding windows, Proceedings of the 13th Annual ACM-SIAM Symposium on Discrete Algorithms, January, 2002
  4. S. Brin, R. Motwani, J.D. Ullman, S. Tsur, Dynamic itemset counting and implication rules for market basket data, Proceedings of the ACM SIGMOD International Conference on Management of Data, Tucson, AZ, pp.255-264, May, 1997 https://doi.org/10.1145/253260.253325
  5. R.C. Agarwal, C.C. Aggarwal, V.V.V. Prasad, Depth first generation of long patterns, Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, MA, pp.108-118, September, 2000 https://doi.org/10.1145/347090.347114
  6. R. Agrawal, R. Srikant, Fast algorithms for mining association rules, Proceedings of the 20th International Conference on Very Large Databases, Santiago, Chile, September, 1994
  7. A. Savasers, E. Omiecinski, S. Navathe, An efficient algorithm for mining association rules in large databases, Proceedings of the 21st International Conference on Very Large Databases, pp.432-444, 1995
  8. C. Hidber, Online association rule mining, Proceedings of the ACM SIGMOD International Conference on Management of Data, Philadelphia, PA, pp.145-156, May, 1999 https://doi.org/10.1145/304182.304195
  9. M. Charikar, K. Chen, M. Farach-Colton, Finding frequent items in data streams, Proceedings of the 29th International Colloquium on Automata, Language and Programming, 2002
  10. D. Lambert, J.C. Pinheiro, Mining a stream of transactions for customer patterns, Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.305-310, 2001 https://doi.org/10.1145/502512.502556
  11. G. Hulten, L. Spencer, P. Domingos, Mining time-changing data streams, Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.97-106, 2001 https://doi.org/10.1145/502512.502529
  12. 장중혁, 이원석. 데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색. 정보처리학회논문지D, 10-D(3), 2003
  13. M. Garofalakis, J. Gehrke, and R. Rastogi, Querying and Mining Data Streams: You Only Get One Look, The tutorial notes of the 28th Int'l Conference on Very on Large Data Bases, 2002 https://doi.org/10.1145/564691.564794