DOI QR코드

DOI QR Code

Finding Frequent Itemsets based on Open Data Mining in Data Streams

데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색

  • 장중혁 (연세대학교 대학원 컴퓨터과학과) ;
  • 이원석 (연세대학교 컴퓨터과학과)
  • Published : 2003.06.01

Abstract

The basic assumption of conventional data mining methodology is that the data set of a knowledge discovery process should be fixed and available before the process can proceed. Consequently, this assumption is valid only when the static knowledge embedded in a specific data set is the target of data mining. In addition, a conventional data mining method requires considerable computing time to produce the result of mining from a large data set. Due to these reasons, it is almost impossible to apply the mining method to a realtime analysis task in a data stream where a new transaction is continuously generated and the up-to-dated result of data mining including the newly generated transaction is needed as quickly as possible. In this paper, a new mining concept, open data mining in a data stream, is proposed for this purpose. In open data mining, whenever each transaction is newly generated, the updated mining result of whole transactions including the newly generated transactions is obtained instantly. In order to implement this mechanism efficiently, it is necessary to incorporate the delayed-insertion of newly identified information in recent transactions as well as the pruning of insignificant information in the mining result of past transactions. The proposed algorithm is analyzed through a series of experiments in order to identify the various characteristics of the proposed algorithm.

기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다.

Keywords

References

  1. A. Berson and S. J. Smith, Data Warehousing, Data Mining, and OLAP: On-Line Analytical Processing, McGraw-Hill, New York, pp.247-266, 1997
  2. S. Gallant, G. Piatetsky-Shapiro and M. Tan, Value-based data mining for CRM. In tutorial notes of the 7th ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining, SanFrancisco, CA, Aug., 2001 https://doi.org/10.1145/502786.502793
  3. S. J. Stolfo, A. L. Prodromidis, S. Tselepis, W. Lee, D. Fan and P. K. Chan, JAM: Java agents for meta-learning over distributed databases, In Proc. of the KDD and AAAI Workshop on AI Methods on Fraud and Risk Management, 1997
  4. R. Agrawal and R. Srikant, Fast algorithms for mining association rules, In Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sep., 1995
  5. S. Brin, R. Motwani, J. D. Ullman and S. Tsur, Dynamic itemset counting and implication rules for market basket data, In Proc. of the ACM SIGMOD Int'l Conference on Management of Data, Tucson, AZ, pp.255-264, May, 1997 https://doi.org/10.1145/253260.253325
  6. A. Savasers, E. Omiecinski and S. Navathe, An efficient algorithm for mining association rules in large databases, In Proc. of the 21st Int'l Conference on Very Large Database, Zurich, Switzerland, pp.432-444, Sept., 1995
  7. S. Guha, R. Rastogi and K. Shim, CURE: A clustering algorithm for large databases, In Proc. of the ACM SIGMOD Int'l Conference on Management of Data, Seattle, WA, pp.73-84, June, 1998 https://doi.org/10.1145/276304.276312
  8. G. S. Manku and R. Motwani, Approximate frequency counts over data streams, In Proc. of the 28th Int'l Conference on Very Large Databases, Hong Kong, China, Aug., 1994
  9. M. Charikar, K. Chen and M. Farach-Colton, Finding Frequent Items In Data Streams, In Proc. of the 29th Int'l Colloq. on Automata, Language and Programming, 2002
  10. C. Hidber, Online association rule mining, In Proc. of the ACM SIGMOD Int'l Conference on Management of Data, Philadelphia, PA, pp.145-156, May, 1999 https://doi.org/10.1145/304182.304195
  11. Y. Aumann, R. Feldman, O. Lipshtat and H. Manilla, Borders: An efficient algorithm for association generation in dynamic databases, Journal of Intelligent Information System, Vol.12, No.1, pp.61-73, 1999 https://doi.org/10.1023/A:1026482903537
  12. V. Ganti, J. Gehrke and R. Ramakrishnan, DEMON: Mining and monitoring evolving data, In Proc. of the 16th Int'l Conference on Data Engineering, San Diego, California, pp.439-448, Feb., 2000 https://doi.org/10.1109/ICDE.2000.839443
  13. R. C. Agarwal, C. C. Aggarwal and V. V. V. Prasad, Depth first generation of long patterns, In Proc. of the 6th ACM SIGKDD Int'l Conference on Knowledge Discovery and Data Mining, Boston, MA, pp.108-118, Sep., 2000 https://doi.org/10.1145/347090.347114
  14. S. Cuha, R. Rastogi and K. Shim, ROCK: A robust clustering algorithm for categorical attributes, In Proc. of the 15th Int'l Conference on Data Engineering, Sydney, Australia, pp.512-521, May, 1999 https://doi.org/10.1109/ICDE.1999.754967