정량 정보를 포함한 순차 패턴 마이닝 알고리즘

Sequential Pattern Mining Algorithms with Quantities

  • 김철연 (서울대학교 전기컴퓨터공학부) ;
  • 임종화 (한국과학기술원 전산학과) ;
  • ;
  • 심규석 (서울대학교 전기컴퓨터공학부)
  • 발행 : 2006.10.15

초록

순차 패턴을 찾는 것은 데이타마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 경제나 과학분야와 같은 많은 분야에서는 정량 정보가 아이템과 같이 기록되어 있으며, 기존의 알고리즘이 처리하지 못하는 이러한 정량 정보는 사용자에게 보다 유용한 정보를 전달하여 줄 수 있다. 본 논문에서는 정량 정보를 포함한 순차패턴 마이닝 문제를 제안하였다. 기존의 순차패턴 알고리즘에 대한 단순한 확장으로는 모든 정량에 대한 후보 패턴들을 모두 생성하기 때문에 확대된 탐색 공간을 효율적으로 탐색할 수 없음을 보이고, 이러한 단순한 확장 알고리즘의 성능을 대폭 향상시키기 위하여 정량 정보에 대해 해쉬 필터링과 정량 샘플링 기법을 제안하였다. 다양한 실험 결과들은 제안된 기법들이 단순히 확장된 알고리즘과 비교하여 수행시간을 매우 단축시켜 줄 뿐만 아니라, 데이타베이스 크기에 대한 확장성 또한 향상시켜줌을 보여 준다.

Discovering sequential patterns is an important problem for many applications. Existing algorithms find sequential patterns in the sense that only items are included in the patterns. However, for many applications, such as business and scientific applications, quantitative attributes are often recorded in the data, which are ignored by existing algorithms but can provide useful insight to the users. In this paper, we consider the problem of mining sequential patterns with quantities. We demonstrate that naive extensions to existing algorithms for sequential patterns are inefficient, as they may enumerate the search space blindly. Thus, we propose hash filtering and quantity sampling techniques that significantly improve the performance of the naive extensions. Experimental results confirm that compared with the naive extensions, these schemes not only improve the execution time substantially but also show better scalability for sequential patterns with quantities.

키워드

참고문헌

  1. R. Agrawal and R. Srikant, 'Mining Sequential Patterns,' Proc. of ICDE, Taipei, Taiwan, Mar., 1995
  2. H. Mannila, H. Toivonen and A. Inkeri Verkamo, 'Discovery of Frequent Episodes in Event Sequences,' Data Mining and Knowledge Discovery, Vol. 1, No.3, 1997 https://doi.org/10.1023/A:1009748302351
  3. R. Agrawal and R. Srikant, 'Mining Sequential Patterns: Generalizations and performance improvements,' Proc. of EDBT, Avignon, France, Mar., 1996
  4. J. Pei, J. Han, B. Mortazavi- Asl, H. Pinto, Q. Chen, U. Dayal and M.-C. Hsu, 'Prefixspan: Mining sequential patterns efficiently by prefixprojected pattern growth,' Proc. of KDD. Apr., 2001
  5. M. Garofalakis, R. Rastogi and K. Shim, 'SPIRIT: Sequential pattern mining with regular expression constraints,' Proc. of VLDB, Edinburgh, UK, Sep., 1999
  6. R. Agrawal and R. Srikant, 'Fast Algorithms for Mining Association Rules,' Proc. of VLDB, Santiago, Chile, Sep., 1994
  7. R. Srikant, and R. Agrawal, 'Mining Generalized Association Rules,' Proc. of VLDB, Zurich, Switzerland, Sep., 1995
  8. J. Park, M. Chen and P. S. Yu, 'An Effective Hash Based Algorithm for Mining Association Rules,' Proc. of SIGMOD, San Jose, California, May, 1995 https://doi.org/10.1145/223784.223813
  9. R. Agarwal, C. Aggarwal, and V. V. V. Prasad, 'Depth-first generation of long patterns,' Proc. Of KDD, Boston, MA, Aug., 2000 https://doi.org/10.1145/347090.347114
  10. J. Han, J. Pei, and Y. Yin, 'Mining frequent patterns without candidate generation,' Proc. of SIGMOD, Dallas, TX., May, 2000 https://doi.org/10.1145/342009.335372
  11. R. J. Bayardo, 'Fast Subsequence Matching in Time-Series Databases,' Proc. of SIGMOD, Seattle, Washington, Jun., 1998 https://doi.org/10.1145/191839.191925
  12. N. Pasquier, Y. Bastide, R. Taouil and L. Lakhal, 'Discovering frequent closed itemsets for association rules,' Proc. of ICDT, Jerusalem, Israel, Jan. 1999
  13. K. Gouda and M. J. Zaki, 'Efficiently mining maximal frequent itemsets,' Proc. of ICDM, San Jose, CA, Nov., 2000 https://doi.org/10.1109/ICDM.2001.989514
  14. D. Burdick, M. Calimlim and J. Gehrke, 'MAFIA: a maximal frequent itemset algorithm for transactional databases,' Proc. of ICDE, Heidelberg, Germany, Apr., 2001 https://doi.org/10.1109/ICDE.2001.914857
  15. J. Wang, J. Han and J. Pei. 'CLOSET+: searching for the best strategies for mining frequent closed itemsets,' Proc. of KDD, Washington, DC, Aug., 2003 https://doi.org/10.1145/956750.956779
  16. F. N. Afrati, A. Gionis and H. Mannila, 'Approximating a collection of frequent sets,' Proc. of KDD, Seattle, Washington, Aug., 2004 https://doi.org/10.1145/1014052.1014057
  17. D. Xin, J. Han, X. Yan and H. Cheng, 'Mining Compressed Frequent-Pattern Sets,' Proc. of VLDB, Trondheim, Norway, Aug., 2005