대용량 순차 데이터베이스에서 근사 순차패턴 탐색

Mining Approximate Sequential Patterns in a Large Sequence Database

  • 발행 : 2006.04.01


순차패턴 탐색은 다양한 응용 분야에서 매우 중요한 데이터 마이닝 작업으로 간주된다. 그러나 기존의 순차패턴 탐색 방법들은 길이가 긴 순차패턴이나 노이즈 정보를 다수 포함한 데이터베이스에 대한 마이닝에서는 한계가 있다. 해당 방법들은 매우 짧고 사소한 패턴들은 탐색하지만 다수의 순차 정보들에서 공유되는 중요 패턴들을 분석하는데 어려움을 겪는다. 본 논문에서는 이러한 문제를 해결하기 위한 방법으로 대용량 데이터베이스에 대한 근사 순차패턴 탐색 방법을 제안한다. 근사 순차패턴은 다수의 순차 정보들에서 근사적으로 공유되는 순차패턴을 의미한다. 제안된 방법은 두 과정으로 구분된다. 하나는 유사도에 따라 분석 대상 순차 정보들을 몇 개의 군집으로 나누는 과정이며, 다른 하나는 다중 정렬 방식을 적용하여 각 군집으로부터 대표 패턴을 찾는 과정이다. 이를 위해서 다수의 순차 정보들을 하나로 표현할 수 있는 가중치 순차패턴을 제시하며, 다수의 순차 정보들은 가중치 순차패턴 형태로 통합된다. 이렇게 통합된 정보를 가진 각 가중치 순차패턴을 이용하여 여러 순차 정보와 근사한 하나의 대표 패턴을 생성한다. 끝으로, 다양한 실험을 통해서 제안된 방법의 유용성을 검증한다.

Sequential pattern mining is an important data mining task with broad applications. However, conventional methods may meet inherent difficulties in mining databases with long sequences and noise. They may generate a huge number of short and trivial patterns but fail to find interesting patterns shared by many sequences. In this paper, to overcome these problems, we propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. The proposed method works in two steps: one is to cluster target sequences by their similarities and the other is to find consensus patterns that ire similar to the sequences in each cluster directly through multiple alignment. For this purpose, a novel structure called weighted sequence is presented to compress the alignment result, and the longest consensus pattern that represents each cluster is generated from its weighted sequence. Finally, the effectiveness of the proposed method is verified by a set of experiments.



  1. R. Agrawal and R. Srikant, Mining Sequential Patterns, Proceedings of the 11th Ini'l Conference on Data Engineering, pp.3-14, Taipei, Taiwan, Mar., 1995
  2. J. Pei, J. Han, B. Mortazavi-Asi, H. Pinto, Q. Chen, U. Dayal, and M.-C. Hsu, PrefixSpan : Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth, Proceedings of the 17th Int'l Conference on Data Engineering, 2001
  3. X. Yan, J. Han, and R. Afshar. CloSpan : Mining Closed Sequential Patterns in Large Datasets. In Third SIAM International Conference on Data Mining (SDM), pp.166-177, San Francisco. CA, 2003
  4. J. Ayres, J. Flannick, J. Gehrke, and T. Yiu. Sequential pattern mining using a bitmap representation. Proceedings of the ACM SIGKDD Int'l Conferences on Knowledge Discovery and Data Mining, pp.429-435, Edmonton, Canada, Jul., 2002
  5. S. Parthasarathy, M.J. Zaki, M. Ogihara, and S. Dwarkadas, Incremental and Interactive Sequence Mining, Proceedings of the 8th Int'l Conference on Information and Knowledge Management, 1999
  6. O. Gotoh. Multiple sequence alignment: Algorithms and applications. Advanced Biophysics, Vol.36, pp.159-206, 1999
  7. D. Gusfield. Algorithms on strings, trees, and sequences. Computer Science and Computational Biology, Cambridge University Press, Cambridge, England, 1997
  8. J. Thompson, F. Plewniak, and O. Poch. A comprehensive comparison of multiple sequence alignment programs. Nucleic Acids Research. Vol.27, No.13, pp.2682-2690, Oxford University Press. 1999
  9. C. Yang, U. Fayyad, and P.S. Bradley. Efficient discovery of error-tolerant frequent itemsets in high dimensions. Proc. of the ACM SIGKDD Ini'l Conf. on Knowledge Discovery and Data Mining, pp.194-203, 2001
  10. J. Yang, P. S. Yu, W. Wang, and J. Han. Mining long sequential patterns in a noisy environment. In Proc. of ACM Int'l Conference On Management of Data (SIGMOD), pp.406-417, Madison, WI, June, 2002
  11. M. A. Wong and T. Lane. A kth Nearest Neighbor Clustering Procedure. In Journal of the Royal Statistical Society, Series B, 45, pp.362-368, 1983