Mining Frequent Pattern from Large Spatial Data

대용량 공간 데이터로 부터 빈발 패턴 마이닝

  • 이동규 (충북대학교 데이터베이스연구실) ;
  • 이경민 (충북대학교 데이터베이스연구실) ;
  • 정석호 (충북대학교 데이터베이스연구실) ;
  • 이성호 (한국전자통신연구원) ;
  • 류근호 (충북대학교 전자정보대학 컴퓨터공학부)
  • Received : 2010.01.26
  • Accepted : 2010.03.19
  • Published : 2010.03.30

Abstract

Many researches of frequent pattern mining technique for detecting unknown patterns on spatial data have studied actively. Existing data structures have classified into tree-structure and array-structure, and those structures show the weakness of performance on dense or sparse data. Since spatial data have obtained the characteristics of dense and sparse patterns, it is important for us to mine quickly dense and sparse patterns using only single algorithm. In this paper, we propose novel data structure as compressed patricia frequent pattern tree and frequent pattern mining algorithm based on proposed data structure which can detect frequent patterns quickly in terms of both dense and sparse frequent patterns mining. In our experimental result, proposed algorithm proves about 10 times faster than existing FP-Growth algorithm on both dense and sparse data.

공간 및 비 공간 데이터에서 알지 못했던 패턴을 탐사하는 빈발 패턴 탐사 기법은 마이닝 분야에서 가장 핵심적인 부분으로 많은 연구가 활발히 진행되고 있다. 기존의 자료구조들은 트리 구조 및 배열 구조로써 밀집 또는 희소 빈발 패턴에서 성능 저하를 보인다. 대용량의 공간 데이터는 밀집 및 희소 빈발 패턴을 둘 다 가지므로 단일 알고리즘으로 빠르게 탐사 하는 것은 중요하다. 본 논문에서는 단일 알고리즘을 사용하면서도 밀집 및 희소 빈발 패턴 모두에 대해 빠르게 빈발 패턴을 마이닝할 수 있는 압축된 패트리샤 빈발 패턴 트리라는 새로운 자료구조와 이를 사용한 빈발 패턴 마이닝 알고리즘을 제안한다. 실험 평가는 제안한 알고리즘이 대용량 희소 및 밀집 빈발 데이터에서 기존의 FP-Growth 알고리즘 보다 약 10배 정도 빠르게 빈발 패턴을 탐사하는 것을 보인다.

Keywords

References

  1. 박성승, 손호선, 이동규, 지은미, 김희석, 류근호, "u-City응용에서의 시간 패턴을 이용한 단기 전력 부하 예측," 한국공간정보시스템학회 논문지, 제11권, 제2호, 2009, pp. 177-181.
  2. 서성보, 이용미, 이준욱, 남광우, 류근호, 박진수, "RFID 데이터 스트림에서 이동궤적 패턴의 탐사," 한국공간정보시스템학회 논문지, 제11권, 제1호, 2009, pp. 127-136.
  3. J. Han, H. Cheng, D. Xin, and X. Yan, "Frequent pattern mining: current status and future directions," Proceedings of the Data Mining and Knowledge Discovery, Springer Netherlands, 2007.
  4. 김의찬, 김계현, 이철용, 박은지, "비트 클러스터링을 이용한 빈발 패턴 탐사의 성능 개선 방안," 한국공간정보시스템학회 논문지, 제9권, 제1호, 2007, pp. 105-115.
  5. 홍남관, 최진우, 양영규, "퍼지논리와 교통패턴을 이용한 유고검지 모형에 관한 연구," 한국공간정보시스템학회 논문지, 제9권, 제1호, 2007, pp. 79-90.
  6. 박지웅, 김동오, 홍동숙, 한기준, "시공간 이동 패턴추출을 위한 효율적인 알고리즘," 한국공간정보시스템학회 논문지, 제8권, 제2호, 2006, pp. 39-52.
  7. 홍성한, 황병연, "수직구조 기반의 빈발 이동 객체 패턴 탐색 기법," 한국공간정보시스템학회 2005년도 추계학술대회, 2005, pp. 75-79.
  8. R. Agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," Proceedings of the 20th International Conference on Very Large Data Bases, Santiago, Chile, 1994, pp. 487-499.
  9. 이경민, 정석호, 신동문, Ibrahim Musa Ishag Musa, 이동규, 손교용, 류근호, "효율적인 밀집 및 희소 빈발 항목 집합 탐색 방법," 제31회 정보처리학회 춘계학 술대회 논문집, 제16권 제1호, 2009, pp. 375-376.
  10. R. P. Gopalan and Y. G. Sucahyo, "High Performance Frequent Pattern Extraction using Compressed FPTrees," Proceedings of the SIAM International Workshop on High Performance and Distributed Mining (HPDM), Orlando, USA, 2004.
  11. A. Pietracaprina, and D. Zandolin, "Mining Frequent Itemsets using Patricia Tries," Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI'03), Melbourne, Florida, USA, 2003.
  12. J. Liu, Y. Pan, K. Wang, and J. Han, "Mining Frequent Item Sets by Opportunistic Projection," Proceedings of ACM SIGKDD, Edmonton, Alberta, Canada, 2002.
  13. J. Pei, J. Han, H. Lu, S. Nishio, S. Tang, and D. Yang, "H-Mine: Hyper-Structure Mining of Frequent Patterns in Large Databases," Proceedings of the IEEE International Conference on Data Mining (ICDM), San Jose, California, USA, 2001, pp. 441-448.
  14. J. Han, J. Pei, and Y. Yin, "Mining Frequent Patterns without Candidate Generation," Proceedings of the ACM SIGMOD International Conference on Management of Data, Dallas, TX, USA, 2000, pp. 1-12.
  15. J. S. Park, M. S. Chen, and P. S. Yu, "An effective hash based algorithm for mining association rules," Proceedings of the 1995 ACM SIGMOD international conference on Management of data, New York, NY, USA, 1995, pp. 175-186.
  16. B. Goethals, Home page of Bart Goethals, http://www.adrem.ua.ac.be/~goethals/.
  17. FIMI, Frequent Itemset Mining Implementations Repository, http://fimi.cs.helsinki.fi/.
  18. Z. Zheng, R. Kohavi, and L. Mason, "Real World Performance of Association Rule Algorithms," Proceedings of the Seventh ACM-SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2001, pp. 1-14.