데이타 축소와 군집화를 사용하는 시공간 데이타의 이산화 기법

Discretizing Spatio-Temporal Data using Data Reduction and Clustering

  • 강주영 (이화여자대학교 컴퓨터학과) ;
  • 용환승 (이화여자대학교 컴퓨터학과)
  • 발행 : 2009.01.15

초록

항목 기반의 순차 패턴 마이닝 기법들을 시공간 데이타에 적용하기 위해서는 시공간 속성 값에 대한 적절한 이산화가 필수적이다. 본 논문에서는 입력 데이타의 시공간적 상판 정보를 유지함과 동시에 데이타 수를 축소시킴으로써 마이닝 프로세스의 효율성을 높이는 이산화 기법을 제안한다. 제안된 기법은 선 단순화를 사용하여 궤적에 대한 근사치를 구함으로써 마이넘 단계에서 처리할 데이터 크기를 축소시킨다. 또한 단순화 된 궤적을 유사한 시공간적 특성을 가지는 논리적 그룹으로 군집화하여 데이터의 분포를 고려한 이산화를 수행한다. 실험을 통해 제안된 기법이 마이넝 프로세스의 효율성을 높일 뿐 아니라 보다 직관적이고 해석이 용이한 패턴을 도출하는 것을 보였다.

To increase the efficiency of mining process and derive accurate spatio-temporal patterns, continuous values of attributes should be discretized prior to mining process. In this paper, we propose a discretization method which improves the mining efficiency by reducing the data size without losing the correlations in the data. The proposed method first s original trajectories into approximations using line simplification and then groups them into similar clusters. Our experiments show that the proposed approach improves the mining efficiency as well as extracts more intuitive patterns compared to existing discretization methods.

키워드

참고문헌

  1. Agrawal R. and Srikant R., Mining Sequential Patterns, In Proc. of ICDE, pp. 3-14, Mar., 1995
  2. Tsoukatos, I. and Gunopulos, D., Efficient mining of spatiotemporal patterns, In Proc. of Int'l. Symp. on Spatial and Temporal Databases., pp. 425-442, Jul., 2001
  3. Hussain, F., Liu, H., Tan, C. L. and M. Dash., Discretization: An Enabling Technique. Journal of Data Mining and Knowledge Discovery, Vol.6, No.4, pp. 393-423, Jun., 2002 https://doi.org/10.1023/A:1016304305535
  4. Yavas, G., Katsaros, D., Ulusoy, O. and Manolopoulos. Y., A data mining approach for location prediction in mobile environments, Data and Knowledge Engineering. Vol.54, No.2, pp. 121-146, Aug., 2005 https://doi.org/10.1016/j.datak.2004.09.004
  5. Mamoulis, N., Cao, H., Kollios, G., Hadjielef-therious, M., Tao, Y. and Cheung, D. W., Mining, indexing, and querying histroical spatiotemporal data, In Proc. of 10th Int'l Conference on KDD, pp. 236-245, Aug., 2004 https://doi.org/10.1145/1014052.1014080
  6. Cao, H., Mamoulis, N., Cheung, D. W., Mining frequent spatio-temporal sequential patterns., In Proc. of Data Mining, pp. 82-89, Nov., 2005 https://doi.org/10.1109/ICDM.2005.95
  7. Hershberger,J. and Snoeyink.J., Speeding up the Douglas-Peucker line-simplication algorithm, In Proc.of 5th Int'l Symp. on Data Handling, pp. 134-143, Aug., 1992
  8. Zhang, T., Ramakrishman, R. and Livny. M., BIRCH: An efficient data clustering method for very large databases. In Proc. of SIGMOD, pp. 103-114, Jun., 1996
  9. Tzouramanis, T., Vassilakopoulos, M. and Mano-lopoulos. Y., On the generation of time-evolving regional data, Geoinformatica, Vol.6, No.3, pp. 207-231, Sep., 2002 https://doi.org/10.1023/A:1019705618917
  10. Pei, J., Han, J., Mortazavi-Asl, B., Pinto, H., Chen, Q., Dayal, U. and Hsu. M.C., PrefixSpan: Mining sequential patterns efficiently by prefix-projected pattern growth, In Proc. of 17th Int'l Conference on Data Engineering, pp. 215-224, Apr., 2001