DOI QR코드

DOI QR Code

A Study of Criterion for Efficient Clustering Estimation of Temporal Data

Temporal 데이터의 효율적 군집 추정을 위한 기준 연구

  • 전진호 (관동대학교, 경영학과) ;
  • 김민수 (관동대학교, 호텔경영학과)
  • Received : 2011.06.30
  • Accepted : 2011.10.14
  • Published : 2011.10.31

Abstract

Most real world system such as world economy, management, medical and engineering applications contain a series of complex phenomena. One of common methods to understand these system is to build a model and analyze the behavior of the system. As a first step, Determining the best clusters on data. As a second step, Determining the model of the cluster. In this paper, we investigated heuristic search methods for efficient clustering. It is also confirmed that the Bayesian Information Criterion more reliable than Cheeseman-Stutz ones.

실세계에서 사용되는 많은 정보시스템들은 복잡한 동적 현상을 나타낸다. 이러한 동적 현상을 갖는 정보시스템들을 이해하는 방법은 시스템에서 발생된 데이터들을 통하여 모델을 세우고 분석하는 것으로서 동적 현상을 이해할 수 있다. 모델을 세우고 분석하는 과정은 두 단계로 이루어진다. 첫 번째는 시스템에서 발생되는 대용량의 데이터에 대하여 효율적 군집을 결정하는 과정이며, 두 번째 과정은 각 군집에 대한 적합한 모델을 결정하는 과정이다. 본 연구에서는 두 과정 증 첫 번째 과정인 대용량 temporal 데이터들에 대하여 정확한 군집 수를 추정하기 위한 기준들을 살펴보고 인공적으로 실험데이터를 생성하여 실험을 하였다. 실험 결과 살펴본 베이지안정보기준이 올바른 군집 수를 추정하는 결과를 갖는 것을 확인하였다.

Keywords

References

  1. 오용생, 남도원 ,장지숙, 이동하, 이전영.,"시계열데이터로부터 경향성을 이용한 순차패턴의 탐색",한국지능정보시스템학회 학술대회 논문집, pp325-332, 2000.
  2. A.K. Jain and D. C. Dube, Algorithem for clustering data, Prentice Hall, 1988.
  3. D. S. Hirschberg, "Algorithem for longest common subsequence problem," Journal of Association of Computer Machine 24, pp664-675, 1977. https://doi.org/10.1145/322033.322044
  4. T. Oates, " Identifying distinctive subsequences in multivariate time series by clustering," Proceedings of the sixteenth International Conference on Machine Learning, 1999.
  5. Y. Huhtala, J. Karkkinen, H. Toivonen, and N. R, "Mining for similarity in aligned time series using wavlets," Proceedings of SPIE on Data Mining and knowledge Discover: Theory, Tools, and Technology, 1999.
  6. L. Rabiner, " A tutorial on Hidden Markov Models and selected applications in speech recognition," Proc. of IEEE77, pp.257-286, 1989.
  7. 조영희.,"시계열데이터의 의미기반 패턴매칭과 예측에 관한 연구", 단국대학교 박사학위논문, 2009.
  8. 전진호.,"시계열데이터의 모델기반 클러스터링을 통한 예측모델 결정에 관한 연구", 단국대학교 박사학위 논문, 2007.
  9. Cheeseman, P., and Stutz, J. "Bayesian classification(autoclass)" Kluwer Academic Publishers, Vol 70. pp117-126, 1996.
  10. Heckerman, D., Geiger, D., and Chekering, D. M. "A tutorial on learning with bayesian networks," machine Learning 20, pp.197-243, 1995.