다차원 색인을 이용한 하향식 계층 클러스터링

Top-down Hierarchical Clustering using Multidimensional Indexes

  • 황재준 (국방과학연구소) ;
  • 문양세 ((주)인프라밸리 기술연구소) ;
  • 황규영 (한국과학기술원 전자전산학과)
  • 발행 : 2002.10.01

초록

최근 공간 데이타 분석, 영상 분석 등과 같은 대용량 데이타를 관리하는 다양한 응용 업무들이 증가함에 따라, 대용량의 데이타베이스를 위한 클러스터링 기법이 많이 연구되고 있다. 그 중에서도 계층 클러스터링 기법은 데이타베이스의 계층 분할을 표현하는 계층 트리를 생성하고 이를 이용하여 효율적인 클러스터링을 수행하는 방법으로서, 지금까지는 주로 트리를 하위 계층으로부터 상위 계층으로 생성해 가는 상향식(bottom-up) 계층 클러스터링 기법들이 연구되었다. 이러한 상향식 클러스터링 방법은 트리를 생성하기 위하여 전체 데이타베이스를 한 번 이상 액세스하여야 할 뿐만 아니라, 하위 계층에서부터 검색을 시작하기 때문에 트리의 많은 부분을 검색하여야 하는 문제점이 있다. 본 논문에서는 대부분의 데이타베이스 응용에서 이미 유지하고 있는 다차원 색인을 이용하여 클러스터링을 수행하는 새로운 하향식(top-down) 계층 클러스터링 기법을 제안한다. 일반적으로 다차원 색인에서는 가까운 객체들이 동일한 (혹은 인접한) 페이지에 저장될 가능성이 큰 클러스터링 성질을 가진다. 이러한 다차원 색인의 클러스터링 성질을 사용하면 각 객체들간의 거리를 일일이 계산하지 않고도 이웃한 객체들을 식별할 수 있다. 우선 객체들의 밀도에 기반하여 클러스터를 정형적으로 정의한다. 이를 위하여, 객체를 포함하는 영역의 밀도를 이용한 영역 대조 분할(region contrast partition) 개념을 사용한다. 또, 클러스터링 알고리즘에서의 빠른 검색을 위하여 분기 한정(branch-and-bound) 알고리즘을 사용하며, 여기서의 한계값(bound)을 제안하고 이의 정확성을 이론적으로 증명한다. 실험 결과, 제안한 방법은 상향식 계층 클러스터링 방법인 BIRCH와 비교하여, 정확성 측면에서 우수하거나 유사한 것으로 나타났으며, 데이타 페이지 액세스 횟수를 데이타베이스 크기에 따라 최고 26~187배까지 감소시킨 것으로 나타났다. 이 같은 결과로 볼 때, 제안한 방법은 대용량 데이타베이스에서의 클러스터링 성능을 크게 향상시키는 기법으로서, 일반 데이타베이스 응용에 실용적으로 적용 가능하다고 판단된다.

Due to recent increase in applications requiring huge amount of data such as spatial data analysis and image analysis, clustering on large databases has been actively studied. In a hierarchical clustering method, a tree representing hierarchical decomposition of the database is first created, and then, used for efficient clustering. Existing hierarchical clustering methods mainly adopted the bottom-up approach, which creates a tree from the bottom to the topmost level of the hierarchy. These bottom-up methods require at least one scan over the entire database in order to build the tree and need to search most nodes of the tree since the clustering algorithm starts from the leaf level. In this paper, we propose a novel top-down hierarchical clustering method that uses multidimensional indexes that are already maintained in most database applications. Generally, multidimensional indexes have the clustering property storing similar objects in the same (or adjacent) data pares. Using this property we can find adjacent objects without calculating distances among them. We first formally define the cluster based on the density of objects. For the definition, we propose the concept of the region contrast partition based on the density of the region. To speed up the clustering algorithm, we use the branch-and-bound algorithm. We propose the bounds and formally prove their correctness. Experimental results show that the proposed method is at least as effective in quality of clustering as BIRCH, a bottom-up hierarchical clustering method, while reducing the number of page accesses by up to 26~187 times depending on the size of the database. As a result, we believe that the proposed method significantly improves the clustering performance in large databases and is practically usable in various database applications.

키워드

참고문헌

  1. M. S. Chen, J. Han, and P. S. Yu, 'Data Mining: An Overview from a Database Perspective,' IEEE Trans. on Knowledge and Data Engineering, Vol. 8, No.6, pp. 866-883, Dec. 1996 https://doi.org/10.1109/69.553155
  2. M. Ester, H. P. Kriegel, J. Sander, and X. Xu, 'A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise,' In Proc. the 2nd Int'l Conf. on Knowledge Discovery and Data Mining(KDD), Portland, Oregon, pp. 226-231, Aug. 1996
  3. S. Guha, R. Rastogi, and K. S. Shim, 'CURE: An Efficient Clustering Algorithm: for Large Databases,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Seattle, Washington, pp. 73-84, June 1998 https://doi.org/10.1145/276304.276312
  4. R. T. Ng and J. Han, 'Efficient and Effective Clustering Methods for Spatial Data Mining,' In Proc. the 20th Int'l Conf. on Very Large Data Bases, Santiago, Chile, pp. 144-155, Sept. 1994
  5. W. Wang, J. Yang, and R. Muntz, 'STING: A Statistical Information Grid Approach to Spatial Data Mining,' In Proc. the 23rd Int'l Conf. on Very Large Data Bases, Athens, Greece, pp. 186-195, Aug. 1997
  6. T. Zhang, R. Ramakrishnan, and M. Livny, 'BIRCH: An Efficient Data Clustering Method for Very Large Databases,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Montreal, Quebec, Canada, pp. 103-114, June 1996 https://doi.org/10.1145/233269.233324
  7. M. Breunig, H. P. Kriegel, P. Kroger, and J. Sander, 'Data Bubbles: Quality Preserving Performance Boosting for Hierarchical Clustering,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Santa Barbara, California, pp. 79-90, May 2001 https://doi.org/10.1145/375663.375672
  8. V. Ganti, R. Ramakrishnan, J. Gehrke, A. Powell, and J. French, 'Clustering Large Datasets in Arbitrary Metric Spaces,' In Proc. the 15th Int'l Conf. on Data Engineering(ICDE), Sydney, Australia, pp. 502-511, Feb. 1999 https://doi.org/10.1109/ICDE.1999.754966
  9. M. Ankerst, M. Breunig, H. P. Kriegel, and J. Sander, 'OPTICS: Ordering Points To Identify the Clustering Structure,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Philadelphia, Pennsylvania, pp. 49-60, June 1999 https://doi.org/10.1145/304182.304187
  10. G. Karypis, E. H. Han, and V. Kumar, 'Chameleon: Hierarchical Clustering Using Dynamic Modeling,' IEEE Computer, Vol. 32, No.8, pp. 68-75, Aug. 1999 https://doi.org/10.1109/2.781637
  11. M. Ester, H. P. Kriegel, and X. Xu, 'Knowledge Discovery in Large Spatial Databases: Focusing Techniques for Efficient Class Identification,' In Proc. the 4th Int'l Symp. on Large Spatial Databases(SSD), Portland, Maine, pp. 67-82, Aug. 1995
  12. Erich Schikuta, 'Grid-clustering: An efficient hierarchical clustering method for very large data sets,' In Proc. the 13th Int. Conf. on Pattern Recognition, Vienna, Austria, Vol. 2, pp, 101-105, Oct. 1996 https://doi.org/10.1109/ICPR.1996.546732
  13. G. Sheikholeslami, S. Chatterjee, and A. Zhang, 'WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases,' In Proc. the 24th Int'l Conf. on Very Large Data Bases, New York City, New York, pp, 428-439, Aug. 1998
  14. Finding Groups in Data: An Introduction to Cluster Analysis L.Kaufman;P.J.Rousseeuw
  15. L. Kaufman and P. J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, 1990
  16. J. H. Lee, Y. K. Lee, K. Y. Whang, and I. Y. Song, 'A Region Splitting Strategy for Physical Database Design of Multidimensional File Organizations,' In Proc. the 23rd Int'l Conf. on Very Large Data Bases, Athens, Greece, pp. 416-425, Aug. 1997
  17. C. R. Palmer and C. Faloutsos, 'Density Biased Sampling: An Improved Method for Data Mining and Clustering,' In Proc. Int'l Conf. on Management of Data, ACM SIGMOD, Dallas, Texas, pp. 82-92, May 2000 https://doi.org/10.1145/342009.335384
  18. J. Nievergelt, H. Hinterberger, and K. C. Sevcik, 'The Grid File: An Adaptable, Symmetric Multikey File Structure,' ACM Trans. on Database Systems, Vol. 9, No.1, pp. 38-71. Mar. 1984 https://doi.org/10.1145/348.318586
  19. K. Y. Whang and R. Krishnamurthy, Multilevel Grid Files, IBM Research Report RC11516, 1985
  20. Kyu-Young Whang, Sang-Wook Kim, and Gio Wiederhold, 'Dynamic Maintenance of Data Distribution for Selectivity Estimation,' The VLDB Journal, Vol. 3, No.1, pp. 29-51, 1994 https://doi.org/10.1007/BF01231357