• Title/Summary/Keyword: 고차원 클러스터링

Search Result 39, Processing Time 0.023 seconds

A Clustering using Two-Dimensional Projection in High-Dimensional Data (고차원 데이터에서 2차원 프로젝션을 이용한 클러스터링)

  • 장미희;이혜명;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.16-18
    • /
    • 2001
  • 데이터마이닝 기법 중의 하나인 플러스터링은 대용량 데이터베이스에서 유사한 특징을 가진 객체들을 집단화하는데 사용되는 매우 유용한 분석방법이다. 그러나 대부분의 클러스터링 알고리즘들은 고차원 데이터에서는 성능이 급격히 저하된다. 이것은 고차원 데이터 집합이 상당한 양의 잡음을 포함하고 있기 때문이며 고차원 데이터 고유의 희소성에 기인한다. 이에 따라 고차원 데이터의 구조와 특성을 지원하는데 적합한 클러스터링 기법이 개발되고 있다. 본 논문에서는 고차원 클러스터링에서 잡음 데이터를 효과적으로 제거하기 위한 새로운 알고리즘을 제안하는데, 이 일고리즘은 고차원 데이터의 저차원으로의 변환에 기초한다. 저 차원으로 변환을 위해 2차원 프로젝션을 이용하며, 반복적으로 2차원 프로젝션을 적용하여 잡음을 단계적으로 최소화한다. 이와 같은 2차원 프로젝션은 잡음을 점차적으로 줄여줄 뿐 아니라, 데이터 분포에 대한 시각화 작업에도 용이하다.

  • PDF

High-Dimensional Clustering Technique using Incremental Projection (점진적 프로젝션을 이용한 고차원 글러스터링 기법)

  • Lee, Hye-Myung;Park, Young-Bae
    • Journal of KIISE:Databases
    • /
    • v.28 no.4
    • /
    • pp.568-576
    • /
    • 2001
  • Most of clustering algorithms data to degenerate rapidly on high dimensional spaces. Moreover, high dimensional data often contain a significant a significant of noise. which causes additional ineffectiveness of algorithms. Therefore it is necessary to develop algorithms adapted to the structure and characteristics of the high dimensional data. In this paper, we propose a clustering algorithms CLIP using the projection The CLIP is designed to overcome efficiency and/or effectiveness problems on high dimensional clustering and it is the is based on clustering on each one dimensional subspace but we use the incremental projection to recover high dimensional cluster and to reduce the computational cost significantly at time To evaluate the performance of CLIP we demonstrate is efficiency and effectiveness through a series of experiments on synthetic data sets.

  • PDF

A Comparison and Analysis on High-Dimensional Clustering Techniques for Data Mining (데이터 마이닝을 위한 고차원 클러스터링 기법에 관한 비교 분석 연구)

  • 김홍일;이혜명
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.12
    • /
    • pp.887-900
    • /
    • 2003
  • Many applications require the clustering of large amounts of high dimensional data. Most automated clustering techniques have been developed but they do not work effectively and/or efficiently on high dimensional (numerical) data, which is due to the so-called “curse of dimensionality”. Moreover, the high dimensional data often contain a significant amount of noise, which causes additional ineffectiveness of algorithms. Therefore, it is necessary to look over the structure and various characteristics of high dimensional data and to develop algorithm that support clustering adapted to applications of the high dimensional database. In this paper, we investigate and classify the existing high dimensional clustering methods by analyzing the strength and weakness of each method for specific applications and comparing them. Especially, in terms of efficiency and effectiveness, we compare the traditional algorithms with CLIP which are developed by us. This study will contribute to develop more advanced algorithms than the current algorithms.

  • PDF

Extended High Dimensional Clustering using Iterative Two Dimensional Projection Filtering (반복적 2차원 프로젝션 필터링을 이용한 확장 고차원 클러스터링)

  • Lee, Hye-Myeong;Park, Yeong-Bae
    • The KIPS Transactions:PartD
    • /
    • v.8D no.5
    • /
    • pp.573-580
    • /
    • 2001
  • The large amounts of high dimensional data contains a significant amount of noises by it own sparsity, which adds difficulties in high dimensional clustering. The CLIP is developed as a clustering algorithm to support characteristics of the high dimensional data. The CLIP is based on the incremental one dimensional projection on each axis and find product sets of the dimensional clusters. These product sets contain not only all high dimensional clusters but also they may contain noises. In this paper, we propose extended CLIP algorithm which refines the product sets that contain cluster. We remove high dimensional noises by applying two dimensional projections iteratively on the already found product sets by CLIP. To evaluate the performance of extended algorithm, we demonstrate its effectiveness through a series of experiments on synthetic data sets.

  • PDF

Effective Clustering Method for High-Dimensional Indexes (고차원 색인을 위한 효과적 클러스터링 기법)

  • 신봉근;곽태영;최승락;이윤준;김명호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.247-249
    • /
    • 1998
  • 최근 들어 내용기반의 이미지 검색을 지원하기 위한 방법으로, 특징 벡터를 이용한 유사 질의 연구가 활발히 진행되고 있다. 이러한 유사 질의를 효율적으로 지원하기 위해서는 고차원 공간상에 존재하는 점 데이터나 공간 데이터를 효과적으로 색인할 수 있는 색인 기법이 필요하다. 하지만 R*-트리를 바탕으로 하는 기존의 방법들은 고차원 데이터에 대해서 차원의 증가함에 따라 검색 시간이 급격하게 증가하는 문제점을 안고 있다. 이러한 문제는 데이터의 클러스터링에 기반을 둔 기존의 방법들이 차원이 증가함에 따라 데이터를 제대로 클러스터링하지 못하기 때문에 발생하며, 따라서 이를 해결하기 위해서는 효과적인 클러스터링 기법이 필요하다. 본 논문에서는 하나의 최소 한계 영역(minimum bounding region)에 속하는 개체들의 응집 정도와 최소 한계 영역들간의 결합 정도를 고려하여 효과적으로 클러스터링하는 방안을 제안한다. 또한 이러한 클러스터링 기법을 수용하기 위한 색인 기법을 간략히 제시한다

SVM based Clustering Technique for Processing High Dimensional Data (고차원 데이터 처리를 위한 SVM기반의 클러스터링 기법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.7
    • /
    • pp.816-820
    • /
    • 2004
  • Clustering is a process of dividing similar data objects in data set into clusters and acquiring meaningful information in the data. The main issues related to clustering are the effective clustering of high dimensional data and optimization. This study proposed a method of measuring similarity based on SVM and a new method of calculating the number of clusters in an efficient way. The high dimensional data are mapped to Feature Space ones using kernel functions and then similarity between neighboring clusters is measured. As for created clusters, the desired number of clusters can be got using the value of similarity measured and the value of Δd. In order to verify the proposed methods, the author used data of six UCI Machine Learning Repositories and obtained the presented number of clusters as well as improved cohesiveness compared to the results of previous researches.

A Clustering using Incremental Projection for High Dimensional Data (고차원 데이터에서 점진적 프로젝션을 이용한 클러스터링)

  • 이혜명;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.189-191
    • /
    • 2000
  • 데이터 마이닝의 방법론 중 클러스터링은 데이터베이스 객체들의 에트리뷰트 값에 근거하여 유사한 그룹으로 식별하는 기술적인 작업이다. 그러나 대부분 알고리즘들은 데이터의 차원이 증가할수록 형성된 전체 데이터 공간은 매우 방대하므로 의미있는 클러스터의 탐색이 더욱 어렵다. 따라서 효과적인 클러스터링을 위해서는 클러스터가 포함될 데이터 공간의 예측이 필요하다. 본 논문에서는 고차원 데이터에서 각 차원에 대한 점진적 프로젝션을 이용한 클러스터링 방법을 제안한다. 제안한 방법에서는 클러스터가 포함될 가능성이 있는 데이터공간의 후보영역을 결정하여, 이 영역에서 점들의 평균값을 중심으로 클러스터를 탐색한다.

  • PDF

Efficient K-means Clustering for High-dimensional Large Data (고차원 대규모 데이터를 위한 효율적인 K-means 클러스터링)

  • Yoon, Tae-Sik;Shim, Kyu-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.33-36
    • /
    • 2011
  • 클러스터링은 데이터 포인트들을 그룹으로 묶어 데이터를 분석하는데 유용하다. 특히 K-means는 가장 널리 쓰이는 클러스터링 알고리즘으로 k개의 군집(Cluster)을 찾는다. 본 논문에서는 기존의 K-means 알고리즘과 비교해 고차원 대규모데이터에 대해서 효율적으로 동작하는 K-means 알고리즘을 제안한다. 제안된 알고리즘은 기존의 알고리즘에서와 같이 거리 정보를 이용해 불필요한 계산을 줄여나가며 또한 움직임 없는 군집들을 계산에서 제외하여 수행시간을 단축한다. 제안된 알고리즘은 기존의 관련연구에서 제안된 알고리즘에 비해 공간을 적게 쓰면서 동시에 빠르다. 실제 고차원 데이터 실험을 통해서 제안된 알고리즘의 효율성을 보였다.

An Effective Algorithm for Subdimensional Clustering of High Dimensional Data (고차원 데이터를 부분차원 클러스터링하는 효과적인 알고리즘)

  • Park, Jong-Soo;Kim, Do-Hyung
    • The KIPS Transactions:PartD
    • /
    • v.10D no.3
    • /
    • pp.417-426
    • /
    • 2003
  • The problem of finding clusters in high dimensional data is well known in the field of data mining for its importance, because cluster analysis has been widely used in numerous applications, including pattern recognition, data analysis, and market analysis. Recently, a new framework, projected clustering, to solve the problem was suggested, which first select subdimensions of each candidate cluster and then each input point is assigned to the nearest cluster according to a distance function based on the chosen subdimensions of the clusters. We propose a new algorithm for subdimensional clustering of high dimensional data, each of the three major steps of which partitions the input points into several candidate clutters with proper numbers of points, filters the clusters that can not be useful in the next steps, and then merges the remaining clusters into the predefined number of clusters using a closeness function, respectively. The result of extensive experiments shows that the proposed algorithm exhibits better performance than the other existent clustering algorithms.

A Cell-based Clustering Method for Large High-dimensional Data in Data Mining (데이타마이닝에서 고차원 대용량 데이타를 위한 셀-기반 클러스터 링 방법)

  • Jin, Du-Seok;Chang, Jae-Woo
    • Journal of KIISE:Databases
    • /
    • v.28 no.4
    • /
    • pp.558-567
    • /
    • 2001
  • Recently, data mining applications require a large amount of high-dimensional data Most algorithms for data mining applications however, do not work efficiently of high-dimensional large data because of the so-called curse of dimensionality[1] and the limitation of available memory. To overcome these problems, this paper proposes a new cell-based clustering which is more efficient than the existing algorithms for high-dimensional large data, Our clustering method provides a cell construction algorithm for dealing with high-dimensional large data and a index structure based of filtering .We do performance comparison of our cell-based clustering method with the CLIQUE method in terms of clustering time, precision, and retrieval time. Finally, the results from our experiment show that our cell-based clustering method outperform the CLIQUE method.

  • PDF