• 제목/요약/키워드: 클러스터 개수

Search Result 121, Processing Time 0.027 seconds

Systematic Determination of Number of Clusters Based on Input Representation Coverage (클러스터 분석을 위한 IRC기반 클러스터 개수 자동 결정 방법)

  • 신미영
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.41 no.6
    • /
    • pp.39-46
    • /
    • 2004
  • One of the significant issues in cluster analysis is to identify a proper number of clusters hidden under given data. In this paper we propose a novel approach to systematically determine the number of clusters based on Input Representation Coverage (IRC), which is newly defined as a quantified value of how well original input data in Gaussian feature space can be captured with a certain number of clusters. Furthermore, its usability and applicability is also investigated via experiments with synthetic data. Our experiment results show that the proposed approach is quite useful in approximately finding the real number of clusters implicitly contained in the data.

A Method for Determining the Number of Clusters in Data Clustering (데이터 클러스터링에서 클러스터 수 결정방안)

  • Lee, Byung-Soo;Hong, Jiwon;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.1268-1269
    • /
    • 2011
  • 데이터마이닝 분야에서는 주어진 공간상에 분포되어있는 데이터들을 분석위해 다양한 클러스터링 알고리즘이 존재한다. 그러나 대부분의 클러스터링 알고리즘에서는 클러스터 전체 개수를 미리 요구한다. 이 때문에 클러스터링 알고리즘에서 클러스터 전체개수를 미리 알아내는 것은 매우 중요하다. 본 논문에서는 데이터에 분포하는 클러스터들의 개수를 데이터의 그래프 모델을 이용한 분석으로 찾아내는 방법을 제안한다.

Cataract Extraction and Analysis of Pet Image by Using Enhanced FCM (개선된 FCM 기법을 이용한 애견 영상에서의 백내장 추출 및 분석)

  • Lee, Jae-min;Kim, Min-Seok;Yu, Seung-Won;Lee, Hae-Ill;Kim, Kwang Beak
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.524-526
    • /
    • 2016
  • 본 논문에서는 클러스터의 개수를 다양하게 설정하여 누적된 변화율이 가장 작은 변화율을 가진 클러스터 개수를 동적으로 설정하는 방법을 제안하여 백내장 영역을 추출하는 방법을 제안한다. 제안된 백내장 추출 방법은 애견 안구 영상에서 관심 영역을 ROI 영역으로 설정한다. 설정된 ROI 영역에 퍼지 스트레칭 기법을 적용하여 픽셀의 상한 값과 하한 값을 조정한다. 퍼지 스트레칭 기법이 적용된 ROI 영역에서 FCM 알고리즘을 적용하여 클러스터 소속 행렬의 중심 값의 변화율이 가장 적은 개수를 최적의 클러스터 개수로 설정하여 ROI 영역을 양자화 한다. 양자화된 ROI 영역에서 침식 및 팽창 기법을 적용하고 ROI 영역의 면적을 기준으로 1/5보다 적은 면적을 가진 객체를 잡음으로 간주하여 제거한다. 잡음이 제거된 ROI 영역에서 ROI 면적의 3/5이상인 영역을 가진 안구 객체를 백내장 영역으로 추출한다. 제안된 방법의 효율성을 분석하기 위해서 애견 안구 영상을 대상으로 실험한 결과, 기존의 FCM을 적용하여 ROI 영역을 양자화 하는 처리 시간보다 제안된 클러스터 수 설정 기반 FCM을 적용한 양자화 방법이 처리 시간이 적게 소요되고 객체들을 정확히 분류하는 것을 실험을 통하여 확인하였다.

  • PDF

An efficient heuristics for determining the optimal number of cluster using clustering balance (클러스터링 균형을 사용하여 최적의 클러스터 개수를 결정하기 위한 효율적인 휴리스틱)

  • Lee, Sangwook
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2009.05a
    • /
    • pp.792-796
    • /
    • 2009
  • Determining the optimal number of cluster is an important issue in research area of data clustering. It is choosing the cluster validity method and finding the cluster number where it optimizes the cluster validity. In this paper, an efficient heuristic for determining optimal number of cluster using clustering balance is proposed. The experimental results using k-means at artificial and real-life data set show that proposed algorithm is excellent in aspect of time efficiency.

  • PDF

A Clustering Algorithm using the Genetic Algorithm (진화알고리즘을 이용한 클러스터링 알고리즘)

  • 류정우;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.313-315
    • /
    • 2000
  • 클러스터링에 있어서 K-means와 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최소 해에 수렴될 문제와 사전에 클러스터 개수를 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적 해를 찾는 진화 알고리즘을 사용하여 지역적 최소 해에 수렴되는 문제점을 개선하였으며, 클러스터의 특성을 표준편차 벡터를 계산하여 중심으로부터 포함된 데이터가 얼마나 분포되어 있는지 알 수 있는 분산도와 임의의 데이터와 모든 중심들간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터간의 간격을 알 수 있는 분리도를 정의함으로써 자동으로 클러스터 개수를 결정할 수 있게 하였다. 실험데이터와 가우시안 분포에 의해 생성된 다차원 실험데이터를 사용하여 제안한 알고리즘이 이러한 문제점들을 해결하고 있음을 보인다.

  • PDF

Neighbor Node Discovery and Load Balancing Schemes for Energy-Efficient Clustering in Wireless Sensor Networks (주변 노드 발견을 통한 무선 센서 네트워크에서의 에너지 효율적인 클러스터링 및 전력 균형 분산 기법)

  • Choi, Ji-Young;Kang, Chung-Gu
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.31 no.11A
    • /
    • pp.1147-1158
    • /
    • 2006
  • Clustering algorithm is an essential element to implement a hierarchical routing protocol, especially for a large-scale wireless sensor network. In this paper, we propose a new type of energy-efficient clustering algorithm, which maximizes the physical distance between cluster head and gateway by a neighbor node discovery mechanism. Furthermore, a slave/master patching scheme is introduced as a useful means of further improving the energy-efficiency. It has been shown that the number of cluster heads can be reduced by as many as 21% as compared with the existing clustering algorithms.

Speaker Identification with Estimating the Number of Cluster Based on Boundary Subtractive Clustering (경계 차감 클러스터링에 기반한 클러스터 개수 추정 화자식별)

  • Lee, Youn-Jeong;Choi, Min-Jung;Seo, Chang-Woo;Hahn, Hern-Soo
    • The Journal of the Acoustical Society of Korea
    • /
    • v.26 no.5
    • /
    • pp.199-206
    • /
    • 2007
  • In this paper we propose a new clustering algorithm that performs clustering the feature vectors for the speaker identification. Unlike typical clustering approaches, the proposed method performs the clustering without the initial guesses of locations of the cluster centers and a priori information about the number of clusters. Cluster centers are obtained incrementally by adding one cluster center at a time through the boundary subtractive clustering algorithm. The number of clusters is obtained from investigating the mutual relationship between clusters. The experimental results for artificial datum and TIMIT DB show the effectiveness of the proposed algorithm as compared with the conventional methods.

Unsupervised Cluster Estimation using Subtractive HyperBox Algorithm (차감 HyperBox 알고리듬을 이용한 Unsupervised 클러스터 추정)

  • Moon, Seong-Hwan;Choi, Byeong-Geol;Kang, Hun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1997.10a
    • /
    • pp.87-90
    • /
    • 1997
  • Mountain Method의 다른 형태인 Subtractive 클러스터링 알고리듬은 계산이 간단하고 기존의 클러스터링 방법들과는 달리 초기 클러스터 중심의 개수 선정이 필요 없기 때문에 클러스터를 추정하는데 효과적인 알고리듬이다. 또한 클러스터의 간격을 결정하는 파라미터의 값에 따라 클러스터의 개수를 다르게 할 수 있다. 그러나 이 파라미터에 의해 동일한 그룹(Class)내에서 여러 개의 클러스터 중심이 발생될 수도 있다. 본 논문에서는 Subtractive HyperBox 알고리듬을 사용하여 이 파라미터의 영향을 줄이고 발생한 클러스터 중심이 속한 그룹의 경계를 판정함으로서 같은 그룹내에서 하나의 클러스터만 발생하도록 하고, 순차적으로 클러스터링 한 후 결과를 Subtractive 클러스터링 알고리듬과 비교하여 보았다.

  • PDF

SVM based Clustering Technique for Processing High Dimensional Data (고차원 데이터 처리를 위한 SVM기반의 클러스터링 기법)

  • Kim, Man-Sun;Lee, Sang-Yong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.7
    • /
    • pp.816-820
    • /
    • 2004
  • Clustering is a process of dividing similar data objects in data set into clusters and acquiring meaningful information in the data. The main issues related to clustering are the effective clustering of high dimensional data and optimization. This study proposed a method of measuring similarity based on SVM and a new method of calculating the number of clusters in an efficient way. The high dimensional data are mapped to Feature Space ones using kernel functions and then similarity between neighboring clusters is measured. As for created clusters, the desired number of clusters can be got using the value of similarity measured and the value of Δd. In order to verify the proposed methods, the author used data of six UCI Machine Learning Repositories and obtained the presented number of clusters as well as improved cohesiveness compared to the results of previous researches.

The Effect of the Number of Phoneme Clusters on Speech Recognition (음성 인식에서 음소 클러스터 수의 효과)

  • Lee, Chang-Young
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.9 no.11
    • /
    • pp.1221-1226
    • /
    • 2014
  • In an effort to improve the efficiency of the speech recognition, we investigate the effect of the number of phoneme clusters. For this purpose, codebooks of varied number of phoneme clusters are prepared by modified k-means clustering algorithm. The subsequent processing is fuzzy vector quantization (FVQ) and hidden Markov model (HMM) for speech recognition test. The result shows that there are two distinct regimes. For large number of phoneme clusters, the recognition performance is roughly independent of it. For small number of phoneme clusters, however, the recognition error rate increases nonlinearly as it is decreased. From numerical calculation, it is found that this nonlinear regime might be modeled by a power law function. The result also shows that about 166 phoneme clusters would be the optimal number for recognition of 300 isolated words. This amounts to roughly 3 variations per phoneme.