• 제목/요약/키워드: Mixture of multivariate normal distributions

검색결과 4건 처리시간 0.017초

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

다변량 경험분포그림과 적합도 검정 (Multivariate empirical distribution plot and goodness-of-fit test)

  • 홍종선;박용호;박준
    • 응용통계연구
    • /
    • 제30권4호
    • /
    • pp.579-590
    • /
    • 2017
  • 다변량 자료의 분포함수를 알고 있거나 추정할 수 있으면 다변량 경험분포함수를 정의할 수 있다. 이변량인 경우에는 계단그림과 분위그림을 사용하여 경험분포함수를 시각화할 수 있는데, 본 연구에서는 다변량인 경우에 경험분포함수를 정사각형에 표현할 수 있는 다변량 경험분포그림을 제안하였다. 여러 종류의 다변량 정규분포와 특정한 분포에 대하여 경험분포그림을 작성하고 특징을 살펴보니, 다양한 분산공분산행렬을 포함된 분포함수에 따라 경험분포그림이 민감하게 반응하는 것을 탐색하였다. 이를 바탕으로 경험분포함수를 구할 때 가정한 다변량 분포함수의 적합도 검정방법을 제안하였다. 대표적인 다섯 종류의 적합도 검정방법을 사용하고, 다양한 분포함수들에 대하여 각각의 검정통계량 기각역을 구하였다. 본 연구에서 얻은 기각역은 문헌에서 구할 수 있는 기각역과 큰 차이가 없음을 발견하였다. 그러므로 본 연구에서 제안한 적합도 검정방법을 문헌에서 제시한 기각역으로 쉽게 사용할 수 있는 장점이 있다.

A Hill-Sliding Strategy for Initialization of Gaussian Clusters in the Multidimensional Space

  • Park, J.Kyoungyoon;Chen, Yung-H.;Simons, Daryl-B.;Miller, Lee-D.
    • 대한원격탐사학회지
    • /
    • 제1권1호
    • /
    • pp.5-27
    • /
    • 1985
  • A hill-sliding technique was devised to extract Gaussian clusters from the multivariate probability density estimates of sample data for the first step of iterative unsupervised classification. The underlying assumption in this approach was that each cluster possessed a unimodal normal distribution. The key idea was that a clustering function proposed could distinguish elements of a cluster under formation from the rest in the feature space. Initial clusters were extracted one by one according to the hill-sliding tactics. A dimensionless cluster compactness parameter was proposed as a universal measure of cluster goodness and used satisfactorily in test runs with Landsat multispectral scanner (MSS) data. The normalized divergence, defined by the cluster divergence divided by the entropy of the entire sample data, was utilized as a general separability measure between clusters. An overall clustering objective function was set forth in terms of cluster covariance matrices, from which the cluster compactness measure could be deduced. Minimal improvement of initial data partitioning was evaluated by this objective function in eliminating scattered sparse data points. The hill-sliding clustering technique developed herein has the potential applicability to decomposition of any multivariate mixture distribution into a number of unimodal distributions when an appropriate diatribution function to the data set is employed.

A Bayesian Model-based Clustering with Dissimilarities

  • Oh, Man-Suk;Raftery, Adrian
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.9-14
    • /
    • 2003
  • A Bayesian model-based clustering method is proposed for clustering objects on the basis of dissimilarites. This combines two basic ideas. The first is that tile objects have latent positions in a Euclidean space, and that the observed dissimilarities are measurements of the Euclidean distances with error. The second idea is that the latent positions are generated from a mixture of multivariate normal distributions, each one corresponding to a cluster. We estimate the resulting model in a Bayesian way using Markov chain Monte Carlo. The method carries out multidimensional scaling and model-based clustering simultaneously, and yields good object configurations and good clustering results with reasonable measures of clustering uncertainties. In the examples we studied, the clustering results based on low-dimensional configurations were almost as good as those based on high-dimensional ones. Thus tile method can be used as a tool for dimension reduction when clustering high-dimensional objects, which may be useful especially for visual inspection of clusters. We also propose a Bayesian criterion for choosing the dimension of the object configuration and the number of clusters simultaneously. This is easy to compute and works reasonably well in simulations and real examples.

  • PDF