• 제목/요약/키워드: Cluster Validity Index

검색결과 26건 처리시간 0.026초

A Cluster validity Index for Fuzzy Clustering

  • Lee, Haiyoung
    • 한국지능시스템학회논문지
    • /
    • 제9권6호
    • /
    • pp.621-626
    • /
    • 1999
  • In this paper a new cluster validation index which is heuristic but able to eliminate the monotonically decreasing tendency occurring in which the number of cluster c gets very large and close to the number of data points n is proposed. We review the FCM algorithm and some conventional cluster validity criteria discuss on the limiting behavior of the proposed validity index and provide some numerical examples showing the effectiveness of the proposed cluster validity index.

  • PDF

클러스터 타당성 평가기준을 이용한 최적의 클러스터 수 결정을 위한 고속 탐색 알고리즘 (Fast Search Algorithm for Determining the Optimal Number of Clusters using Cluster Validity Index)

  • 이상욱
    • 한국콘텐츠학회논문지
    • /
    • 제9권9호
    • /
    • pp.80-89
    • /
    • 2009
  • 클러스터링 알고리즘에서 최적의 클러스터 수를 결정하기 위한 효율적인 고속 탐색 알고리즘을 소개한다. 제안하는 방법은 클러스터링 적합도의 척도로 사용되는 클러스터 타당성 평가기준을 토대로 한다. 데이터 집합에 클러스터링 프로세스를 진행하여 최적의 클러스터 형상에 도달하게 되면 클러스터 타당성 평가기준은 최대 혹은 최소값을 가질 것으로 기대한다. 본 논문에서는 최적의 클러스터 개수를 찾기 위한 고속의 비소모적 탐색 방법을 설계하고 실제 클러스터링과 접목한다. 제안하는 알고리즘은 k-means++ 클러스터링 알고리즘에 적용하였고, 클러스터 타당성 평가기준으로써 CB 및 PBM 타당성 평가기준 방법을 사용하였다. 몇몇의 가상 데이터 집합과 실제 데이터 집합에 실험한 결과, 제안하는 방법은 정확도의 손실 없이 계산 효율을 획기적으로 증가시킴을 보여주었다.

자기조직화지도에서 연결강도에 기반한 새로운 군집타당성지수 (A new cluster validity index based on connectivity in self-organizing map)

  • 김상민;김재직
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.591-601
    • /
    • 2020
  • 자기조직화지도는 고차원의 원자료를 노드들로 이루어진 저차원의 공간으로 투영하는 비지도학습 방법이다. 이 방법은 고차원의 자료를 노드들을 사용하여 2 또는 3차원의 공간에서 시각화할 수 있고, 이를 통해 자료의 특성을 탐색하는데 유용하다. 자료의 구조를 파악하기 위해 종종 노드들에 대한 군집분석을 시도하는데, 군집분석의 중요한 문제중 하나는 군집의 개수를 결정하는 것이다. 이 문제를 해결하기 위해 다양한 군집타당성지수들이 지금까지 개발되어 왔고, 이러한 지수들은 자기조직화지도의 노드들의 군집분석에 직접적으로 적용될 수 있다. 그러나, 자기조직화 지도가 원자료의 위상적 특성을 저차원 공간에 반영할 수 있다는 특징을 갖는데 반해, 이러한 일반적인 지수들은 이를 고려하지 않는 문제가 있다. 이에 본 연구에서는 원자료의 위상적 특성을 고려한 노드들 사이의 연결강도를 기반으로 하는 군집타당성지수를 제안한다. 이 새로운 군집타당성지수의 성능은 모의실험을 통해 기존의 군집타당성지수들과의 비교되고 검증된다.

K-means 알고리즘 기반 클러스터링 인덱스 비교 연구 (A Performance Comparison of Cluster Validity Indices based on K-means Algorithm)

  • 심요성;정지원;최인찬
    • Asia pacific journal of information systems
    • /
    • 제16권1호
    • /
    • pp.127-144
    • /
    • 2006
  • The K-means algorithm is widely used at the initial stage of data analysis in data mining process, partly because of its low time complexity and the simplicity of practical implementation. Cluster validity indices are used along with the algorithm in order to determine the number of clusters as well as the clustering results of datasets. In this paper, we present a performance comparison of sixteen indices, which are selected from forty indices in literature, while considering their applicability to nonhierarchical clustering algorithms. Data sets used in the experiment are generated based on multivariate normal distribution. In particular, four error types including standardization, outlier generation, error perturbation, and noise dimension addition are considered in the comparison. Through the experiment the effects of varying number of points, attributes, and clusters on the performance are analyzed. The result of the simulation experiment shows that Calinski and Harabasz index performs the best through the all datasets and that Davis and Bouldin index becomes a strong competitor as the number of points increases in dataset.

클러스터간 중첩성과 분리성을 이용한 퍼지 분할의 평가 기법 (A Cluster Validity Index Using Overlap and Separation Measures Between Fuzzy Clusters)

  • 김대원;이광형
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.455-460
    • /
    • 2003
  • 본 논문에서는 퍼지 클러스터링 알고리즘에 의해 구해진 퍼지 분할에 대한 최적 클러스터 수를 결정하는 방법을 제안한다. 제안된 척도는 퍼지 클러스터들간의 중첩성과 분리성을 이용한다. 중첩성은 클러스터간 인접도를 이용하여 계산하며, 분리성은 데이터에 대한 상관성 정도로 나타낸다. 따라서 중첩성이 낮고 분리성이 높을수록 좋은 클러스터 결과라고 할 수 있다. 표준 데이터 집합을 대상으로 기존의 척도들과 비교 실험함으로써 제안된 척도의 신뢰성을 검증하였다.

Nearest neighbor and validity-based clustering

  • Son, Seo H.;Seo, Suk T.;Kwon, Soon H.
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제4권3호
    • /
    • pp.337-340
    • /
    • 2004
  • The clustering problem can be formulated as the problem to find the number of clusters and a partition matrix from a given data set using the iterative or non-iterative algorithms. The author proposes a nearest neighbor and validity-based clustering algorithm where each data point in the data set is linked with the nearest neighbor data point to form initial clusters and then a cluster in the initial clusters is linked with the nearest neighbor cluster to form a new cluster. The linking between clusters is continued until no more linking is possible. An optimal set of clusters is identified by using the conventional cluster validity index. Experimental results on well-known data sets are provided to show the effectiveness of the proposed clustering algorithm.

고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교 (Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data)

  • 정윤경;백장선
    • 응용통계연구
    • /
    • 제20권1호
    • /
    • pp.167-181
    • /
    • 2007
  • 유전자 발현 자료(gene expression data)는 전형적인 고차원 자료이며, 이를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 군집타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이들 군집 타당성을 분석하는 기법의 성능에 대한 비교, 평가는 매우 드물다. 본 논문에서는 저차원의 모의실험 자료와 실제 유전자 발현 자료에 대하여 군집 타당성분석 기법들의 성능을 비교하였으며, 그 결과 내적 측도에서는 Dunn 지수, Silhouette 지수 순으로 뛰어났고 외적 측도에서는 Jaccard 지수가 성능이 가장 우수한 것으로 평가되었다.

K-평균 군집화의 재현성 평가 및 응용 (Reproducibility Assessment of K-Means Clustering and Applications)

  • 허명회;이용구
    • 응용통계연구
    • /
    • 제17권1호
    • /
    • pp.135-144
    • /
    • 2004
  • K-평균 군집화(K-means clustering)는 고객 세분화(customer segmentation) 등 데이터 마이닝에서 중요한 한 몫을 하는 비지도 학습방법 (unsupervised learning method)이다. K-평균 군집화가 재현성(reproducibility)이 있는가를 보기 위하여, 다수의 기존 연구에서는 관측 자료를 2개 셋으로 나눈 자료 분할(data partitioning) 방법이 활용되고 있다. 본 교신에서 우리는 이보다 개념적으로 명확한 새로운 자료 분할 방법을 제안한다. 이 방법은 관측 자료를 3개 셋으로 나누어 그 중 2개 자료 셋을 독립적인 군집화 규칙을 생성하는 데 사용하고 나머지 1개의 자료 셋을 규칙간 일치성을 테스트하는데 사용한다. 또한 2개의 군집화 규칙간 일치성 평가를 위한 지표로서 엔트로피 기준의 환용 방법을 제시한다.

간호요구 정도에 의한 신생아중환자 분류도구의 타당도 및 신뢰도 검증 (Validity and Reliability Tests of Neonatal Patient Classification System Based on Nursing Needs)

  • 고범자;유미;강진선;김동연;복정희
    • 임상간호연구
    • /
    • 제18권3호
    • /
    • pp.354-367
    • /
    • 2012
  • Purpose: This study was done to verify validity and reliability of a neonatal patient classification system (NeoPCS-1). Methods: An expert group of 8 nurse managers and 40 nurses from 8 Neonatal Intensive Care Units in Korea, verified content validity of the measurement using item level content validity index (I-CVI). The participants were nurses caring for 469 neonates. Data were collected from November 11 to December 14, 2011 and analyzed using descriptive statistics, ANOVA, intraclass correlation coefficient, and K-cluster analysis with PASW 18.0 program. Results: Nursing domains and activities included 8 items with 91 activities. I-CVI was above .80 in all areas. Interrater reliability was significant between two raters (r=.95, p<.001). Classification scores for participants according to patient types and nurses' intuition were significantly higher for the following patients; gestational age (${\leq}29$ weeks), body weight (<1,000 gm), and transfer from hospital. Six groups were classified using cluster analysis method based on nursing needs. Patient classification scores were significantly different for the groups. Conclusion: These results show adequate validity and reliability for the NeoPCS-1 based on nursing needs. Study is needed to refine the measurement and develop index scores to estimate number of nurses needed for adequate neonatal care.

최적 클러스터 분할을 위한 FCM 평가 인덱스 (A fuzzy cluster validity index for the evaluation of Fuzzy C-Means algorithm)

  • 김대원;이광현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.374-376
    • /
    • 2003
  • 본 논문에서는 Fussy C-Means (FCM) 알고리즘에 의해 계산된 퍼지 클러스터들에 대한 평가 인덱스를 제안한다. 제안된 인덱스는 퍼지 클러스터들간의 인접성(inter-cluster proximity)을 이용한다. 클러스터 인접성을 도입함으로써 클러스터간의 중첩 정도를 계산할 수 있다. 따라서, 인접성 값이 낮을수록 클러스터들은 공간에 잘 분포하게 됨을 알 수 있다. 다양한 데이터 집합에 대한 실험을 통해서 제안된 인덱스의 효율성과 신뢰성을 검증하였다.

  • PDF