• Title/Summary/Keyword: 군집지수

Search Result 640, Processing Time 0.024 seconds

Analysis and New Indices of Cluster Validity Indices in Summation Type (합형식의 군집 유효화 지수의 분석과 새로운 지수 개발)

  • Kim Minho;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.598-600
    • /
    • 2005
  • 군집 유효화 평가란 기본적으로 클래스 (Class)에 대한 정보가 주어지지 않은 상태에서 다양한 입력 변수에 의해 발생되는 군집화의 결과들을 평가하여 그들 중에서 주어진 데이터 집합의 자연적인 분할 상태에 가장 적합한 결과를 찾는 기법을 말한다. 군집 유효화 평가에서 그 척도로 사용되는 것이 군집 유효화 지수이다. 본 논문에서는 우선 현존하는 다양한 군집 유효화 지수들 중에서 합 형식을 가지는 지수들을 다룬다. 구체적으로 이 지수들의 설계 원리와 각 지수들의 부합성 (Compliance) 분석한다. 다음으로 분석을 통해 밝혀진 그들의 단점을 보완할 수 있는 새로운 군집 유효화 지수들을 제안한다. 마지막으로 기존의 군집 유효화 지수들을 포함한 새로이 제안한 지수들의 성능을 실험 학습을 통해 평가한다.

  • PDF

Analysis and New Indices of Cluster Validity Indices in Ratio Type (비형식의 군집 유효화 지수의 분석과 새로운 지수 개발)

  • Kim Minho;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.601-603
    • /
    • 2005
  • 군집 유효화 평가는 군집화 알고리즘을 진정한 의미의 비감독 학습이 가능하도록 만든다는 의미에서 그 중요성이 더해지고 있다. 본 논문에서는 이 군집 유효화 평가에 일반적으로 이용되는 군집 유효화 지수들의 설계원리를 분석하고 기존 지수들의 부합성을 분석한다. 우리는 제 (I) 부에서 합 형식의 지수들을 다루었으며, 본 논문에서는 비 형식의 지수들을 다룬다. 합형식의 CVI에서처럼 저역 필터링의 문제점을 해결하였으며, 또한, 부작용 없이 비형식의 지수들의 성능을 향상시킬 수 있는 새로운 기법을 제시한다. 새로운 지수들의 성능은 실험 학습을 통해 제시된다.

  • PDF

A new cluster validity index based on connectivity in self-organizing map (자기조직화지도에서 연결강도에 기반한 새로운 군집타당성지수)

  • Kim, Sangmin;Kim, Jaejik
    • The Korean Journal of Applied Statistics
    • /
    • v.33 no.5
    • /
    • pp.591-601
    • /
    • 2020
  • The self-organizing map (SOM) is a unsupervised learning method projecting high-dimensional data into low-dimensional nodes. It can visualize data in 2 or 3 dimensional space using the nodes and it is available to explore characteristics of data through the nodes. To understand the structure of data, cluster analysis is often used for nodes obtained from SOM. In cluster analysis, the optimal number of clusters is one of important issues. To help to determine it, various cluster validity indexes have been developed and they can be applied to clustering outcomes for nodes from SOM. However, while SOM has an advantage in that it reflects the topological properties of original data in the low-dimensional space, these indexes do not consider it. Thus, we propose a new cluster validity index for SOM based on connectivity between nodes which considers topological properties of data. The performance of the proposed index is evaluated through simulations and it is compared with various existing cluster validity indexes.

Cluster Validity Assessment Techniques for High-Dimensional Applications (고차원 응용에서의 군집 유효성 평가 기법)

  • Kim Minho;Yoo Hyunjin;Ramakrishna R.S.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.715-717
    • /
    • 2005
  • 군집 유효성은 다양한 입력 변수에 따라 변하는 군집화 알고리즘의 결과들을 평가하는 것이다. 본 논문에서는 고차원의 데이터 집합에 대한 군집 유효성의 문제점에 대한 새로운 해결책을 제시한다. 고차원 군집화 결과들을 평가할 때 발생하는 기존의 군집 유효성 지수들의 적용성의 문제점을 살펴보고, 고차원으로 인해 발생하는 문제를 효과적으로 다룰 수 있는 다양한 새로운 군집 유효성 지수들을 제안한다. 제안된 군집 유효성 지수들은 본 논문에 제공된 실험에서 최적의 군집 유효성 결과를 제공한다.

  • PDF

The Analysis of Optimal Cluster Number of Precipitation Region with Dunn Index (Dunn 지수를 이용한 최적 강수지역 군집수 분석)

  • Um, Myoung-Jin;Jeong, Chang-Sam;Nam, Woo-Sung;Jung, Young-Hun;Heo, Jun-Haeng
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.87-91
    • /
    • 2011
  • 강수는 지역에 따라 발생양상이 매우 다른 자연현상 중 하나이다. 이러한 강수를 효과적으로 분석하여 확률강수량을 산정하기위해서 수문학에서는 다양한 방법이 시도되어 왔다. 우리나라에서는 지점빈도해석을 통한 확률강수량을 주로 사용해왔으나 최근 들어 Hosking and Wallis(1997)가 제안한 지역빈도해석을 활용을 적극 도모 하고 있는 중이다. 이러한 지역빈도해석 기법은 지점빈도해석 기법에 비하여 한정된 강수자료를 활용하는 측면 등 여러 가지 장점을 가진 확률 강수량 산정방법이다. 그러나 이 기법을 적용하여 확률강수량을 산정하기 위해서는 강수의 지역구분을 먼저 수행하여야 한다. 강수지역의 구분을 위해서는 여러 가지 기법이 존재하나 최근에는 Cluster 기법 중 K-means 방법이나 Fuzzy c-means 방법 등을 주로 적용하여 지역구분을 수행하고 있다. 그러나 K-means 방법이나 Fuzzy c-means 방법 등은 산정 방법내에서 최적 군집수를 결정할 수 있는 알고리즘이 없기 때문에 임의적으로 최적 군집수를 결정하여야 한다. 본 연구에서는 이러한 단점을 극복하기 위하여 Cluster 평가지수 중 하나인 Dunn 지수를 이용하여 최적 군집수를 제시하고자 한다. 본 연구에서 강수지역을 구분하기 위하여 적용한 인자는 월 평균 강수량, 연 평균 강수량, 월 최대 강수량, 경도, 위도, 고도 등이며, 이를 K-means, PAM 및 친근도 전파 기법을 통하여 강수지역을 구분하였다. 적정 군집수를 임의적으로 증가시켜 가면서 Dunn 지수를 산정하였다. 산정된 결과를 통하여 최적 군집수를 결정하였다.

  • PDF

Comparison of the Cluster Validation Methods for High-dimensional (Gene Expression) Data (고차원 (유전자 발현) 자료에 대한 군집 타당성분석 기법의 성능 비교)

  • Jeong, Yun-Kyoung;Baek, Jang-Sun
    • The Korean Journal of Applied Statistics
    • /
    • v.20 no.1
    • /
    • pp.167-181
    • /
    • 2007
  • Many clustering algorithms and cluster validation techniques for high-dimensional gene expression data have been suggested. The evaluations of these cluster validation techniques have, however, seldom been implemented. In this paper we compared various cluster validity indices for low-dimensional simulation data and real gene expression data, and found that Dunn's index is the most effective and robust, Silhouette index is next and Davies-Bouldin index is the bottom among the internal measures. Jaccard index is much more effective than Goodman-Kruskal index and adjusted Rand index among the external measures.

Clustering load patterns recorded from advanced metering infrastructure (AMI로부터 측정된 전력사용데이터에 대한 군집 분석)

  • Ann, Hyojung;Lim, Yaeji
    • The Korean Journal of Applied Statistics
    • /
    • v.34 no.6
    • /
    • pp.969-977
    • /
    • 2021
  • We cluster the electricity consumption of households in A-apartment in Seoul, Korea using Hierarchical K-means clustering algorithm. The data is recorded from the advanced metering infrastructure (AMI), and we focus on the electricity consumption during evening weekdays in summer. Compare to the conventional clustering algorithms, Hierarchical K-means clustering algorithm is recently applied to the electricity usage data, and it can identify usage patterns while reducing dimension. We apply Hierarchical K-means algorithm to the AMI data, and compare the results based on the various clustering validity indexes. The results show that the electricity usage patterns are well-identified, and it is expected to be utilized as a major basis for future applications in various fields.

A Pattern Consistency Index for Detecting Heterogeneous Time Series in Clustering Time Course Gene Expression Data (시간경로 유전자 발현자료의 군집분석에서 이질적인 시계열의 탐지를 위한 패턴일치지수)

  • Son, Young-Sook;Baek, Jang-Sun
    • The Korean Journal of Applied Statistics
    • /
    • v.18 no.2
    • /
    • pp.371-379
    • /
    • 2005
  • In this paper, we propose a pattern consistency index for detecting heterogeneous time series that deviate from the representative pattern of each cluster in clustering time course gene expression data using the Pearson correlation coefficient. We examine its usefulness by applying this index to serum time course gene expression data from microarrays.

The Estimation of Succession Index by Community Types in the Natural Deciduous Forest of Mt. Jumbong (점봉산 일대 천연활엽수림의 군집 유형별 천이지수 추정)

  • Jin, Guang Ze;Kim, Ji Hong
    • Journal of Korean Society of Forest Science
    • /
    • v.95 no.6
    • /
    • pp.723-728
    • /
    • 2006
  • Since the forest succession is changing process in the structure and function of a forest for the long period of time, the objectivity of the process could be improved through the development of model or statistical methodology. This study was carried out to estimate succession index based on climax index and species composition parameters, thereupon to compare the succession index with life form and species diversity so as to grasp the information of quantitative successional process for the six community types in the natural deciduous forest of Mt. Jumbong area. The results indicated that Quercus mongolica-Tilia amurensis community had the greatest succession index of 67.5, followed by Abies holophylla-Fraxinus mandshurica community with 67.4. Juglans mandshurica-Cornus controversa community was recorded the smallest value of 60.5. The succession index of overstory tended to increase considerably at the stage of steady state for all community types except Quercus mongolica-Tilia amurensis community. However, The index of midstory hardly varied as the forest succession would progress for all community types. The succession index was negatively correlated to wind-water dispersion type of life form and positively to animal dispersion type at the 5% probability level. On the other hand, the index was not significantly correlated to the species richness and Shannon's species diversity index.