• Title/Summary/Keyword: 군집의 수

Search Result 3,581, Processing Time 0.044 seconds

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • 박민재;전성해;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.263-266
    • /
    • 2002
  • 데이터의 군집화를 수행할 때 최적 군집수 결정은 군집 결과의 성능에 많은 영향을 미친다. 특히 K-means 방법에서는 초기 군집수 K에 따라 군집결과의 성능 차이가 많이 나타난다. 하지만 대다수의 군집분석에서 초기 군집수의 결정은 경험을 바탕으로 하여 주관적으로 결정된다. 이때 개체수와 속성수가 증가하면 이러한 결정은 더욱 어려워지며 이때 결정된 군집수가 최적이 된다는 보장도 없다. 본 논문에서는 군집의 수를 자동으로 결정하고 그 결과의 유효성을 보장하기 위해 유전자 알고리즘에 기반한 최적 군집수 결정 방안을 제안한다. 데이터의 속성에 근거한 초기 해 집단이 생성되고, 해 집단 내에서 최적화된 군집수를 찾기 위해 교차 연산이 이루어진다. 적합도 값은 전체 군집화의 비 유사성의 합의 역으로 결정되어 전체적인 군집화 성능이 향상되는 방향으로 수렴된다. 또한 지역 국소값을 해결하기 위해 돌연변이 연산이 사용된다. 그리고 유전자 알고리즘의 학습 시간의 비용을 줄이기 위해 붓스트랩 기법이 적용된다.

Automated K-Means Clustering and R Implementation (자동화 K-평균 군집방법 및 R 구현)

  • Kim, Sung-Soo
    • The Korean Journal of Applied Statistics
    • /
    • v.22 no.4
    • /
    • pp.723-733
    • /
    • 2009
  • The crucial problems of K-means clustering are deciding the number of clusters and initial centroids of clusters. Hence, the steps of K-means clustering are generally consisted of two-stage clustering procedure. The first stage is to run hierarchical clusters to obtain the number of clusters and cluster centroids and second stage is to run nonhierarchical K-means clustering using the results of first stage. Here we provide automated K-means clustering procedure to be useful to obtain initial centroids of clusters which can also be useful for large data sets, and provide software program implemented using R.

Clustering Validity Assessment Using Relative Criteria for finding Optimal Clusters (최적의 군집을 찾기 위한 상대적 군집 평가 방법)

  • 김영옥;이수원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.334-336
    • /
    • 2002
  • 군집 분석은 데이터의 속성을 분석하여 서로 유사한 패턴을 가진 데이터를 묶는 방법이다. 군집 분석은 많은 응용 분야에서 쓰이고 있으나, 수행된 군집 분석 결과가 과연 정확한 결과이고 의미 있는 결과인지를 평가하는데 어려움이 있다. 본 논문에서는 군집이 형성된 데이터를 분석하여 군집 분석 결과를 평가하는 상대적 군집 평가 방법을 제안한다. 본 논문에서는 상대적 군집 평가 방법의 인덱스를 정의하고 형성된 군집 분석 결과에 적용해 최적의 군집, 의미 있는 군집을 찾을 수 있음을 보인다. 또한 실험을 통해 제안한 인덱스의 적합성을 보이며, 제안한 인덱스가 기존의 인덱스에 비해 최적의 군집, 의미 있는 군집을더 잘 찾을 수 있음을 보인다.

  • PDF

How to determine the number of clusters (군집수 결정 문제)

  • Yun, Bok-Sik
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2004.05a
    • /
    • pp.689-693
    • /
    • 2004
  • 주어진 데이터를 일정한 기준에 따라 여러 개 군집으로 분할할 때 대부분 경우는 군집수에 대한 사전 정보가 없이 군집화를 실시하게 된다. 적절한 군집수의 결정은 군집화 결과의 타당성에 전제가 되는 매우 중요한 문제이나 내재된 복잡성 때문에 실제 적용에 간편한 방법을 찾기 힘들고 더구나 다양한 형태의 데이터에 보편적으로 적합한 방법을 찾기는 더욱 어렵다. 본 연구에서는 기존의 제시된 군집수 결정방법 들의 아이디어 들을 소개하고 주어진 데이터의 종류에 관계없이 일반적으로 적용할 수 있는 새로운 군집수 결정기법을 제시한다. 대부분의 경우 군집수 결정은 군집화와 동시에 이루어지게 되므로 이것을 한꺼번에 처리하는 범용의 방법도 소개한다. 적용 예제들을 통한 타당성 검증도 이루어진다.

  • PDF

A Study on Optimizing the Number of Clusters using External Cluster Relationship Criterion (외부 군집 연관 기준 정보를 이용한 군집수 최적화)

  • Lee, Hyun-Jin;Jee, Tae-Chang
    • Journal of Digital Contents Society
    • /
    • v.12 no.3
    • /
    • pp.339-345
    • /
    • 2011
  • The k-means has been one of the popular, simple and faster clustering algorithms, but the right value of k is unknown. The value of k (the number of clusters) is a very important element because the result of clustering is different depending on it. In this paper, we present a novel algorithm based on an external cluster relationship criterion which is an evaluation metric of clustering result to determine the number of clusters dynamically. Experimental results show that our algorithm is superior to other methods in terms of the accuracy of the number of clusters.

Determination of Optimal Cluster Size Using Bootstrap and Genetic Algorithm (붓스트랩 기법과 유전자 알고리즘을 이용한 최적 군집 수 결정)

  • Park, Min-Jae;Jun, Sung-Hae;Oh, Kyung-Whan
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.1
    • /
    • pp.12-17
    • /
    • 2003
  • Optimal determination of cluster size has an effect on the result of clustering. In K-means algorithm, the difference of clustering performance is large by initial K. But the initial cluster size is determined by prior knowledge or subjectivity in most clustering process. This subjective determination may not be optimal. In this Paper, the genetic algorithm based optimal determination approach of cluster size is proposed for automatic determination of cluster size and performance upgrading of its result. The initial population based on attribution is generated for searching optimal cluster size. The fitness value is defined the inverse of dissimilarity summation. So this is converged to upgraded total performance. The mutation operation is used for local minima problem. Finally, the re-sampling of bootstrapping is used for computational time cost.

A Natural Clustering of Instances Based On Universial Gravity (만유인력에 기반한 자연적 개체 군집화)

  • 김은주;고재필;변혜란;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.3-5
    • /
    • 2000
  • 현존하는 다양한 군집화 알고리즘들이 개체들을 군집화하기 위하여 사용하는 기준들은 일반적으로 인위적으로 설정된 것들이다. 이러한 기준들은 개체들 자체로부터 나오는 자연스러운 기준이라기 보다는 군집을 위하여 임의로 선정된 것이므로 군집화의 기본 목적인 개체들을 자연스러운 그룹들로 분할하고자 하는데 있어 한계를 갖게 된다. 본 논문에서는 이러한 점에 주목하여 현존하는 자연계의 군집 법칙으로 대표되는 만유인력의 법칙을 사용한 개체 군집화 알고리즘을 제안함으로써 기본적인 목적에 충실한 군집화를 실현하고자 한다. 이 방법은 기존의 방법론들에서 찾아볼 수 없었던 자연 법칙에 근거한 새로운 군집화 시도일 뿐만 아니라, 초기조건에 관계없이 안정적인 성능을 보이고 또한 군집의 수가 자연 법칙에 따라 자동으로 결정되는 특성을 지니고 있어 다양한 실질적인 응용 분야에서 효과적으로 사용될 수 있는 새로운 군집화 도구가 될 수 있을 것으로 보인다.

  • PDF

Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity (군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법)

  • Park, Sun;Kim, Chul-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

혁신수용에 관한 군집화 연구

  • Ryu, Gwi-Yeol;Choe, Gi-Cheol
    • Proceedings of the Korean Statistical Society Conference
    • /
    • 2003.10a
    • /
    • pp.213-218
    • /
    • 2003
  • 본 논문은 혁신수용에 대한 한국인들의 군집화에 관한 연구로서, 분류된 군집의 라이프스타일 등의 특성을 밝힐 것이다. 연구를 위해 2003년 6월 9일부터 27일까지 설문조사를 실시하였으며, Ward의 군집분석 방법을 이하여 분석하였다. Rogers가 혁신 수용에 관한 군집을 통계적 이론을 바탕으로 다섯 가지로 분류한 바 있으나 본 연구에서는 혁신층이 11%, 조기다수층이 24.4%, 후기다수층이 48.9%, 후발수용층이 15.7% 등 네 가지 군집으로 분류될 수 있음을 알 수 있었고, 이 군집들의 라이프스타일을 연구하였다. 또한 Rogers의 연구 결과와 비교해 볼 때, 조기수용층이 혁신층으로 흡수되었다. 이러한 결과는 두터운 혁신층을 바탕으로 신제품이나 새로운 서비스를 처음 받아들이는 계층이 넓다는 것을 의미하고, 우리나라에서는 신제품을 개발 시험할 수 있는 좋은 구조를 가지고 있음을 의미하고, 반면에 조기다수층이 혁신 수용에 신중함으로 보이고 있기 때문에 혁신의 확산에 높은 저항이 있음을 알 수 있다. 세계각국에서 적극적으로 추진하고 있는 초고속 인터넷 서비스 분야 성공은 다른 나라에 비해 서비스를 빠르게 수용하고 이 후 높은 품질의 서비스와 고객만족을 기업들에 요구하고, 기업들의 적절한 대응의 결과로 설명될 수 있다.

  • PDF

Initial Seed Generation for Constrained K-means (제약된 K-means를 위한 초기 씨드 생성방법)

  • Seo, Hyang-Suk;Kang, Jae-Ho;Ryu, Kwang-Ryel
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.283-286
    • /
    • 2003
  • 군집화 시 일반적으로 개별 클래스(class) 혹은 카테고리(category) 당 하나의 군집이 형성되는 결과가 선호된다. 하지만 데이터가 비정형적인 분포를 따르는 경우에는 하나의 군집으로 개별 클래스를 온전히 표현하는 것이 불가능하거나 오히려 부자연스러운 경우가 발생할 수 있다. 본 논문에서는 예제의 클래스를 알고 있는 즉, 레이블(label)된 예제들을 그렇지 않은(unlabeled) 예제들과 함께 활용하여 군집화하는 제약된 K-means (constrained K-means) 알고리즘을 위하여 보다 자연스러운 형태의 군집이 형성될 수 있도록 초기 씨드(seed, 씨앗)를 생성하는 방안을 제안한다. 레이블된 예제들을 계층적으로 군집화하면 다양한 단계에서 제약된 K-means를 위한 씨드집합을 생성할 수 있다. 본 연구에서는 각 단계의 씨드집합을 기반으로 형성된 군집결과간의 변화정도를 측정하여 가장 적절한 것으로 추정되는 씨드집합을 선정하였다. 제안한 방안을 문서 군집화 문제에 적용하여 실험한 결과 개별 클래스마다 하나의 군집을 가정하는 경우보다 더 나은 군집을 형성할 수 있음을 확인하였다.

  • PDF