• 제목/요약/키워드: Nonhierarchical Clustering

검색결과 8건 처리시간 0.009초

K-means 알고리즘 기반 클러스터링 인덱스 비교 연구 (A Performance Comparison of Cluster Validity Indices based on K-means Algorithm)

  • 심요성;정지원;최인찬
    • Asia pacific journal of information systems
    • /
    • 제16권1호
    • /
    • pp.127-144
    • /
    • 2006
  • The K-means algorithm is widely used at the initial stage of data analysis in data mining process, partly because of its low time complexity and the simplicity of practical implementation. Cluster validity indices are used along with the algorithm in order to determine the number of clusters as well as the clustering results of datasets. In this paper, we present a performance comparison of sixteen indices, which are selected from forty indices in literature, while considering their applicability to nonhierarchical clustering algorithms. Data sets used in the experiment are generated based on multivariate normal distribution. In particular, four error types including standardization, outlier generation, error perturbation, and noise dimension addition are considered in the comparison. Through the experiment the effects of varying number of points, attributes, and clusters on the performance are analyzed. The result of the simulation experiment shows that Calinski and Harabasz index performs the best through the all datasets and that Davis and Bouldin index becomes a strong competitor as the number of points increases in dataset.

On the clustering of huge categorical data

  • Kim, Dae-Hak
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권6호
    • /
    • pp.1353-1359
    • /
    • 2010
  • Basic objective in cluster analysis is to discover natural groupings of items. In general, clustering is conducted based on some similarity (or dissimilarity) matrix or the original input data. Various measures of similarities between objects are developed. In this paper, we consider a clustering of huge categorical real data set which shows the aspects of time-location-activity of Korean people. Some useful similarity measure for the data set, are developed and adopted for the categorical variables. Hierarchical and nonhierarchical clustering method are applied for the considered data set which is huge and consists of many categorical variables.

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

Cluster-based Information Retrieval with Tolerance Rough Set Model

  • Ho, Tu-Bao;Kawasaki, Saori;Nguyen, Ngoc-Binh
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제2권1호
    • /
    • pp.26-32
    • /
    • 2002
  • The objectives of this paper are twofold. First is to introduce a model for representing documents with semantics relatedness using rough sets but with tolerance relations instead of equivalence relations (TRSM). Second is to introduce two document hierarchical and nonhierarchical clustering algorithms based on this model and TRSM cluster-based information retrieval using these two algorithms. The experimental results show that TRSM offers an alterative approach to text clustering and information retrieval.

Clustering Technique for Multivariate Data Analysis

  • Lee, Jin-Ki
    • 한국국방경영분석학회지
    • /
    • 제6권2호
    • /
    • pp.89-127
    • /
    • 1980
  • The multivariate analysis techniques of cluster analysis are examined in this article. The theory and applications of the techniques and computer software concerning these techniques are discussed and sample jobs are included. A hierarchical cluster analysis algorithm, available in the IMSL software package, is applied to a set of data extracted from a group of subjects for the purpose of partitioning a collection of 26 attributes of a weapon system into six clusters of superattributes. A nonhierarchical clustering procedure were applied to a collection of data of tanks considering of twenty-four observations of ten attributes of tanks. The cluster analysis shows that the tanks cluster somewhat naturally by nationality. The principal componant analysis and the discriminant analysis show that tank weight is the single most important discriminator among nationality although they are not shown in this article because of the space restriction. This is a part of thesis for master's degree in operations research.

  • PDF

자동화 K-평균 군집방법 및 R 구현 (Automated K-Means Clustering and R Implementation)

  • 김성수
    • 응용통계연구
    • /
    • 제22권4호
    • /
    • pp.723-733
    • /
    • 2009
  • K-평균 군집분석이 가지는 두 가지 근본적인 어려움은 사전에 미리 군집 수를 정해야 하는 문제와 초기 군집중심에 따라 결과가 달라질 수 있는 문제이다. 본 연구에서는 이러한 문제를 해결하기 위한 자동화 K-평균 군집분석 절차를 제안하고, R을 이용하여 구현한 결과를 제공한다. 자동화 K-평균 군집분석에서 제안된 절차는 처음 단계로서 계층적 군집분석을 행한 후 이를 이용하여 군집 수와 초기 군집수를 자동으로 정하고, 다음 단계로 이 결과를 이용하여 K-평균 군집분석을 수행하는 방법을 택하였다. 처음 단계에서 이용된 계층적 군집분석 방법으로는 Ward의 군집분석을 한 후에 Mojena의 규칙을 이용하여 군집 수를 정하는 방법을 택하거나, 모형근거 군집분석방법을 수행한 후에 BIC 값을 이용하여 군집 수를 정하는 방법을 이용하였다. 제안된 자동화 K-평균 군집절차에는 대량자료의 분석에도 용이하게 이용될 수 있도록 반복된 표본추출 방법을 이용하여 군집 수 및 군집 중심을 구하는 절차를 포함하였다. 구현된 R 프로그램은 www.knou.ac.kr/ sskim/autokmeans.r에서 제공하고 있다.

일반국도 도로특성분류를 위한 통계적 군집분석과 Kohonen Self-Organizing Maps의 비교연구 (A Comparative Study on Statistical Clustering Methods and Kohonen Self-Organizing Maps for Highway Characteristic Classification of National Highway)

  • 조준한;김성호
    • 대한토목학회논문집
    • /
    • 제29권3D호
    • /
    • pp.347-356
    • /
    • 2009
  • 본 연구는 기존의 도로기능분류 정의와 방법론을 벗어나 교통특성에 따른 도로분류 방법론인 도로특성분류를 기초로 분석을 수행하였다. 도로특성분류에 대한 일련의 과정 중에서 다양한 교통특성을 반영하는 설명변수를 기초로 요인점수를 산출하고, 동질한 도로구간을 그룹핑하는 군집화 분석과정과 적정 군집수 도출에 따른 군집결과비교에 본 연구는 초점을 맞추었다. 도로분류를 위해 병합적 계층 군집분석인 Ward법, 비계층적 군집분석인 K-means법, 자율신경 회로망을 이용한 K-SOM을 사용하여 비교분석하였다. 각 군집기법에 대한 결과를 토대로 비교분석한 결과, 군집 수 5 이하에서는 K-means법, 군집 수 14 이상에서는 Kohonen selforganizing maps가 가장 우수한 것으로 나타났으며, 군집수 5~9사이에서는 Ward법과 Kmeans법의 군집 성능이 불규칙한 패턴을 보임에 따라 세밀한 결과분석을 통해 우수성을 결정하는 것이 바람직할 것으로 분석되었다. 본 연구결과는 다양한 교통특성을 고려한 도로구간의 군집 속성을 분석하고 예측하는 분류화 작업에 중요한 기초적인 자료로 사용될 것으로 기대된다.

소셜 태깅에서 관심사로 바라본 태그 특징 연구 - 소셜 북마킹 사이트 'del.icio.us'의 태그를 중심으로 - (A Study of User Interests and Tag Classification related to resources in a Social Tagging System)

  • 배주희;이경원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.826-833
    • /
    • 2009
  • 최근 소셜 태깅(social tagging)이 화두로 떠오르면서 전문가 집단에서 이루어지던 택소노미(taxonomy)에서 점차 사람들이 만들어가는 분류법인 폭소노미(folksonomy)의 형태로 변화하고 있다. 태그(tag)는 콘텐츠와의 접근이 직관적이기 때문에 원하는 콘텐츠로의 이동이 용이하며 그와 관련된 태그들을 만나면서 개인적인 회상능력을 증가시키고 사회적 영향력을 높이며, 우연한 정보의 발견, 재미있는 경험을 얻을 수 있다. 점차 네트워크 형성이 관심사로 연결된 형태로 커지면서 태그가 다른 형태의 콘텐츠를 한 곳에 묶어주는 역할을 담당하고 있다. 따라서 이 연구는 소셜 태깅에서 나타나는 사용자(user), 태그(tag), 리소스(resource) 간의 관계를 정리하고 사람들이 자신의 즐겨찾기 목록에 사이트를 추가하는 행위를 관심사로 보아, 이 때 입력한 태그를 어떠한 특징으로 나누어 볼 수 있을지 연구하였다. 이를 위해, 리소스 중심의 태그 분류를 7가지로 나누고, 이 분류법를 이용하여 소셜 북마킹(social bookmarking) 사이트 'del.icio.us' 에서 사용되고 있는 태그를 중심으로 음악, 사진, 게임의 세 가지 관심사 영역에서 사람들이 URL을 등록할 때에 어떠한 태그를 선택 하고 있는지 7가지 특징에 따라 분석하였다. 이를 통해 사이트를 바라보는 사람들의 관점을 파악해 볼 수 있고, 소셜 서비스 확장, 다양한 비지니스 모델을 설정 할 수 있는 가능성을 모색 해 볼 수 있을 것이다.

  • PDF