• 제목/요약/키워드: k-means clustering Algorithm

검색결과 545건 처리시간 0.026초

일일 대표 부하패턴의 분별력을 높이기 위한 반복적인 소규모 군집화를 이용한 고객 군집화 방법 (Customer Clustering Method Using Repeated Small-sized Clustering to improve the Classifying Ability of Typical Daily Load Profile)

  • 김영일;송재주;오도은;정남준;양일권
    • 전기학회논문지
    • /
    • 제58권11호
    • /
    • pp.2269-2274
    • /
    • 2009
  • Customer clustering method is used to make a TDLP (typical daily load profile) to estimate the quater hourly load profile of non-AMR (Automatic Meter Reading) customer. In this paper, repeated small-sized clustering method is supposed to improve the classifying ability of TDLP. K-means algorithm is well-known clustering technology of data mining. To reduce the local maxima of k-means algorithm, proposed method clusters average load profiles to small-sized clusters and selects the highest error rated cluster and clusters this to small-sized clusters repeatedly to minimize the local maxima.

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법 (Document Clustering Technique by K-means Algorithm and PCA)

  • 김우생;김수영
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.625-630
    • /
    • 2014
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.

클러스터링 알고리즘기반의 상황인식 사용자 분석 (Context-awareness User Analysis based on Clustering Algorithm)

  • 이강환
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.942-948
    • /
    • 2020
  • 본 논문에서는 상황인식 속성정보를 이용하여 클러스터링내에서 보다 효율적인 사용자 구분이 가능한 군집적 알고리즘을 제안한다. 일반적으로 클러스터링 데이터를 처리함에 있어 군집 정보내에서 상호관계를 분류하기 위해 제공되는 데이터는 신규 또는 새롭게 입력되는 정보가 비교정보에서 오염된 정보로 처리될 경우, 기존 분류된 군집으로부터 벗어나게 되어 군집성을 저하시키는 요인으로 작용하게 된다. 본 논문에서는 이러한 문제를 해결하기 위해 K-means알고리즘을 이용함에 있어 사용자 인식 정보 추출이 가능한 사용자 군집 분석 방식을 제안하고자 한다. 제안하는 알고리즘은 시스템 내 누적된 정보를 이용하여 자율적인 사용자 군집 특징을 분석하고, 이를 통하여 사용자의 속성간에 따른 클러스터를 구성해 사용자를 구분하게 된다. 제안한 알고리즘은 적용한 모의실험 결과를 통해 다중 사용자를 군집단위로 분류하고 유지하는 측면에서 사용자 관리 시스템이 보다 향상된 적응성을 보여주었다.

Sample Based Algorithm for k-Spatial Medians Clustering

  • Jin, Seo-Hoon;Jung, Byoung-Cheol
    • 응용통계연구
    • /
    • 제23권2호
    • /
    • pp.367-374
    • /
    • 2010
  • As an alternative to the k-means clustering the k-spatial medians clustering has many good points because of advantages of spatial median. However, it has not been used a lot since it needs heavy computation. If the number of objects and the number of variables are large the computation time problem is getting serious. In this study we propose fast algorithm for the k-spatial medians clustering. Practical applicability of the algorithm is shown with some numerical studies.

빅데이터 K-평균 클러스터링을 위한 RHadoop 플랫폼 (RHadoop platform for K-Means clustering of big data)

  • 신지은;오윤식;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.609-619
    • /
    • 2016
  • 본 논문에서는 대용량 데이터를 처리 및 분석하기 위해 RHadoop 플랫폼에서 실제 데이터와 모의 실험 데이터를 가지고 K-평균 클러스터링을 구현하고, MapReduce의 컴바이너 사용여부에 따른 처리 속도를 비교하고자 한다. 또한, K-평균 클러스터링에서 최적의 군집수 결정방법을 MapReduce 프로그램으로 구현하여 실제 데이터에 적용하고자 한다. 그리고 제안된 RHadoop 플랫폼의 확장 가능성을 보이기 위해 실제 데이터에서 R의 기본 패키지에서 kmeans() 함수와 bigmemory 패키지 상에서 유용한 bigkmeans() 함수와 처리 속도를 비교하고자 한다.

A Simple Tandem Method for Clustering of Multimodal Dataset

  • Cho C.;Lee J.W.;Lee J.W.
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2003년도 춘계공동학술대회
    • /
    • pp.729-733
    • /
    • 2003
  • The presence of local features within clusters incurred by multi-modal nature of data prohibits many conventional clustering techniques from working properly. Especially, the clustering of datasets with non-Gaussian distributions within a cluster can be problematic when the technique with implicit assumption of Gaussian distribution is used. Current study proposes a simple tandem clustering method composed of k-means type algorithm and hierarchical method to solve such problems. The multi-modal dataset is first divided into many small pre-clusters by k-means or fuzzy k-means algorithm. The pre-clusters found from the first step are to be clustered again using agglomerative hierarchical clustering method with Kullback- Leibler divergence as the measure of dissimilarity. This method is not only effective at extracting the multi-modal clusters but also fast and easy in terms of computation complexity and relatively robust at the presence of outliers. The performance of the proposed method was evaluated on three generated datasets and six sets of publicly known real world data.

  • PDF

데이터 마이닝에서 그룹 세분화를 위한 2단계 계층적 글러스터링 알고리듬 (Two Phase Hierarchical Clustering Algorithm for Group Formation in Data Mining)

  • 황인수
    • 경영과학
    • /
    • 제19권1호
    • /
    • pp.189-196
    • /
    • 2002
  • Data clustering is often one of the first steps in data mining analysis. It Identifies groups of related objects that can be used as a starling point for exploring further relationships. This technique supports the development of population segmentation models, such as demographic-based customer segmentation. This paper Purpose to present the development of two phase hierarchical clustering algorithm for group formation. Applications of the algorithm for product-customer group formation in customer relationahip management are also discussed. As a result of computer simulations, suggested algorithm outperforms single link method and k-means clustering.

이중 K-평균 군집화 (Double K-Means Clustering)

  • 허명회
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.343-352
    • /
    • 2000
  • K-평균 군집화(K-means clustering)는 비계층적 군집화 방법이 하나로서 큰 자료에서 개체 군집화에 효율적인 것으로 알려져 있다. 그러나 종종 비교적 균일한 대군집의 일부를 소군집에 떼어주는 오류를 범하기도 한다. 이 연구에서는 그러한 현상을 정확히 인지하고 이에 대한 대책으로서 ‘이중 K-평균 군집화(double K-means clustering)’방법을 제시한다. 또한 실증적 사례에 새 방법론을 적용해보고 토의한다.

  • PDF

발산거리 기반의 신경망에 의한 가우시안 확률 밀도 함수의 군집화 (Guassian pdfs Clustering Using a Divergence Measure-based Neural Network)

  • 박동철;권오현
    • 한국통신학회논문지
    • /
    • 제29권5C호
    • /
    • pp.627-631
    • /
    • 2004
  • 음성인식 모델상의 GPDFs(Gaussian Probability Density Functions)을 효율적으로 군집화 할 수 있는 알고리즘이 제안되었다. 제안된 알고리즘은 데이터 사이의 거리 척도로 발산 거리를 사용하는 새로운 형태의 CNN(Centroid Neural Network)으로, 제한된 자원을 가지는 H/W환경의 음성인식에서 메모리 사용량을 축소하는 응용에 대한 실험 결과, 음성인식 모델인 CDHMM(Continuous Density Hidden Markov Model)에서 기존의 Dk-means(Divergence-based k-means)알고리즘을 이용한 방법과 비교하여 인식 성능의 유지와 함께 약 31.3%의 GPDFs를 더 축소할 수 있었고, 군집화 알고리즘을 적용하지 자은 전체 GPDFs를 사용한 경우와 비교해서 인식 성능의 유지와 함께 약 61.8%의 GPDFs를 압축할 수 있었으며, SNR 10㏈ 잡음 데이터에 대한 성능평가에서도 인식 성능이 유지될 수 있었다.

군집분석을 이용한 침수관련 유역특성 분류 (Classification of basin characteristics related to inundation using clustering)

  • 이한승;조재웅;강호선;황정근;문혜진
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.96-96
    • /
    • 2020
  • In order to establish the risk criteria of inundation due to typhoons or heavy rainfall, research is underway to predict the limit rainfall using basin characteristics, limit rainfall and artificial intelligence algorithms. In order to improve the model performance in estimating the limit rainfall, the learning data are used after the pre-processing. When 50.0% of the entire data was removed as an outlier in the pre-processing process, it was confirmed that the accuracy is over 90%. However, the use rate of learning data is very low, so there is a limitation that various characteristics cannot be considered. Accordingly, in order to predict the limit rainfall reflecting various watershed characteristics by increasing the use rate of learning data, the watersheds with similar characteristics were clustered. The algorithms used for clustering are K-Means, Agglomerative, DBSCAN and Spectral Clustering. The k-Means, DBSCAN and Agglomerative clustering algorithms are clustered at the impervious area ratio, and the Spectral clustering algorithm is clustered in various forms depending on the parameters. If the results of the clustering algorithm are applied to the limit rainfall prediction algorithm, various watershed characteristics will be considered, and at the same time, the performance of predicting the limit rainfall will be improved.

  • PDF