• Title/Summary/Keyword: k-Means

Search Result 17,924, Processing Time 0.045 seconds

K-means Clustering for Environmental Indicator Survey Data

  • Park, Hee-Chang;Cho, Kwang-Hyun
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 춘계학술대회
    • /
    • pp.185-192
    • /
    • 2005
  • There are many data mining techniques such as association rule, decision tree, neural network analysis, clustering, genetic algorithm, bayesian network, memory-based reasoning, etc. We analyze 2003 Gyeongnam social indicator survey data using k-means clustering technique for environmental information. Clustering is the process of grouping the data into clusters so that objects within a cluster have high similarity in comparison to one another. In this paper, we used k-means clustering of several clustering techniques. The k-means clustering is classified as a partitional clustering method. We can apply k-means clustering outputs to environmental preservation and environmental improvement.

  • PDF

Pattern Analysis and Performance Comparison of Lottery Winning Numbers

  • Jung, Yong Gyu;Han, Soo Ji;kim, Jae Hee
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제6권1호
    • /
    • pp.16-22
    • /
    • 2014
  • Clustering methods such as k-means and EM are the group of classification and pattern recognition, which are used in management science and literature search widely. In this paper, k-means and EM algorithm are compared the performance using by Weka. The winning Lottery numbers of 567 cases are experimented for our study and presentation. Processing speed of the k-means algorithm is superior to the EM algorithm, which is about 0.08 seconds faster than the other. As the result it is summerized that EM algorithm is better than K-means algorithm with comparison of accuracy, precision and recall. While K-means is known to be sensitive to the distribution of data, EM algorithm is probability sensitive for clustering.

Variable Selection and Outlier Detection for Automated K-means Clustering

  • Kim, Sung-Soo
    • Communications for Statistical Applications and Methods
    • /
    • 제22권1호
    • /
    • pp.55-67
    • /
    • 2015
  • An important problem in cluster analysis is the selection of variables that define cluster structure that also eliminate noisy variables that mask cluster structure; in addition, outlier detection is a fundamental task for cluster analysis. Here we provide an automated K-means clustering process combined with variable selection and outlier identification. The Automated K-means clustering procedure consists of three processes: (i) automatically calculating the cluster number and initial cluster center whenever a new variable is added, (ii) identifying outliers for each cluster depending on used variables, (iii) selecting variables defining cluster structure in a forward manner. To select variables, we applied VS-KM (variable-selection heuristic for K-means clustering) procedure (Brusco and Cradit, 2001). To identify outliers, we used a hybrid approach combining a clustering based approach and distance based approach. Simulation results indicate that the proposed automated K-means clustering procedure is effective to select variables and identify outliers. The implemented R program can be obtained at http://www.knou.ac.kr/~sskim/SVOKmeans.r.

영상에서 K-means 군집화를 이용한 윤곽선 검출 기법 (An Edge Extraction Method Using K-means Clustering In Image)

  • 김가온;이강성;이상훈
    • 디지털융복합연구
    • /
    • 제12권11호
    • /
    • pp.281-288
    • /
    • 2014
  • 본 논문에서는 복잡한 영상에서의 윤곽선 검출을 기존의 방법보다 더 명확하고 효율적으로 나타내기 위해서 K-means 군집화를 이용하였다. 제안하는 방법에는 세 가지 단계를 거친다. 첫 번째는 명암분포를 균일하게 하기 위하여 히스토그램 평활화를 사용한다. 두 번째는 거리에 기반을 둔 클러스터링 기법으로 기준점에서 가까운 곳의 데이터들을 하나의 군집으로 묶는 K-means 군집화를 사용하고 마지막으로 에지검출의 가장 대표적인 1차 미분 연산자인 소벨 마스크를 사용하여 윤곽선을 검출한다. 따라서 기존에 있던 윤곽선 검출보다 더 나은 결과로 명확하게 윤곽선을 검출 할 수 있음을 보인다.

데이터 클러스터링을 위한 혼합 시뮬레이티드 어닐링 (Hybrid Simulated Annealing for Data Clustering)

  • 김성수;백준영;강범수
    • 산업경영시스템학회지
    • /
    • 제40권2호
    • /
    • pp.92-98
    • /
    • 2017
  • Data clustering determines a group of patterns using similarity measure in a dataset and is one of the most important and difficult technique in data mining. Clustering can be formally considered as a particular kind of NP-hard grouping problem. K-means algorithm which is popular and efficient, is sensitive for initialization and has the possibility to be stuck in local optimum because of hill climbing clustering method. This method is also not computationally feasible in practice, especially for large datasets and large number of clusters. Therefore, we need a robust and efficient clustering algorithm to find the global optimum (not local optimum) especially when much data is collected from many IoT (Internet of Things) devices in these days. The objective of this paper is to propose new Hybrid Simulated Annealing (HSA) which is combined simulated annealing with K-means for non-hierarchical clustering of big data. Simulated annealing (SA) is useful for diversified search in large search space and K-means is useful for converged search in predetermined search space. Our proposed method can balance the intensification and diversification to find the global optimal solution in big data clustering. The performance of HSA is validated using Iris, Wine, Glass, and Vowel UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KSAK (K-means+SA+K-means) and SAK (SA+K-means) are better than KSA(K-means+SA), SA, and K-means in our simulations. Our method has significantly improved accuracy and efficiency to find the global optimal data clustering solution for complex, real time, and costly data mining process.

K-Means 클러스터링 성능 향상을 위한 최대평균거리 기반 초기값 설정 (Refining Initial Seeds using Max Average Distance for K-Means Clustering)

  • 이신원;이원휘
    • 인터넷정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.103-111
    • /
    • 2011
  • 대규모 데이터에 대한 특성에 따라 몇 개의 클러스터로 군집화하는 클러스터링 기법은 계층적 클러스터링이나 분할 클러스터링 등 다양한 기법이 있는데 그 중에서 K-Means 알고리즘은 구현이 쉬우나 할당-재계산에 소요되는 시간이 증가하게 된다. 본 논문에서는 초기 클러스터 중심들 간의 거리가 최대가 되도록 하여 초기 클러스터 중심들이 고르게 분포되도록 함으로써 할당-재계산 횟수를 줄이고 전체 클러스터링 시간을 감소시키고자 한다.

마이크로 어레이 데이터에 적용된 2단계 K-means 클러스터링의 소개 (An Introduction of Two-Step K-means Clustering Applied to Microarray Data)

  • 박대훈;김연태;김성신;이춘환
    • 한국지능시스템학회논문지
    • /
    • 제17권2호
    • /
    • pp.167-172
    • /
    • 2007
  • 많은 유전자 정보와 그 부산물은 많은 방법을 통해 연구되어 왔다. DNA 마이크로어레이 기술의 사용은 많은 데이터를 가져왔으며, 이렇게 얻은 데이터는 기존의 연구 방법으로는 분석하기 힘들다. 본 논문에서는 많은 양의 데이터를 처리할 수 있게 하기 위하여 K-means 클러스터링 알고리즘을 이용한 분할 클러스터링을 제안하였다. 제안한 방법을 쌀 유전자로부터 나온 마이크로어레이 데이터에 적용함으로써 제안된 클러스터링 방법의 유용성을 검증하였으며, 기존의 K-means 클러스터링 알고리즘을 적용한 결과와 비교함으로써 제안된 알고리즘의 우수성을 확인할 수 있었다.

예측 데이터를 이용한 빠른 K-Means 알고리즘 (Fast K-Means Clustering Algorithm using Prediction Data)

  • 지태창;이현진;이일병
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.106-114
    • /
    • 2009
  • 본 논문에서 K-Means 군집화 알고리즘을 빠르게 적용하는 방법을 제안했다. 제안하는 알고리즘의 특징은 속도 향상을 위해 변화될 가능성이 있는 데이터를 예측하는 것이다. 군집화 알고리즘의 각 단계에서 군집이 변경될 가능성이 있는 데이터만 선택하여 군집 중심과의 거리를 계산함으로써 전체 군집 계산 시간을 줄일 수 있었다. 군집이 변화될 예측 데이터를 계산할 때는 K-Means 알고리즘을 적용하면서 생성되는 거리 정보를 사용함으로써 추가되는 계산 시간이 적고, 특히, 거리 정보를 이용하기 때문에 차원의 개수에는 영향을 덜 받는 알고리즘을 제안할 수 있었다. 제안하는 알고리즘의 성능 비교를 위해서 원래의 K-Means인 Lloyd's와 이를 개선한 KMHybrid와 비교했다. 제안하는 알고리즘은 대용량 데이터( 입력 데이터의 크기가 크고, 데이터의 차원이 크며, 군집의 개수가 많은 경우)의 경우에 Lloyd's와 KMHybrid보다 높은 속도 향상을 보였다.

Exponential Probability Clustering

  • Yuxi, Hou;Park, Cheol-Hoon
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.671-672
    • /
    • 2008
  • K-means is a popular one in clustering algorithms, and it minimizes the mutual euclidean distance among the sample points. But K-means has some demerits, such as depending on initial condition, unsupervised learning and local optimum. However mahalanobis distancecan deal this case well. In this paper, the author proposed a new clustering algorithm, named exponential probability clustering, which applied Mahalanobis distance into K-means clustering. This new clustering does possess not only the probability interpretation, but also clustering merits. Finally, the simulation results also demonstrate its good performance compared to K-means algorithm.

  • PDF

K-means 알고리즘을 이용한 세라믹 영상에서의 결함 검출 (Fault Detection of Ceramic Imaging using K-means Algorithm)

  • 김광백;우영운
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.275-277
    • /
    • 2014
  • 본 논문에서는 세라믹 소재 영상에 가우시안 필터링 기법을 적용하여 잡음을 제거하고, K-means 알고리즘을 적용하여 결함 영역을 세분화 한 뒤, 세분화된 결함 영역에 Max-Min 이진화 기법을 이용하여 결함 영역을 추출한 후, 형태학적 기법을 이용하여 잡음을 제거하고 결함을 추출한다. 제안된 방법을 세라믹 소재 영상을 대상으로 실험한 결과, 기존의 방법보다 효율적으로 결함이 검출되는 것을 확인하였다.

  • PDF