DOI QR코드

DOI QR Code

An Efficient Clustering Method based on Multi Centroid Set using MapReduce

맵리듀스를 이용한 다중 중심점 집합 기반의 효율적인 클러스터링 방법

  • 강성민 (한국기술교육대학교 컴퓨터공학부) ;
  • 이석주 (한국기술교육대학교 컴퓨터공학부) ;
  • 민준기 (한국기술교육대학교 컴퓨터공학부)
  • Received : 2015.03.19
  • Accepted : 2015.05.08
  • Published : 2015.07.15

Abstract

As the size of data increases, it becomes important to identify properties by analyzing big data. In this paper, we propose a k-Means based efficient clustering technique, called MCSKMeans (Multi centroid set k-Means), using distributed parallel processing framework MapReduce. A problem with the k-Means algorithm is that the accuracy of clustering depends on initial centroids created randomly. To alleviate this problem, the MCSK-Means algorithm reduces the dependency of initial centroids using sets consisting of k centroids. In addition, we apply the agglomerative hierarchical clustering technique for creating k centroids from centroids in m centroid sets which are the results of the clustering phase. In this paper, we implemented our MCSK-Means based on the MapReduce framework for processing big data efficiently.

데이터 사이즈가 증가함에 따라서 대용량 데이터를 분석하여 데이터의 특성을 파악하는 것이 매우 중요해졌다. 본 논문에서는 분산 병렬 처리 프레임워크인 맵리듀스를 활용한 k-Means 클러스터링 기반의 효과적인 클러스터링 기법인 MCSK-Means (Multi centroid set k-Means)알고리즘을 제안한다. k-Means 알고리즘은 임의로 정해지는 k개의 초기 중심점들의 위치에 따라서 클러스터링 결과의 정확도가 많은 영향을 받는 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여, 본 논문에서 제안하는 MCSK-Means 알고리즘은 k개의 중심점들로 이루어진 m개의 중심점 집합을 사용하여 임의로 생성되는 초기 중심점의 의존도를 줄였다. 또한, 클러스터링 단계를 거친 m개의 중심점 집합들에 속한 중심점들에 대하여 직접 계층 클러스터링 알고리즘을 적용하여 k개의 클러스터 중심점들을 생성하였다. 본 논문에서는 MCSK-Means 알고리즘을 맵리듀스 프레임워크 환경에서 개발하여 대용량 데이터를 효율적으로 처리할 수 있도록 하였다.

Keywords

References

  1. R. S. Michalski, R. E. Stepp, and E. Diday, "A recent advance in data analysis: Clustering objects into classes characterized by conjunctive concepts," Progress in Pattern Recognition, Vol. 1, pp. 33-56, 1981.
  2. P. Domingos, and G. Hulten, "A general method for scaling up machine learning algorithms and its application to clustering," Proc. of the 18th International Conference on Machine Learning, pp. 106-113, 2001.
  3. C. M. Bishop, Pattern recognition and machine learning, Vol. 1, New York: springer, 2006.
  4. J. M. Jolion, P. Meer, and S. Bataouche, "Robust clustering with applications in computer vision," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 13, No. 8, pp. 791-802, 1991. https://doi.org/10.1109/34.85669
  5. T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D. Piatko, R. Silverman, and A. Y. Wu, "An efficient k-means clustering algorithm: Analysis and implementation," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 24, No. 7, pp. 881-892, 2002. https://doi.org/10.1109/TPAMI.2002.1017616
  6. J. Dean, and S. Ghemawat, "MapReduce: simplified data processing on large clusters," Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. https://doi.org/10.1145/1327452.1327492
  7. D. Pelleg, and A. W. Moore, "X-means: Extending K-means with Efficient Estimation of the Number of Clusters," Proc. of the 17th International Conference on Machine Learning, pp. 727-734, 2000.
  8. G. Hamerly, and C. Elkan, "Learning the k in Kmeans," Advances in neural information processing systems 16, pp. 281, 2004.
  9. P. Tan, M. Steinbach, and V. Kumar, Introduction to data mining Vol. 1, Boston: Pearson Addison Wesley, 2006.
  10. Y. He, H. Tan, W. Luo, H. Mao, D. Ma, S. Feng, and J. Fan, "Mr-dbscan: An efficient parallel densitybased clustering algorithm using MapReduce," Proc. of the 17th IEEE International Conference on Parallel and Distributed Systems, pp. 473-480, 2011.

Cited by

  1. An Algorithms for Tournament-based Big Data Analysis vol.16, pp.4, 2015, https://doi.org/10.9728/dcs.2015.16.4.545