DOI QR코드

DOI QR Code

Improved TI-FCM Clustering Algorithm in Big Data

빅데이터에서 개선된 TI-FCM 클러스터링 알고리즘

  • Received : 2019.06.04
  • Accepted : 2019.06.11
  • Published : 2019.06.30

Abstract

The FCM algorithm finds the optimal solution through iterative optimization technique. In particular, there is a difference in execution time depending on the initial center of clustering, the location of noise, the location and number of crowded densities. However, this method gradually updates the center point, and the center of the initial cluster is shifted to one side. In this paper, we propose a TI-FCM(Triangular Inequality-Fuzzy C-Means) clustering algorithm that determines the cluster center density by maximizing the distance between clusters using triangular inequality. The proposed method is an effective method to converge to real clusters compared to FCM even in large data sets. Experiments show that execution time is reduced compared to existing FCM.

FCM 알고리즘은 반복 최적화 기법을 통해 최적해를 찾는다. 특히, 클러스터링 초기 중심과 잡음의 위치, 몰려있는 밀도의 위치, 개수에 따라 실행시간 차이가 난다. 하지만 이 방법은 중심점을 점차 갱신해 나가는 방법으로 초기 클러스터 중심이 한 쪽으로 치우치게 되고 클러스터링 결과의 편차가 심해 클러스터링 대푯값의 신뢰도가 떨어진다. 따라서 본 논문에서는 삼각부등식을 이용하여 클러스터 간 거리를 최대한 멀어지게 하여 클러스터 중심 밀도를 결정하는 TI-FCM(Triangular Inequality-Fuzzy C-Means:삼각부등식-FCM)클러스터링 알고리즘을 제안한다. 제안된 방법은 대용량의 빅데이터에서도 FCM에 비해 실제 클러스터에 수렴하는 효과적인 방법이고 실험을 통해 기존 FCM보다 실행시간이 감소됨을 보였다.

Keywords

JGGJB@_2019_v23n2_419_f0001.png 이미지

Fig. 1. The shortest distance based on the density of triangular inequality. 그림 1. 삼각부등식의 밀도 기준 최단거리

JGGJB@_2019_v23n2_419_f0002.png 이미지

Fig. 2. TI-FCM Algorithm. 그림 2. TI-FCM 알고리즘

JGGJB@_2019_v23n2_419_f0003.png 이미지

Fig. 3. Comparison of FCM vs TI-FCM execution time. 그림 3. FCM vs TI-FCM 실행 시간 비교

JGGJB@_2019_v23n2_419_f0004.png 이미지

Fig. 4. FCM 100 data execution results. 그림 4. FCM 100개 데이터 실행 결과

JGGJB@_2019_v23n2_419_f0005.png 이미지

Fig. 5. TI-FCM 100 data execution results. 그림 5. TI-FCM 100개 데이터 실행 결과

JGGJB@_2019_v23n2_419_f0006.png 이미지

Fig. 6. FCM 1 million data execution results. 그림 6. FCM 100만개 데이터 실행 결과

JGGJB@_2019_v23n2_419_f0007.png 이미지

Fig. 7. TI-FCM 1 million data execution results. 그림 7. TI-FCM 100만개 데이터 실행 결과

Table 1. FCM vs TI-FCM data execution Time. 표 1. FCM vs TI-FCM 데이터 실행 시간

JGGJB@_2019_v23n2_419_t0001.png 이미지

References

  1. http://www-01.ibm.com/software/data/bigdata
  2. Mugdha Jain, Chakradhar Verma, "Adapting k-means for Clustering in Big Data," International Journal of Computer Applications (0975-8887), Vol.101, No.1, 2014. DOI: 10.5120/17652-8457
  3. The Big Data Long Tail. Blog post by Bloomberg, Jason. 2013.
  4. Soumi Ghosh, Sanjay Kumar Dubey, "Comparative Analysis of K-Means and Fuzzy C-Means Algorithms,"(IJACSA) International Journal of Advanced Computer Science and Applications, Vol.4, No.4, 2013. DOI: 10.14569/IJACSA.2013.040406
  5. Anwesha Barai (Deb), Lopamudra Dey, "Outlier Detection and Removal Algorithm in K-Means and Hierarchical Clustering," World Journal of Computer Application and Technology, Vol.5, No.2, pp.24-29, 2017. DOI: 10.13189/wjcat.2017.050202
  6. J. Bezdek, Pattern Recognition with fuzzy Objective Function Algorithms, New York, Springer, 1981.
  7. Christopher, T., and T. Divya. "A Study of Clustering Based Algorithm for Outlier Detection in Data streams," Proceedings of the UGC Sponsored National Conference on Advanced etworking and Applications. 2015.
  8. Fahad, A, Alshatri, N., Tari, Z., AlAmri, A., Zomaya, Y., Khalil, I., Foufou, S., Bouras, A, "A Survey of Clustering Algorithms for Big Data: Taxonomy & Empirical Analysis," Emerging Topics in Computing, IEEE Transactions, vol.PP, no.99, pp.1, 1. 2014. DOI: 10.1109/TETC.2014.2330519
  9. S. Muyamoto, Fuzzy Clustering-Basic Ideas and Overview, Handbook of Computational Intelligence, Springer, pp.293-248, 2015.
  10. J. Nayak, "Fuzzy C-means(FCM) Clustering Algorithm: A Decade Review from 2000 to 2014," Systems and Technologies, vol.32, no.2, pp.133-179, 2014.