DOI QR코드

DOI QR Code

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법

An Efficient Large Graph Clustering Technique based on Min-Hash

  • 이석주 (한국기술교육대학교 컴퓨터공학과) ;
  • 민준기 (한국기술교육대학교 컴퓨터공학과)
  • 투고 : 2015.10.06
  • 심사 : 2015.12.05
  • 발행 : 2016.03.15

초록

그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

Graph clustering is widely used to analyze a graph and identify the properties of a graph by generating clusters consisting of similar vertices. Recently, large graph data is generated in diverse applications such as Social Network Services (SNS), the World Wide Web (WWW), and telephone networks. Therefore, the importance of graph clustering algorithms that process large graph data efficiently becomes increased. In this paper, we propose an effective clustering algorithm which generates clusters for large graph data efficiently. Our proposed algorithm effectively estimates similarities between clusters in graph data using Min-Hash and constructs clusters according to the computed similarities. In our experiment with real-world data sets, we demonstrate the efficiency of our proposed algorithm by comparing with existing algorithms.

키워드

과제정보

연구 과제 주관 기관 : 한국연구재단

참고문헌

  1. U. Kang, and C. Faloutsos, "Big Graph Mining: Algorithms and Discoveries," SIGKDD Explorations, Vol. 14, No. 2, pp. 29-36, 2012.
  2. M. E. J. Newman, and M. Girvan, "Finding and evaluating community structure in networks," Physical review E, Vol. 69, No. 2, 2004.
  3. N. Mishra, R. Schreiber, I. Stanton, and R. E. Tarjan, "Clustering social networks," Algoriths and Models for the Web-Graph, LNCS, Vol. 4863, pp. 56-67, 2007.
  4. T. Haveliwala, A. Gionis, and P. Indyk, "Scalable techniques for clustering the web," Proc. of WebDB Workshop, 2000.
  5. J. Shi, and J. Malik, "Normalized Cuts and Image Segmentation," Pattern Analysis and Machine Intelligence, Vol. 22, No. 8, pp. 888-905, 2000. https://doi.org/10.1109/34.868688
  6. K. Macropol, T. Can, and AK. Singh, "RRW: repeated random walks on genome-scale protein networks for local cluster discovery," BMC Bioinformatics, Vol. 10, No. 1, pp. 283, 2009. https://doi.org/10.1186/1471-2105-10-283
  7. L. Wang, Y. Xiao, B. Shao, and H. Wang, "How to partition a billion-node graph," Proc. of IEEE ICDE, pp. 568-579, 2014.
  8. AZ. Broder, "On the resemblance and containment of documents," Proc. of Compression and Complexity of Sequences, pp. 21-29, 1997.
  9. AZ. Broder, SC. Glassman, MS. Manasse, and G. Zweig, "Syntactic clustering of the web," Computer Networks and ISDN Systems, Vol. 29, No. 8, pp. 1157-1166, 1997. https://doi.org/10.1016/S0169-7552(97)00031-7
  10. A. Rajaraman, and J. D. Ullman, "Mining of massive datasets," Cambridge University Press, 2011.
  11. X. Liu, Y. Zhou, C. Hu, X. Huan, and J. Leng, "Detecting community structure for undirected big graphs based on random walks," Proc. of WWW, pp. 1151-1156, 2014.
  12. S. V. Dongen, "Graph Clustering by Flow Simulation," PhD thesis, University of Utrecht, 2000.
  13. X. Xu, N. Yuruk, Z. Feng, and TAJ. Schweiger, "Scan: a structural clustering algorithm for networks," Proc. of ACM SIGKDD, pp. 824-833, 2007.
  14. K. Macropol, and A. Singh, "Scalable discovery of best clusters on large graphs," Proc. of VLDB Endowment, pp. 693-702, 2010.
  15. R. Kannan, S. Vempala, and A Vetta, "On clusterings: Good, bad and spectral," Journal of the ACM (JACM), Vol. 51, No. 3, pp. 497-515, 2004. https://doi.org/10.1145/990308.990313