DOI QR코드

DOI QR Code

A Performance Comparison of Distributed Data Processing Frameworks for Large Scale Graph Data

대규모 분산 처리 프레임워크에 따른 대규모 그래프 처리 성능 비교

  • Bae, Kyung-sook (Cloud Computing Team, Dept. of Infra Business Dev, SKC&C) ;
  • Kong, Yong-joon (Cloud Computing Team, Dept. of Infra Business Dev, SKC&C) ;
  • Shim, Tak-kil (Cloud Computing Team, Dept. of Infra Business Dev, SKC&C) ;
  • Shin, Eui-seob (Cloud Computing Team, Dept. of Infra Business Dev, SKC&C) ;
  • Seong, Kee-kin (Cloud Computing Team, Dept. of Infra Business Dev, SKC&C)
  • 배경숙 (SKC&C, 인프라 사업개발 본부, 클라우드 컴퓨팅 개발담당 팀) ;
  • 공용준 (SKC&C, 인프라 사업개발 본부, 클라우드 컴퓨팅 개발담당 팀) ;
  • 심탁길 (SKC&C, 인프라 사업개발 본부, 클라우드 컴퓨팅 개발담당 팀) ;
  • 신의섭 (SKC&C, 인프라 사업개발 본부, 클라우드 컴퓨팅 개발담당 팀) ;
  • 성기진 (SKC&C, 인프라 사업개발 본부, 클라우드 컴퓨팅 개발담당 팀)
  • Published : 2012.04.26

Abstract

최근 IT 분야의 화두로 '빅 데이터'가 떠오르고 있으며 많은 기업들이 이를 분석하여 이익을 증대하기 위한 노력을 하고 있다. 이에 구글은 초기에 맴리듀스라고 하는 대용량 분산처리 프레임워크 기술을 확보하여 이를 기반으로 한 서비스를 제공하고 있다. 그러나 스마트 단말 및 소설미디어 등의 출현으로 다양한 디지털 정보들이 그래프로 표현되는 추세가 강화되고 있으며 기존의 맵리듀스로 이를 처리하는 데에 한계를 느낀 구글은 Pregel 이라는 그래프 형 자료구조에 최적화된 또 다른 분산 프레임워크를 개발하였다. 본 논문에서는 일반적인 그래프 형 데이터가 갖는 특성을 분석하고, 대용량 그래프 데이터를 처리하는데 있어 맵리듀스가 갖는 한계와 Pregel은 어떤 방식으로 이를 극복하고 있는지를 소개한다. 또한 실험을 통하여 데이터의 특성에 따른 적절한 프레임워크의 선택이 대용량 데이터를 처리하는 데에 있어서 얼마나 큰 영향을 미치는지 확인한다.

Keywords