A Study on the Effect of the Name Node and Data Node on the Big Data Processing Performance in a Hadoop Cluster

Hadoop 클러스터에서 네임 노드와 데이터 노드가 빅 데이터처리 성능에 미치는 영향에 관한 연구

  • 이영훈 (호남대학교 인터넷소프트웨어학과) ;
  • 김용일 (호남대학교 인터넷콘텐츠학과)
  • Received : 2017.08.14
  • Accepted : 2017.09.21
  • Published : 2017.09.30

Abstract

Big data processing processes various types of data such as files, images, and video to solve problems and provide insightful useful information. Currently, various platforms are used for big data processing, but many organizations and enterprises are using Hadoop for big data processing due to the simplicity, productivity, scalability, and fault tolerance of Hadoop. In addition, Hadoop can build clusters on various hardware platforms and handle big data by dividing into a name node (master) and a data node (slave). In this paper, we use a fully distributed mode used by actual institutions and companies as an operation mode. We have constructed a Hadoop cluster using a low-power and low-cost single board for smooth experiment. The performance analysis of Name node is compared through the same data processing using single board and laptop as name nodes. Analysis of influence by number of data nodes increases the number of data nodes by two times from the number of existing clusters. The effect of the above experiment was analyzed.

빅 데이터 처리는 파일이나 이미지, 동영상 등 다양한 형태의 데이터를 처리하여 문제를 해결하고 통찰력 있는 유용한 정보를 제공한다. 현재 빅 데이터 처리를 위해 다양한 플랫폼이 사용되지만, 하둡이 가지는 단순성, 생산성, 확장성, 그리고 내고장성 때문에 많은 기관, 기업에서 빅 데이터 처리에 하둡을 사용하고 있다. 또한, 하둡은 다양한 하드웨어 플랫폼으로 클러스터를 구축할 수 있으며, 네임 노드(Master)와 데이터 노드(Slave)로 구분하여 빅 데이터를 처리한다. 본 논문에서는 실제 기관과 기업에서 사용하는 완전분산모드를 사용하였으며 원활한 테스트를 위해 저전력이고 저가인 싱글 보드를 사용하여 하둡 클러스터를 구축하였다. 네임 노드의 성능 영향 분석은 싱글 보드와 랩톱을 네임 노드로 사용하여 같은 데이터 처리를 통하여 비교하였으며 데이터 노드의 개수에 따른 영향 분석은 싱글 보드를 기존 클러스터의 개수에서 2배까지 늘려가며 데이터 노드가 미치는 영향을 분석하였다.

Keywords

References

  1. Chris Snijders, Uwe Matzat, Ulf-Dietrich Reips, "Big Data: Big gaps of knowledge in the field of Internet Science". International Journal of Internet Science, vol.7, no.1, pp. 1-5, 2012.
  2. Laney, Douglas, "3D Data Management: Controlling Data Volume, Velocity and Variety", Gartner
  3. 조성우, "빅데이터 시대의 기술", KT종합기술원, 5-7쪽, 2011년 10월
  4. CNET, "Google spotlights data center inner workings", Tech news blog
  5. 정재화, "시작하세요! 하둡 프로그래밍", wikibooks, 98-101쪽, 2014년 12월
  6. ANSI, "Airline on-time performance", Data expo, 2009.
  7. Hardkernel, "Odroid C1 Product Introduce", http://www.hardkernel.com/main/products/prdt_info.php?g_code=G141578608433, 2014.
  8. Khaled Tannir, "Optimizing Hadoop for MapReduce", Packt Publishing, 2014.
  9. 이영훈, 김용일, "Mi Band와 MongoDB를 사용한 생체정보 빅데이터 시스템의 설계", 스마트미디어저널, vol.5, no.4, 124-130쪽, 2016년 12월