Abstract
This paper discusses management problems of Hadoop distributed node, which is a platform for big data processing, and proposes a novel technique for enabling flexible node management of Hadoop Distributed File System. Hadoop cannot configure Hadoop cluster dynamically because it judges temporarily unavailable nodes as a failure. Delayed block replication scheme proposed in this paper delays the removal of unavailable node as much as possible so as to be easily rejoined. Experimental results show that the proposed scheme increases flexibility of node management with little impact on distributed processing performance when the cluster size changes.
본 논문에서는 빅 데이터 처리를 위한 플랫폼인 하둡이 가지고 있는 분산 노드 관리 기법의 문제점을 분석하고 하둡 분산 파일시스템에서 노드 관리를 유연하게 처리하기 위한 기법을 제안한다. 기존의 방법은 클러스터에 포함된 노드가 일시적으로 연결되지 않는 경우 이를 즉시 고장으로 판정함으로 인해 클러스터를 동적으로 구성하지는 못하는 문제가 있다. 본 논문에서 제안하는 지연된 블록 복제 기법은 연결이 끊어진 노드가 추후 클러스터에 쉽게 편입될 수 있도록 노드의 제거를 최대한 지연함으로써 노드 관리의 유연성을 제공한다. 실험을 통해 제안하는 기법이 클러스터의 규모가 변화하는 환경에서 분산 처리 성능에 영향을 거의 미치지 않으면서도 노드 관리의 유연성을 증대시키는 것을 입증한다.