DOI QR코드

DOI QR Code

Hadoop Distribute file system에서 Small file을 효과적으로 처리하기 위한 파일 병합 기법 연구

A File Merging Scheme for Efficient Handling of Small Files in Hadoop Distributed File System

  • 박종창 (성균관대학교 정보통신대학) ;
  • 윤희용 (성균관대학교 정보통신대학)
  • Park, Jong-Chang (College of Information & Communication Engineering, Sungkyunkwan University) ;
  • Youn, Hee-Yong (College of Information & Communication Engineering, Sungkyunkwan University)
  • 발행 : 2013.11.08

초록

HDFS(Hadoop Distribute File System)는 대용량 파일 처리를 목적으로 설계 되었으며 현재 이상적인 분산 파일 시스템으로 각광 받고 있다. 이러한 HDFS는 기존 분산파일 시스템과 많은 유사성을 가지고 있으나, Fault Tolerance를 제공하고, 데이터 엑세스 패턴을 스트리밍 방식으로 지원하여 대용량 파일을 효율적으로 저장할 수 있다는 차별성을 가지고 있다. 하지만 실제 HDFS 데이터 집합에는 Small file이 차지하는 비중이 상당히 높으며, 이러한 다수의 Small file 은 데이터 처리에 있어 높은 비용을 초래할 뿐 아니라 Master Node 의 파일 처리 및 메모리 성능에 악영향을 미친다. 따라서 본 논문에서는 HDFS에서 Small file 이 미치는 영향을 분석하고 이러한 문제점을 해결 할 수 있는 로컬 인덱스 파일기반의 파일 병합 기법을 제안한다.

키워드