A Dynamic Data Replica Deletion Strategy on HDFS using HMM

HMM을 이용한 HDFS 기반 동적 데이터 복제본 삭제 전략

  • Seo, Young-Ho (College of Information and Communication Engineering, Sungkyunkwan University) ;
  • Youn, Hee-Yong (College of Information and Communication Engineering, Sungkyunkwan University)
  • 서영호 (성균관대학교 정보통신공학부) ;
  • 윤희용 (성균관대학교 정보통신대학)
  • Published : 2014.07.16

Abstract

본 논문에서는 HDFS(Hadoop Distributed File System)에서 문제되고 있는 복제정책의 개선을 위해 HMM(Hidden Markov Model)을 이용한 동적 데이터 복제본 삭제 전략을 제안한다. HDFS는 대용량 데이터를 효과적으로 처리할 수 있는 분산 파일 시스템으로 높은 Fault-Tolerance를 제공하며, 데이터의 접근에 높은 처리량을 제공하여 대용량 데이터 집합을 갖는 응용 프로그램에 최적화 되어있는 장점을 가지고 있다. 하지만 HDFS 에서의 복제 메커니즘은 시스템의 안정성과 성능을 향상시키지만, 추가 블록 복제본이 많은 디스크 공간을 차지하여 유지보수 비용 또한 증가하게 된다. 본 논문에서는 HMM과 최상의 상태 순서를 찾는 알고리즘인 Viterbi Algorithm을 이용하여 불필요한 데이터 복제본을 탐색하고, 탐색된 복제본의 삭제를 통하여 HDFS의 디스크 공간과 유지보수 비용을 절약 할 수 있는 전략을 제안한다.

Keywords