다단계 중복 제거 기법을 이용한 클러스터 기반 파일 백업 서버

A Clustering File Backup Server Using Multi-level De-duplication

  • 고영웅 (한림대학교 컴퓨터공학과) ;
  • 정호민 (한림대학교 컴퓨터공학과) ;
  • 김진 (한림대학교 컴퓨터공학과)
  • 발행 : 2008.10.15

초록

기존의 상용 저장 시스템은 데이타를 저장할 때 몇 가지 문제점을 가지고 있다. 먼저, 데이타를 저장함에 있어서 실용적인 중복제거 기법이 널리 활용되고 있지 못하기 때문에 저장 장치 낭비를 초래하고 있다. 또한 대규모 데이타 입출력을 처리하기 위해서 고사양의 시스템을 요구한다는 부분도 문제점으로 지적할 수 있다. 이와 같은 문제를 해결하기 위해서 본 논문에서는 블록 수준에서의 중복을 제거하기 위한 방안으로 파일 지문을 이용한 클러스터링 기반 저장 시스템을 제안하고 있다. 본 연구는 기존의 저장 시스템과 몇 가지 부분에서 차이를 보인다. 먼저, 파일 블록의 지문을 이용한 다단계 중복 제거 기법을 통하여 불필요한 데이타에 대한 저장 용량을 효과적으로 줄일 수 있었다. 또한 입출력 시스템 부분에서는 클러스터링 기법을 적용함으로써 데이타 전송 및 입출력 시간을 효과적으로 감소시켰다. 본 논문에서는 제안된 방법을 검증하기 위해서 몇 가지 실험을 수행하였으며, 실험 결과 저장 공간과 입출력 성능이 크게 개선되었음을 보였다.

Traditional off-the-shelf file server has several potential drawbacks to store data blocks. A first drawback is a lack of practical de-duplication consideration for storing data blocks, which leads to worse storage capacity waste. Second drawback is the requirement for high performance computer system for processing large data blocks. To address these problems, this paper proposes a clustering backup system that exploits file fingerprinting mechanism for block-level de-duplication. Our approach differs from the traditional file server systems in two ways. First, we avoid the data redundancy by multi-level file fingerprints technology which enables us to use storage capacity efficiently. Second, we applied a cluster technology to I/O subsystem, which effectively reduces data I/O time and network bandwidth usage. Experimental results show that the requirement for storage capacity and the I/O performance is noticeably improved.

키워드

참고문헌

  1. KyoungSoo Park, Sunghwan Ihm, Mic Bowman, and Vivek S. Pai. 'Supporting Practical Content-Addressable Caching with CZIP Compression,' In Proceedings of the USENIX Annual Technical Conference, Santa Clara, CA, June 2007
  2. Storage Networking Industry Association, Backup/Recovery Tutorial, 2001
  3. A. Tridgell. Efficient algorithms for sorting and synchronization. PhD thesis, The Austrailian National University, 1999
  4. M. Ajtai, R. Burns, et al. 'Compactly encoding unstructured inputs with differential compression,' Journal of the Association for Computing Machinery, 2000
  5. R. L. Rivest, 'The MD5 Message Digest Algorithm,' Request for Comments(RFC) 1321, Internet Activities Board, 1992
  6. RFC 3174, 'US Secure Hash Algorithm 1 (SHA-1)
  7. Centos home page, http://www.centos.org
  8. vmware home page, http://www.vmware.com
  9. http://www.samba.org/rsync/
  10. http://www.ibm.com/tivoli
  11. M. O. Rabin. 'Fingerprinting by random polynomials,' Technical Report TR-15-81, Center for Research in Computing Technology, Harvard University, 1981
  12. QUINLAN, S., AND DORWARD, S. 'Venti: a new approach to archival storage,' In Proceedings of the 1st USENIX Conference on File and Storage Technologies (FAST) (2002)
  13. Josh Cates, Robust and Efficient Data Management for a Distributed Hash Table. Master's thesis, Massachusetts Institute of Technology, May 2003
  14. S. Rhea, B. Godfrey, B. Karp, J. Kubiatowicz, S. Ratnasamy, S. Shenker, I. Stoica, and H. Yu. 'OpenDHT: A public DHT service and its uses,' In SIGCOMM, 2005
  15. COX, L. P., AND NOBLE, B. D. 'Pastiche: making backup cheap and easy,' In Proceedings of the 5th Symposium on Operating Systems Design and Implementation, Dec.2002
  16. L. Wang, K. Park, R. Pang, V. Pai, and L. Peterson. 'Reliability and security in the CoDeeN content distribution network,' In Proceedings of the USENIX Annual Technical Conference, 2004
  17. S. Annapureddy, M. J. Freedman, and D. Mazires. 'Shark: Scaling file servers via cooperative caching,' In 2nd USENIX/ACM Symposium on Networked Systems Design and Implementation, Boston, MA, May 2005
  18. N. Tolia, M. Kaminsky, D. G. Andersen, and S. Patil. 'An architecture for internet data transfer,' In Proceedings of the 3rd Symposium on Networked Systems Design and Implementation, 2006
  19. H. Pucha, D. G. Andersen, and M. Kaminsky. 'Exploiting similarity for multi-source downloads using file handprints,' In Proceedings of the 4th USENIX/ACM Symposium on Networked Systems Design and Implementation, 2007
  20. C. Policroniades and I. Pratt. 'Alternatives for detecting redundancy in storage systems data,' In Proceedings of USENIX Annual Technical Conference, 2004
  21. J. C. Mogul, Y. M. Chan, and T. Kelly. 'Design, implementation, and evaluation of duplicate transfer detection in HTTP,' In Proceedings of the 1st Symposium on Networked Systems Design and Implementation, 2004