DOI QR코드

DOI QR Code

A Striped Checkpointing Scheme for the Cluster System with the Distributed RAID

분산 RAID 기반의 클러스터 시스템을 위한 분할된 결함허용정보 저장 기법

  • 장윤석 (대진대학교 컴퓨터공학과)
  • Published : 2003.06.01

Abstract

This paper presents a new striped checkpointing scheme for serverless cluster computers, where the local disks are attached to the cluster nodes collectively form a distributed RAID with a single I/O space. Striping enables parallel I/O on the distributed disks and staggering avoids network bottleneck in the distributed RAID. We demonstrate how to reduce the checkpointing overhead and increase the availability by striping and staggering dynamically for communication intensive applications. Linpack HPC Benchamark and MPI programs are applied to these checkpointing schemes for performance evaluation on the 16-nodes cluster system. Benchmark results prove the benefits of the striped checkpointing scheme compare to the existing schemes, and these results are useful to design the efficient checkpointing scheme for fast rollback recovery from any single node failure in a cluster system.

본 논문에서는 서버를 사용하지 않고 각 노드에 연결된 지역 디스크들을 이용하여 분산 RAID 저장 장치를 구성하는 분산 환경의 클러스터 컴퓨터를 위한 분할된 결함허용정보 저장 기법을 제안한다. 클러스터 노드들의 결함허용정보를 주기적으로 동시에 분산 RAID에 저장하는 방법은 분산 RAID의 병렬성을 이용할 수 있고, 각 노드의 결함허용정보를 순차적으로 저장하는 기법은 분산 환경에서 네트워크에 병목 현상을 방지할 수 있는 장점을 가지고 있다. 본 연구에서는 분산 RAID를 저장 장치로 사용하는 클러스터 컴퓨터에서 이들 두 가지 기법을 결합함으로써 통신 부하가 큰 응용에서 노드들에 대한 결함허용정보 저장 비용을 줄이고 클러스터의 가용성을 높일 수 있도록 하였다. 제안된 기법의 성능을 검증하기 위하여 본 연구에서는 16노드의 클러스터 시스템에서 MIP와 Linpack HPC 벤치마크 프로그램을 이용한 성능 평가를 수행하였다. 벤치마크 결과는 분할된 결함허용정보 저장 기법이 기존의 기법들에 비하여 분산 RAID를 사용한 클러스터 컴퓨터에서 비교적 우수한 성능을 나타낼 수 있으며, 클러스터의 단일 노드 결함이 발생되었을 경우에 빠른 회복을 수행하는 결함허용정보저장 기법을 설계하는 데에 효과적으로 이용될 수 있다.

Keywords

References

  1. K. Hwang and Z. Xu, 'Scalable Parallel Computing,' McGraw-Hill, 2000
  2. G. Cao and M. Singhal, 'On Coordinated Checkpointing in Distributed Systems,' IEEE Transactions on Parallel and Distributed Systems, Vol.9, No.12, 1998 https://doi.org/10.1109/71.737697
  3. J. Plant, K. Li and M. Puening, 'Diskless Checkpointing,' IEEE Transactions on parallel and Distributed Systems, 1998 https://doi.org/10.1109/71.730527
  4. N. Vaidya, 'Staggered Consistent Checkpointing,' IEEE Transactions on parallel and Distributed Systems, Vol.10, No.7, 1999 https://doi.org/10.1109/71.780864
  5. K. Hwang, H. Jin, R. Ho and W. Ro, 'Reliable Cluster Computing with a New Checkpointing RAID-x Architecture,' Proceedings of 9-th Workshop on Heterogeneous Computing, Cancum, Mexico, 2000 https://doi.org/10.1109/HCW.2000.843742
  6. K. Hwang, H. Jin and R. Ho, 'RAID-x : A New Distributed Disk Array for I/O-Centric Cluster Computing,' Proceedings of 9th High-Performance Distributed Computing Symposium, Pittsburgh, 2000 https://doi.org/10.1109/HPDC.2000.868660
  7. K. Hwang, H. Jin, E. Chow, C. Wang and Z. Xu, 'Designing SSI Clusters with Hierarchical Checkpointing and Single IO Space,' IEEE Concurrency Magazine, 1999 https://doi.org/10.1109/4434.749136
  8. E. Elnozahy and W. Zwaenepoel, 'On the Use and Implementation of Message Logging,' Proceedings of 24th International Symposium on Fault-Tolerant Computing, 1994 https://doi.org/10.1109/FTCS.1994.315630
  9. J. Plank, M. Beck, G. Kingsley and K. Li, 'Libckpt : Transparent Checkpointing Under UNIX,' Proceedings of USE NIX Winter 1995 Technical Conference, 1995