Lazy Garbage Collection of Coordinated Checkpointing Protocol for Avoiding Sympathetic Rollback

동기적 검사점 기법에서 불필요한 복귀를 회피하기 위한 쓰레기 처리 기법

  • 정광식 (런던대학교 네트웍연구소) ;
  • 유헌창 (고려대학교 컴퓨터교육과) ;
  • 이원규 (고려대학교 컴퓨터교육과) ;
  • 이성훈 (천안대학교 정보통신학부) ;
  • 황종선 (고려대학교 컴퓨터학과)
  • Published : 2002.06.01

Abstract

This paper presents a garbage collection protocol for checkpoints and message logs which are staved on the stable storage or volatile storage for fault tolerancy. The previous works of garbage collections in coordinated checkpointing protocol delete all the checkpoints except for the last checkpoints on earth processes. But implemented in top of reliable communication protocol like as TCP/IP, rollback recovery protocol based on only last checkpoints makes sympathetic rollback. We show that the old checkpoints or message logs except for the last checkpoints have to be preserved in order to replay the lost message. And we define the conditions for garbage collection of checkpoints and message logs for lost messages and present the garbage collection algorithm for checkpoints and message logs in coordinated checkpointing protocol. Since the proposed algorithm uses process information for lost message piggybacked with messages, the additional messages for garbage collection is not required The proposed garbage collection algorithm makes 'the lazy garbage collectioneffect', because relying on the piggybacked checked checkpoint information in send/receive message. But 'the lazy garbage collection effect'does not break the consistency of the whole systems.

이 논문은 동기적 검사점 기법에서 결한 포용을 목적으로 불안전 저장 장치(volatile storage)에 저장되는 메시지 로그와 안전 저장 장치에 저장되는 검사점의 쓰레기 처리 기법을 제안한다. 기존의 동기적 검사점 기법을 기반으로 한 결함 포용 정보 쓰레기 처리 기법은 가장 최근의 검사점을 제외한 모든 결함 정보를 쓰레기 처리하였다. 하지만 TCP/IP와 같은 신뢰적 통신 기법을 기반으로 한 동기적 검사점 기법이 가장 최근의 검사점만을 복귀 회복 기법에서 사용한다면, 손실 메시지(lost message)로 인한 불필요한 복귀(sympathetic rollback)가 발생된다. 이 논문은 동기적 검사점 기법에서 손실 메시지로 인한 불필요한 복귀 문제를 해결하기 위해 각 프로세스가 동기화된 가장 최근의 검사정의에 검사점이나 메시지 로그를 유지해야 한다는 것을 보였다. 또한 손실 메시지로 인한 불필요한 복귀 문제의 해결을 위해 관리되어야 하는 검사점이나 메시지 로그가 쓰레기 처리되어지기 위해 필요한 조건을 새롭게 정의하며, 이 정의를 기반으로 한 검사정과 메시지 로그의 쓰레기 처리 알고리즘을 제안한다. 제시된 조건을 기반으로 한 검사점과 메시지 로그의 쓰레기 처리는 송수신 메시지에 부가된 손실 메시지 관련 프로세스 정보를 이용하므로 쓰레기 처리를 위한 부가적인 메시지를 발생시키지 않는다. 제안된 기법은 손실 메시지 관련 정보가 부가된 메시지가 송수신되기 전까지 쓰레기 처리가 지연되는 '지연 쓰레기 처리 현상(lazy garbage collection)'을 발생시킨다. 하지만 '지연 쓰레기 처리 현상'은 분산 시스템의 일관성을 위배하지 않는다.

Keywords

References

  1. Yunlong Liu, Junliang Chen, 'On Thorough Garbage Collection in Distributed Systems,' Proceedings of Third IEEE Symposium on Computers and Communications, pp. 576-581, 1998 https://doi.org/10.1109/ISCC.1998.702597
  2. Jian Xu, Robert H. B. Netzer, Milon Mackey, 'Sender-based Message Logging for Reducing Rollback Propagation,' Seventh IEEE Symposium on Parallel and Distributed Processing, pp. 602-609, 1995 https://doi.org/10.1109/SPDP.1995.530738
  3. D.B. Johnson, W. Zwaenpoel, 'Sender-based message logging,' Proceedings of the seventeenth International Symposium on Fault-Tolerant Computing, pp.14-19, Jun. 1987
  4. M. V. Sreenivas, Subhash Bhalla, 'Garbage Collection in Message Passing Distributed Systems,' First Aizu International Symposium on Parallel Algorithms/Architecture Synthesis, pp. 213-218, 1995 https://doi.org/10.1109/AISPAS.1995.401335
  5. R. Koo, S. Toueg, 'Checkpoint and Rollback-Recovery for Distributed Systems,' IEEE Trans. on Software Engineering, Vol. 13, pp.23-31, Jan. 1987 https://doi.org/10.1109/TSE.1987.232562
  6. D. Manivannan, Mukesh Singhal, 'A Low-Overhead Recovery Technique Using Quasi-Synchronous Checkpointing,' Proceedings of the 16th ICDCS, pp100-107. 1996 https://doi.org/10.1109/ICDCS.1996.507906
  7. K. M. Chandy and L. Lamport, 'Distributed Snapshots: Determining Global States of Distributed Systems,' ACM Symp. Principles of Database Syst., pp. 63-75, Vol. 3, No. 1, Feb. 1985 https://doi.org/10.1145/214451.214456
  8. Mootaz Elnozahy, Lorenzo Alvisi, Vi-Min Wang, David B. Johnson, 'A Survey of Rollback-Recovery Protocols in Message-Passing Systems,' Technical Report CMU-CS-96-181, Department of Computer Science, Carnegie Mellon University, Sept. 1996
  9. E. N. Elnozahy, D. B. Johnson, W. Zwaenepoel, 'The Performance of Consistent Checkpointing,' In Proc. IEEE Symp. Reliable Distributed Systems, pp, 39-47, Oct. 1992 https://doi.org/10.1109/RELDIS.1992.235144
  10. P. Ramanathan, K. G. Shin, 'Use of Common Time base for Checkpointing and Rollback Recovery in a Distributed System,' IEEE Trans. on Software Engineering, Vol. 9(6), pp. 571-583, June 1993 https://doi.org/10.1109/32.232022
  11. Z. Tong, R. Y. Kim. W. T. Tsai, 'Rollback Recovery in Distributed Systems using Loosely Synchnonized Clocks,' IEEE Trans. on Parallel and Distributed Systems. Vol. 3(2) pp. 246-251. March 1992 https://doi.org/10.1109/71.127264
  12. L. M. Silva, J. G. Silva, 'Global Checkpointing for Distributed Program,' In Proc. IEEE Symp. Reliable Distributed Systems', pp. 155-162. Oct. 1992 https://doi.org/10.1109/RELDIS.1992.235131