Fault Recovery and Optimal Checkpointing Strategy for Dual Modular Redundancy Real-time Systems

중복구조 실시간 시스템에서의 고장 극복 및 최적 체크포인팅 기법

  • Published : 2007.07.25

Abstract

In this paper, we propose a new checkpointing strategy for dual modular redundancy real-time systems. For every checkpoints the execution results from two processors, and the result saved in the previous checkpoint are compared to detect faults. We devised an operation algorithm in chectpoints to recover from transient faults as well as permanent faults. We also develop a Markov model for the optimization of the proposed checkpointing strategy. The probability of successful task execution within its deadline is derived from the Markov model. The optimal number of checkpoints is the checkpoints which makes the successful probability maximum.

본 논문에서는 중복 구조 시스템을 이용하여 각 프로세서에서의 출력을 비교하여 효율적으로 고장을 탐지하고, 체크포인팅 기법을 적용하여 과도 고장뿐 아니라 영구적 고장을 극복하기 위한 방법을 제안한다. 매 체크포인터에서는 각 프로세서로부터의 출력과 과거 체크포인터에 저장된 데이터를 불러와 서로 비교한 후 과거 체크포인터로 회귀할지 태스크의 수행을 계속 수행할지 결정한다. 과도 고장과 영구 고장이 발생할 수 있는 상황에서 제안된 체크포인팅 기법을 탑재한 중복 구조 시스템을 마코프 모델을 이용하여 모델링한다. 마코프 모델로부터 실시간 태스크가 데드라인 이내에서 성공적으로 수행을 끝낼 확률을 계산하고, 이 확률식을 이용하여 중복구조 시스템에 탑재할 체크포인터 구간을 최적화한다. 최적화된 체크포인터 구간은 태스크의 성공적 수행 확율을 최대화 하도록 선정하였다.

Keywords

References

  1. H. Kim and K. G. Shin, 'Design and Analysis of an Optimal Instruction Retry Policy for TMR Controller Computers', IEEE Trans. on Computers, vol 45, pp. 1217-1225, Nov. 1996 https://doi.org/10.1109/12.544478
  2. C. M. Krishna and A. D. Singh, 'Optimal configuration of redundant real-time systems in the face of correlated failure,' IEEE Trans. on Reliability, vol. 44, pp. 587-594. Dec.1995 https://doi.org/10.1109/24.475977
  3. Avi Ziv and Jehoshua Bruck, 'An on-line algorithm for checkpoint placement,' IEEE Trans. on Computers, vol. 46, pp. 976-984, Sep. 1997 https://doi.org/10.1109/12.620479
  4. R. Geist, R. Reynolds, and J. Westall, 'Selection of a checkpoint interval in a critical-task environment,' IEEE Trans. on Reliability, vol. 37, pp. 395-400, Oct. 1988 https://doi.org/10.1109/24.9847
  5. Kang G. Shin, Tein-Hsiang Lin, and Yann-Hang Lee, 'Optimal checkpointing of real-time tasks,' IEEE Trans. on Computers, vol. C-36, pp. 1328-1341, Nov. 1987 https://doi.org/10.1109/TC.1987.5009472
  6. C. M. Krishna and A. D. Singh, 'Reliability of checkpointed real-time systems using time redundancy,' IEEE Trans. on Reliability, vol. 42, pp. 427-435, Sep. 1993 https://doi.org/10.1109/24.257826
  7. John W. Young, 'A first order approximation to the optimal checkpoint intervals,' Comm. of the ACM, vol. 17, pp.530-531, Nov. 1974 https://doi.org/10.1145/361147.361115
  8. Seong Woo Kwak, Byung Jae Choi and Byung Kook Kim, 'Optimal Checkpointing Strategy for Real-Time Control Systems under Faults with Exponential Duration', IEEE Trans. on Reliability, vol.50, no.3, pp. 293-301, Sep. 2001 https://doi.org/10.1109/24.974127
  9. Seong Woo, Kwak, 'Reliability Analysis and Design of Real-time Fault Tolerant Control Systems under Transient Faults', Ph.D thesis, KAIST, 2000
  10. 곽성우, 하드데드라인을 가지는 다중 실시간 주기적 태스크에서의 체크포인팅 기법, 전기학회논문지-D, 제53권 제8호, pp. 594-601, 2004년8월8
  11. 곽성우, 유관호, TMR 실시간 제어시스템의 내고장성 기법 및 신뢰도 해석, 제어.자동화시스템공학논문지, vol.10, no.8, pp.748-754, 2004년 8월
  12. Seong Woo Kwak and Byung Kook Kim, 'Task Scheduling Strategies for Reliable TMR Controllers using Task Grouping and Assignment', IEEE Trans. on Reliability, vol. 49, no.4, pp. 355-362, Dec. 2000 https://doi.org/10.1109/24.922488