• Title/Summary/Keyword: 체크포인팅

Search Result 37, Processing Time 0.02 seconds

A Study on Optimal Checkpointing Interval in Real-Time Systems (실시간 시스템에서의 효과적인 체크포인트 간격에 대한 연구)

  • 변계섭;김재훈
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.7A
    • /
    • pp.1220-1226
    • /
    • 2001
  • 실시간 시스템에서 예상치 못한 오류 방생은 성능에 악영향을 미친다. 이를 예방하기 위하여 체크포인팅(checkpointing)이라는 후방 에러복구기법을 이용하여 오류 발생시에도 예측 가능한 결과를 보장할 수 있다. 실시간 시스템에서의 체크포인팅은 비실시간 시스템과는 달리 시간제약성을 만족시켜야 하기 때문에 비실시간에서 최적인 체크포인팅 간격과는 다르게 고려되어야 한다. 본 논문에서는 체크포인트 간격에 따른 실시간 시스템과 비실시간 시스템간의 성능의 차이를 시뮬레이션을 통하여 확인하였고 결과를 분석하였다.

  • PDF

Design and Implementation of a User-based MPI Checkpointer for Portability (이식성을 고려한 사용자기반 MPI 체크포인터의 설계 및 구현)

  • Ahn Sun-Il;Han Sang-Yong
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.33 no.1_2
    • /
    • pp.35-43
    • /
    • 2006
  • An MPI Checkpointer is a tool which provides fault-tolerance through checkpointing The previous researches related to the MPI checkpointer have focused on automatic checkpointing and recovery capabilities, but they haven't considered portability issues. In this paper, we discuss design and implementation issues considered for portability when we developed an MPI checkpointer called STFT. In order to increase portability, firstly STFT supports the abstraction interface for a single process checkpointer. Secondly, STFT uses a user-based checkpointing method, and limits possible checkpointing places a user can make. Thirdly, STFT lets the MPI_Init create network connections to the other MPI processes in a fixed order. With these features, we expect STFT can be easily adaptable to various platforms and MPI implementations, and confirmed STFT is easily adaptable to LAM and MPICH/P4 with the prototype Implementation.

A Checkpointing Framework for Dependable Real-Time Systems (고신뢰 실시간 시스템을 위한 체크포인팅 프레임워크)

  • Lee, Hyo-Soon;Shin, Heonshik-Sin
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.4
    • /
    • pp.176-184
    • /
    • 2002
  • We provide a checkpointing framework reflecting both the timeliness and the dependability in order to make checkpointing applicable to dependable real-time systems. The predictability of real-time tasks with checkpointing is guaranteed by the worst case execution time (WCET) based on the allocated number of checkpoints and the permissible number of failures. The permissible number of failures is derived from fault tolerance requirements, thus guaranteeing the dependability of tasks. Using the WCET and the permissible number of failures of tasks, we develop an algorithm that determines the minimum number of checkpoints allocated to each task in order to guarantee the schedulability of a task set. Since the framework is based on the amount of time redundancy caused by checkpointing, it can be extended to other time redundancy techniques.

Adaptive Checkpointing Protocol for Improving of Fault Tolerance in Distributed System (분산 시스템에서 고장 감내성의 향상을 위한 적응형 체크포인팅 프로토콜)

  • 이용호;장태무
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.90-92
    • /
    • 1999
  • 비동기 체크포인팅 프로토콜은 분산 시스템에서 고장 감내성을 제공하기 위한 방법중 하나다. 이 방법은 모든 프로세스가 독립적으로 자신의 지역 체크포인트를 두고 어느 한 프로세스에서의 고장 발생시 가장 최근의 체크포인트에서부터 롤백을 하는 것이다. 하지만 이 방법은 어느 한 프로세스에서의 고장 발생이 다른 프로세스의 롤백까지 유도하는 캐스캐이드 롤백을 발생시킬 수 있는 단점이 있다. 본 논문에서는 고장 감내성의 수준을 높이기 위하여 비동기 체크포인팅 프로토콜을 사용하면서도 캐스캐이드 롤백을 막을 수 있는 적응형 체크포인팅 프로토콜을 사용한다. 프로세스사이에 오고가는 모든 메시지의 복사본이 서버쪽의 중재자를 통하여 서버에 있는 기계 상태 테이블에 저장된다. 이렇게 하여 서버에는 무든 지역 기계의 상태가 저장되어 기계 고장이 발생했을 경우에 고장이 발생한 기계의 복구에 사용된다.

  • PDF

A Study of Optimal Checkpointing Interval in Real-Time Systems (실시간 시스템에서의 효과적인 Checkpointing Interval에 대한 연구)

  • 변계섭;김재훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.15-17
    • /
    • 2000
  • 실시간 시스템에서 예상치 못한 오류 발생은 성능에 악영향을 미친다. 이를 예방하기 위하여 체크포인팅이라는 후방 에러복구기법을 이용하여 오류 발생시에도 예측 가능한 결과를 보장할 수 있다. 실시간 시스템에서의 체크포인팅은 비실시간 시스템과는 달리 시간제약성을 만족시켜야 하기 때문에 비실시간에는 최적인 체크포인팅 간겨곽는 다르게 고려 되어야 한다. 이런 체크포인트 간격에 따른 성능의 차이를 시뮬레이션을 통하여 확인하였고 결과를 분석하였다.

  • PDF

Analysis of Checkpointing Model with Instantaneous Error Detection (즉각적 오류 감지가 가능한 경우의 체크포인팅 모형 분석)

  • Lee, Yutae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.1
    • /
    • pp.170-175
    • /
    • 2022
  • Reactive failure management techniques are required to mitigate the impact of errors in high performance computing. Checkpoint is the standard recovery technique for coping with errors. An application employing checkpoints periodically saves its state, so that when an error occurs while some task is executing, the application is rolled back to its last checkpointed task and resumes execution from that task onward. In this paper, assuming the time-to-errors are independent each other and generally distributed, we analyze the checkpointing model with instantaneous error detection. The conventional assumption that two or more errors do not take place between two consecutive checkpoints is removed. Given the checkpointing time, down-time, and recovery time, we derive the reliability of the checkpointing model. When the time-to-error follows an exponential distribution, we obtain the optimal checkpointing interval to achieve the maximum reliability.

Light-weight Checkpointing Mechanism for Reducing Overhead in Mobile Computing Systems (모바일 컴퓨팅 시스템에서 과부하를 줄이기 위한 경량 체크포인팅 기법)

  • Lee Chang-Yup;Choi Chang-Yeol;Kim Sung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.160-162
    • /
    • 2006
  • 최근 모바일 환경에서 모바일 기기가 결항에 쉽게 노출될 수 있다는 특성 때문에 모바일 컴퓨팅 시스템에서의 결함 허용에 대한 관심이 높아지고 있다. 결함 허용을 제공하기 위한 기법 중 하나로 체크포인팅을 들 수 있는데, 이를 모바일 환경에 적용하기 위해서는 체크포인트의 실행으로 인해 모바일 기기에 가해지는 과부하를 줄이는 것이 중요하다. 따라서 본 논문에서는 각각의 프로세스가 독립적으로 실행하는 BASIC 체크포인트를 없앰으로써 과부하를 줄이기 위한 체크포인팅 기법을 제안한다.

  • PDF

Mobile Checkpointing for Wireless Sensor Networks (무선 센서 네트워크를 위한 모바일 체크포인팅)

  • Yi Sangho;Heo Junyoung;Cho Yookun;Hong Jiman
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.775-777
    • /
    • 2005
  • 무선 센서 네트워크는 다양한 환경에서 자연의 정보를 수집하여 인간이 필요로 하는 형태로 정보를 제공하는 네트워크이다. 이러한 센서 네트워크는 수많은 우선 센서 노드들로 이루어지고, 각 센서 노드는 자율적으로 자연의 정보를 계측하고, 이웃 노드와 통신하며, 결함 발생시에 이를 허용하고 대처할 수 있어야 한다. 본 논문에서는 무선 센서 네트워크를 위한 모바일 체크포인팅 기법을 소개한다. 모바일 체크포인팅 기법을 통하여, 보다 안정적인 결함 허용 무선 센서 네트워크를 구현해 낼 수 있고, 실험 결과를 통하여 이 기법을 사용하였을 때에 전체 센서 네트워크가 보다 더 안정적으로 동작할 수 있음을 보인다.

  • PDF

Fault Recovery and Optimal Checkpointing Strategy for Dual Modular Redundancy Real-time Systems (중복구조 실시간 시스템에서의 고장 극복 및 최적 체크포인팅 기법)

  • Kwak, Seong-Woo
    • Journal of the Institute of Electronics Engineers of Korea TC
    • /
    • v.44 no.7 s.361
    • /
    • pp.112-121
    • /
    • 2007
  • In this paper, we propose a new checkpointing strategy for dual modular redundancy real-time systems. For every checkpoints the execution results from two processors, and the result saved in the previous checkpoint are compared to detect faults. We devised an operation algorithm in chectpoints to recover from transient faults as well as permanent faults. We also develop a Markov model for the optimization of the proposed checkpointing strategy. The probability of successful task execution within its deadline is derived from the Markov model. The optimal number of checkpoints is the checkpoints which makes the successful probability maximum.

An Efficient Checkpointing Method for Mobile Hosts via the Software Agent (이동 기기에 적합한 소프트웨어 에이전트 기반의 효율적 체크포인팅 기법)

  • Lim, Sung-Chae
    • The KIPS Transactions:PartA
    • /
    • v.15A no.2
    • /
    • pp.111-118
    • /
    • 2008
  • With the advance in mobile communication systems, the need for distributed applications running on multiple mobile devices also grows gradually. As such applications are subject to H/W failures of the mobile device or communication disruptions, compared to the traditional applications in fixed networks, it is crucial to develop any recovery mechanism suitable for them. For this, checkpointing is widely used to restart interrupted applications. In this paper, we devise an efficient checkpointing method that adopts the software agent executed at the mobile support station. The agent, called the checkpointing agent, is aimed at supporting the concept of rollback-distance (R-distance) that bounds the maximum number of roll-backed local checkpoints. By means of the R-distance, our method can prevent undesirable domino effects and heavy checkpoint overhead, while providing high flexibility in checkpoint creation.