• 제목/요약/키워드: Checkpointing and Recovery

검색결과 30건 처리시간 0.03초

결함 내성 분산 시스템에서의 동적 검사점 스케쥴링 기법 (A Dynamic Checkpoint Scheduling Scheme for Fault Tolerant Distributed Computing Systems)

  • 박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권2호
    • /
    • pp.75-86
    • /
    • 2002
  • 분산 시스템에 결함 내성 기능을 제공하는 기법의 하나인, 검사점을 이용한 회복 기법을 효율 적으로 구현하기 위해서는 최적화된 검사점 설정 구간의 선택이 매우 중요한 문제로 인식되고 있다. 본 논문은 분산 시스템내의 각 프로세스 적절한 검사점 설정 구간을 프로세스의 연산 중에서 동적으로 스케 쥴링 하는 기법을 제안한다. 제안된 기법에서는 시스템내에의 각 프로세스가 현 검사점 구간 동안으 검사점 설정 비용과 가능한 롤백 회복 비용을 비교 평가하고, 다음 검사점 설정을 위한 적절한 구간을 계산한다. 대부분의 기존 기법들과는 달리 제안된 기법은 검사점과 롤백 두 가지 비용 모두를 최소화는 구간 값 을 선택하여 , 현 검사점 구간 동안의 통신 형태를 고려한 구간 값을 선택한다. 또한 검사점 설정 구간 선 택을 위한 별도의 통신비용의 요구되지 않으며, 제안된 기법의 기존의 검사점 조정 기법들과 쉽게 통합되어 사용될수 있다.

즉각적 오류 감지가 가능한 경우의 체크포인팅 모형 분석 (Analysis of Checkpointing Model with Instantaneous Error Detection)

  • 이유태
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.170-175
    • /
    • 2022
  • 고성능 컴퓨팅 분야에서 오류의 영향을 완화하기 위해 사후 장애 관리 기법이 필요하다. 일반적인 오류 복구 기법은 체크포인트 기법이다. 이 기법은 체크포인트를 설정해서 주기적으로 응용 프로그램의 상태를 저장했다가, 오류가 발생했을 때 오류 발생 이전 상태로 시스템을 복구하는 것이다. 본 논문에서는 오류 발생 시간이 독립이고 동일한 일반적인 분포를 따른다는 가정에서 즉각적으로 오류를 감지하는 경우의 체크포인팅 모형을 분석한다. 두 체크포인트 사이에 많아야 하나의 오류만 발생한다는 가정을 제거한다. 체크포인트 발생 시간, 고장 시간, 복구 시간 등이 주어질 때, 시스템의 신뢰도를 유도한다. 또한, 오류 발생 시간이 지수 분포를 따르는 경우에 최적의 체크 포인팅 시간 간격을 구한다.

분산 트랜잭션 처리 시스템에서 2-단계 확인 프로토콜을 근거로 하는 검사점 설정 및 오류 복구 알고리즘 (A Checkpointing and Error Recovery Algorithm Based on 2-Phase Commit Protocol for Distributed Transaction)

  • 박윤용;전성익;조주현
    • 한국정보처리학회논문지
    • /
    • 제3권2호
    • /
    • pp.327-338
    • /
    • 1996
  • 본 논문은 분산 트랜잭션 처리 시스템에서 분산 트랜잭션들이 사용한 자원들을 들을 일관성 있게 유지하는 검사점 설정 및 오류 복구 기법에 관한 연구이다. 기존 의 방법과 비교하여 제안하는 검사점 설정 방법은 검사점을 설정하는 동안 수행되고 있는 분산 트랜잭션들에 간섭 현상과 저장 비용을 최소화 할 수 있고, 검사점을 설정 하기 위한 별도의 메세지를 사용하지 않기 때문에 추가의 검사점을 설정하기 위한 메세지 비용이 없다. 또한 제안하는 알고리즘은 도미노 현상과 순환적 재시작 현상을 제거할 수 있다. 본 논문에서는 제안하는 알고리즘의 정확성과 성능을 설명하였다.

  • PDF

다중 분할된 구조를 가지는 클러스터 검사점 저장 기법 (A Multistriped Checkpointing Scheme for the Fault-tolerant Cluster Computers)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제13A권7호
    • /
    • pp.607-614
    • /
    • 2006
  • 검사점 저장 기법을 사용하여 주기적으로 클러스터 노드들의 프로세스 수행 정보를 전역 저장 장치에 저장하는 분산 클러스터 시스템에서 결함 허용 성능을 유지하는 데 드는 비용을 줄이고 전체 프로세스의 수행 성능을 증가시키기 위해서는 검사점 정보를 저장할 때에 네트워크로 전달되는 부하를 각 노드에 최대한 적절하게 분산하여 데이터 저장 시간을 줄임으로써 검사점 정보를 저장하는 동안 전체 클러스터 시스템의 프로세스가 지연되는 시간을 줄이도록 하여야 한다. 이를 위하여 분산 RAID 기반의 단일 입출력 공간을 사용하는. 클러스터 시스템에서는 여러가지 검사점 저장 기법을 사용하며, 검사점 정보의 저장 기법에 따라서 저장 성능과 결함 회복 성능이 달라진다. 본 연구에서는 분할된 검사점 저장 기법을 개선하여 검사점 데이터를 분산 RAID 기반의 단일 입출력 공간에 저장할 때에 그룹별로 분할되는 분할 그룹 크기를 검사점 정보가 저장될 때의 네트워크의 트래픽에 따라서 동적으로 결정하여 네트워크를 통한 분산 RAID에 저장함으로써 네트워크 병목현상을 최소화하는 다중 분할된 검사점 저장 구조를 제안하였다. 제안된 구조의 성능을 분석하기 위하여 최대 512개의 가상 노드로 구성된 클러스터 시스템을 대상으로 하여 MPI 와 Linpack HPC 벤치마크를 통한 성능 평가를 수행하였으며, 성능 평가 결과는 검사점 정보의 크기와 클러스터의 크기가 증가할수록 제안된 기법이 검사점 정보의 저장과 결함 회복 능력에 대하여 기존의 검사점 저장 기법에 비하여 우수한 성능을 보인다.

프로세스 수행 시간의 비용 분석에 기반을 둔 페이지 단위 점진적 검사점의 작성 시점 결정 기법 (Taking Point Decision Mechanism of Page-level Incremental Checkpointing based on Cost Analysis of Process Execution Time)

  • 이상호;허준영;홍지만
    • 정보처리학회논문지A
    • /
    • 제13A권4호
    • /
    • pp.289-294
    • /
    • 2006
  • 검사점 기법은 시스템이 장애를 내재한 경우에 효과적으로 프로세스가 장애 지점으로부터 다시 시작 할 수 있게 하는 결함 허용 방법이다. 특히, 페이지 단위 점진적 검사점 기법은 검사점 사이에서 변경된 페이지 데이터만을 저장함으로써 검사정 기록 오버헤드를 감소시킨다. 이 기법은 매 검사점 사이에서 변화하는 데이터의 크기가 가변적이므로 검사점 수행 시간도 매번 변하는 성질을 갖고 있다. 기존의 연구로 고정적인 검사점 수행 시간을 갖는 경우에 대한 효율적인 검사점 작성 시점 결정 방법이 제시된 바 있다. 그러나 매 검사점 마다 가변적인 시간을 필요로 하는 페이지 단위 점진적 검사점 기법에 대한 효율적인 작성 시점 결정 방법은 아직 연구되지 않은 분야이다. 본 논문에서는 효율적이고 적응성 있는 검사점 작성 시점 결정 방법을 제안하고, 이 방법에 기반을 둔 적응성 있는 페이지 단위 점진적 검사점 기법을 보인다. 여러 가지 용용 프로그램의 실험 결과를 통하여, 제안한 방법을 사용하는 것이 기존의 고정적인 인터벌을 갖는 페이지 단위 점진적 검사점을 사용하는 경우보다 프로세스의 평균 수행 시간을 현저히 줄임을 알 수 있다.

비동기적 검사점 기록을 고려한 저 비용 인과적 메시지 로깅 기반 회복 알고리즘 (Low-Cost Causal Message Logging based Recovery Algorithm Considering Asynchronous Checkpointing)

  • 안진호;방승준
    • 정보처리학회논문지A
    • /
    • 제13A권6호
    • /
    • pp.525-532
    • /
    • 2006
  • 인과적 메시지 로깅을 위한 기존 회복 알고리즘들에 비해, Elnozahy가 제안한 회복 알고리즘은 안전한 저장소 접근횟수를 매우 줄이고, 회복과정을 수행하는 동안 살아있는 프로세스들이 자신의 계산을 계속해서 수행할 수 있도록 한다. 그러나, 인과적 메시지 로깅 기법이 비동기적 검사점 기록 기법과 함께 사용된다면, 동시적 고장들이 발생하는 경우 이 알고리즘 수행 후 전체 시스템 상태가 일관적이지 못하게 될 수 있다. 본 논문에서는 이러한 일관적이지 못한 경우들을 보여주고, 이러한 문제점을 해결하는 인과적 메시지 로깅을 위한 저 비용의 회복 알고리즘을 제안한다. 시스템 일관성을 보장하기 위해, 이 알고리즘은 회복 리더가 모든 살아있는 프로세스들뿐만 아니라 다른 회복 프로세스들로부터 회복정보를 얻을 수 있도록 한다. 또한, 제안된 알고리즘은 Elnozahy 회복 알고리즘에 비해 어떠한 부가적인 메시지도 요구하지 않으며, 메시지 피기백에 의해 발생되는 제안된 알고리즘의 부가적인 비용이 매우 낮다 이를 입증하기 위해, 시뮬레이션 결과는 제안된 알고리즘이 Elnozahy 알고리즘에 비해 회복정보 수집시간을 단지 1.0%$\sim$2.1% 정도로 증가시킴을 보여준다.

분산 RAID 기반의 클러스터 시스템을 위한 분할된 결함허용정보 저장 기법 (A Striped Checkpointing Scheme for the Cluster System with the Distributed RAID)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제10A권2호
    • /
    • pp.123-130
    • /
    • 2003
  • 본 논문에서는 서버를 사용하지 않고 각 노드에 연결된 지역 디스크들을 이용하여 분산 RAID 저장 장치를 구성하는 분산 환경의 클러스터 컴퓨터를 위한 분할된 결함허용정보 저장 기법을 제안한다. 클러스터 노드들의 결함허용정보를 주기적으로 동시에 분산 RAID에 저장하는 방법은 분산 RAID의 병렬성을 이용할 수 있고, 각 노드의 결함허용정보를 순차적으로 저장하는 기법은 분산 환경에서 네트워크에 병목 현상을 방지할 수 있는 장점을 가지고 있다. 본 연구에서는 분산 RAID를 저장 장치로 사용하는 클러스터 컴퓨터에서 이들 두 가지 기법을 결합함으로써 통신 부하가 큰 응용에서 노드들에 대한 결함허용정보 저장 비용을 줄이고 클러스터의 가용성을 높일 수 있도록 하였다. 제안된 기법의 성능을 검증하기 위하여 본 연구에서는 16노드의 클러스터 시스템에서 MIP와 Linpack HPC 벤치마크 프로그램을 이용한 성능 평가를 수행하였다. 벤치마크 결과는 분할된 결함허용정보 저장 기법이 기존의 기법들에 비하여 분산 RAID를 사용한 클러스터 컴퓨터에서 비교적 우수한 성능을 나타낼 수 있으며, 클러스터의 단일 노드 결함이 발생되었을 경우에 빠른 회복을 수행하는 결함허용정보저장 기법을 설계하는 데에 효과적으로 이용될 수 있다.

중복구조 실시간 시스템에서의 고장 극복 및 최적 체크포인팅 기법 (Fault Recovery and Optimal Checkpointing Strategy for Dual Modular Redundancy Real-time Systems)

  • 곽성우
    • 대한전자공학회논문지TC
    • /
    • 제44권7호통권361호
    • /
    • pp.112-121
    • /
    • 2007
  • 본 논문에서는 중복 구조 시스템을 이용하여 각 프로세서에서의 출력을 비교하여 효율적으로 고장을 탐지하고, 체크포인팅 기법을 적용하여 과도 고장뿐 아니라 영구적 고장을 극복하기 위한 방법을 제안한다. 매 체크포인터에서는 각 프로세서로부터의 출력과 과거 체크포인터에 저장된 데이터를 불러와 서로 비교한 후 과거 체크포인터로 회귀할지 태스크의 수행을 계속 수행할지 결정한다. 과도 고장과 영구 고장이 발생할 수 있는 상황에서 제안된 체크포인팅 기법을 탑재한 중복 구조 시스템을 마코프 모델을 이용하여 모델링한다. 마코프 모델로부터 실시간 태스크가 데드라인 이내에서 성공적으로 수행을 끝낼 확률을 계산하고, 이 확률식을 이용하여 중복구조 시스템에 탑재할 체크포인터 구간을 최적화한다. 최적화된 체크포인터 구간은 태스크의 성공적 수행 확율을 최대화 하도록 선정하였다.

분산 계산 환경의 검사점 작성 및 롤백 복구 프로토콜 (Checkpointing and Rollback-Recovery Protocols in Distributed Computing Systems)

  • 안성준;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.93-95
    • /
    • 1999
  • 메시지 전달을 이용한 분산 계산 환경의 검사점 작성 및 롤백 프로토콜은 조정 검사점 작성(coordinated checkpointing), 약조정 검사점, 작성(loosely coordinated checkpointing), 독립적 검사점 작성(independent checkpointint)등 크게 세 종류로 구분할 수 있다. 이 프로토콜들의 성능은 프로세스간 통신의 빈도, 통신의 패턴 등 응용의 특성 및 수행 환경에 영향을 받는다. 기존에 제안된 프로토콜 각각의 성능에 대해서는 많은 연구가 있었으나 이질적인 종류의 프로토콜들을 동일한 환경에서 구현하여 성능을 비교하는 연구는 이루어지지 않았다. 본 논문에서는 검사점 작성 및 롤백 복구 프로토콜들을 구현하고, 동일한 환경에서 성능을 측정한 결과를 제시한다. 아울러 검사점 작성 및 롤백 복구 프로토콜의 성능에 영향을 미치는 요소들을 분석하여, 이들 프로토콜의 성능 평가 기준과 응용의 특성에 적합한 프로토콜의 선택 기준을 제시한다.

  • PDF

Reducing Overhead of Distributed Checkpointing with Group Communication

  • Ahn, Jinho
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.83-90
    • /
    • 2020
  • A protocol HMNR, was proposed to utilize control information of every other process piggybacked on each sent message for minimizing the number of forced checkpoints. Then, an improved protocol, called Lazy-HMNR, was presented to lower the possibility of taking forced checkpoints incurred by the asymmetry between checkpointing frequencies of processes. Despite these two different minimization techniques, if the high message interaction traffic occurs, Lazy-HMNR may considerably lower the probability of knowing whether there occurs no Z-cycle due to its shortcomings. Also, we recognize that no previous work has smart procedures to be able to utilize network infrastructures for highly decreasing the number of forced checkpoints with dependency information carried on every application message. We introduce a novel Lazy-HMNR protocol for group communication-based distributed computing systems to cut back the number of forced checkpoints in a more effective manner. Our simulation outcomes showed that the proposed protocol may highly lessen the frequency of forced checkpoints by comparison to Lazy-HMNR.