• 제목/요약/키워드: Distributed Checkpoints

검색결과 11건 처리시간 0.023초

Reducing Overhead of Distributed Checkpointing with Group Communication

  • Ahn, Jinho
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.83-90
    • /
    • 2020
  • A protocol HMNR, was proposed to utilize control information of every other process piggybacked on each sent message for minimizing the number of forced checkpoints. Then, an improved protocol, called Lazy-HMNR, was presented to lower the possibility of taking forced checkpoints incurred by the asymmetry between checkpointing frequencies of processes. Despite these two different minimization techniques, if the high message interaction traffic occurs, Lazy-HMNR may considerably lower the probability of knowing whether there occurs no Z-cycle due to its shortcomings. Also, we recognize that no previous work has smart procedures to be able to utilize network infrastructures for highly decreasing the number of forced checkpoints with dependency information carried on every application message. We introduce a novel Lazy-HMNR protocol for group communication-based distributed computing systems to cut back the number of forced checkpoints in a more effective manner. Our simulation outcomes showed that the proposed protocol may highly lessen the frequency of forced checkpoints by comparison to Lazy-HMNR.

통신 유형 변형을 이용하여 검사점 생성 개수를 개선한 검사점 Z-Cycle 검출 기법 (New Z-Cycle Detection Algorithm Using Communication Pattern Transformation for the Minimum Number of Forced Checkpoints)

  • 우남윤;염헌영;박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권12호
    • /
    • pp.692-703
    • /
    • 2004
  • 통신 유도 검사점 기법(communication induced checkpointing)은 분산 프로세스들의 결함 내성을 위한 검사점 기법 중 한 가지이다. 각 프로세스가 동기화를 거치지 않고 독립적으로 생성한 지역 검사점은 일관성을 위배하는 불필요한 검사점(useless checkpoint)이 될 가능성이 있으며, 연속적인 프로세스의 롤백(rollback)을 유발시킨다. 이를 막기 위해서 통신 유도 검사점 기법은 추가로 강제적인 검사점(forced checkpoint)을 생성한다. 강제적 검사점의 개수는 전체 시스템 성능의 부하와 직결되므로 이를 줄이는 것이 중요하다. 이 논문에서는 "Z-cycle 부재" 조건을 만족하는 두 가지의 통신 기반 검사점 기법을 제안하며, 시뮬레이션 결과를 통해서 제안된 알고리즘들이 기존의 알고리즘들보다 적은 부하를 요구함을 보인다. 덧붙여, 인덱스를 사용한 기존의 통신 유도 검사점 기법은 일관적인 전역 회복점(consistent global cut)을 찾는데 비효율적임을 보인다.

HORB에 기반한 신뢰성 있는 분산 프로그래밍 환경의 설계 및 구현 (Design and Implementation of Reliable Distributed Programming Environment based on HORB)

  • 현무용;김식;김명준
    • 전자공학회논문지CI
    • /
    • 제39권2호
    • /
    • pp.1-9
    • /
    • 2002
  • DSOM, DCOM, CORBA, Java RMI 같은 객체 지향 분산 프로그래밍 환경을 이용한 분산 응용 프로그램 개발이 일반화되고 있다. 그러나, 이러한 분산 미들웨어들은 응용프로그램의 품질과 재사용성을 향상시켜 주지만, 결함 허용 기능을 지원하지 않음으로서 신뢰성이 보장된 객체 기반 분산 응용프로그램의 설계 및 구현을 복잡하게 한다. 본 논문에서는 RMI 메커니즘을 기반으로 한 결함 허용 분산 시스템 개발 환경인 에버그린(Evergreen)을 제안하고자 한다. 에버그린은 신뢰성 있는 분산 컴퓨팅을 지원하기 위해서 체크포인트와 롤백 복구(rollback recovery) 메커니즘을 이용하여 설계되었다 일련의 실험을 통해 에버그린의 성능을 평가하였고 최적의 디자인 목표를 지원하기 위한 확장 가능성을 확인하였다.

분산 고장 탐지 방식을 이용한 실시간 태스크에서의 최적 체크포인터 구간 선정 (Determination of Optimal Checkpoint Intervals for Real-Time Tasks Using Distributed Fault Detection)

  • 곽성우;양정민
    • 한국지능시스템학회논문지
    • /
    • 제26권3호
    • /
    • pp.202-207
    • /
    • 2016
  • 체크포인터를 삽입한 실시간 시스템에서는 고장이 발생하면 고장 직전의 체크포인터로 회귀하여 태스크를 재실행함으로써 과도 고장을 효과적으로 극복할 수 있다. 이번 논문에서는 체크포인터에서 실행되는 데이터 저장과 고장 탐지 과정을 분리한 새로운 체크포인터 방식을 제안한다. 하나의 체크포인터 구간 내에 여러 개의 고장 탐지 과정을 추가하면 고장 발생에서 탐지까지의 지연 시간을 줄일 수 있다. 본 논문에서는 태스크가 데드라인 이내에서 성공적으로 수행될 확률을 최대화하는 고장 탐지 과정의 삽입 방법을 제안한다. 고장 탐지 과정이 분리된 체크포인터 방식을 마코프 체인으로 모델링하고 실시간 태스크의 성공적 수행 확률을 계산하는 모의실험을 수행하여 최적의 해를 구하는 과정을 제시한다.

삼중구조 시스템의 실시간 태스크 최적 체크포인터 및 분산 고장 탐지 구간 선정 (Determination of the Optimal Checkpoint and Distributed Fault Detection Interval for Real-Time Tasks on Triple Modular Redundancy Systems )

  • 곽성우;양정민
    • 한국전자통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.527-534
    • /
    • 2023
  • 삼중구조 시스템에서는 하나의 프로세서에서 고장이 발생해도 여유도 때문에 주어진 임무를 계속 수행할 수 있다. 본 연구에서는 삼중구조 시스템에 체크포인터 기법을 도입한 후 고장 탐지와 체크포인터를 분리하는 새로운 고장 극복 방법을 제안한다. 먼저 한 개 프로세서에서 고장이 발생하면 고장 탐지와 동시에 모든 프로세서의 상태를 동기화함으로써 고장을 복구한다. 또한 두 개 이상의 프로세서에서 동시에 고장이 발생하면 직전의 체크포인터로 회귀하여 태스크를 재실행함으로써 고장을 복구한다. 본 논문에서는 태스크가 데드라인 이내에서 성공적으로 수행될 확률을 최대화하는 고장 탐지 구간과 체크포인터 구간의 선정 방법을 제안한다. 제안된 방식을 탑재한 삼중구조 시스템을 마코프 체인으로 모델링하고 실시간 태스크의 성공적 수행 확률을 도출하는 모의실험을 수행하여 최적의 해를 구하는 과정을 제시한다.

RELIABILITY ANALYSIS OF CHECKPOINTING MODEL WITH MULTIPLE VERIFICATION MECHANISM

  • Lee, Yutae
    • 대한수학회보
    • /
    • 제56권6호
    • /
    • pp.1435-1445
    • /
    • 2019
  • We consider a checkpointing model for silent errors, where a checkpoint is taken every fixed number of verifications. Assuming generally distributed i.i.d. inter-occurrence times of errors, we derive the reliability of the model as a function of the number of verifications between two checkpoints and the duration of work interval between two verifications.

즉각적 오류 감지가 가능한 경우의 체크포인팅 모형 분석 (Analysis of Checkpointing Model with Instantaneous Error Detection)

  • 이유태
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.170-175
    • /
    • 2022
  • 고성능 컴퓨팅 분야에서 오류의 영향을 완화하기 위해 사후 장애 관리 기법이 필요하다. 일반적인 오류 복구 기법은 체크포인트 기법이다. 이 기법은 체크포인트를 설정해서 주기적으로 응용 프로그램의 상태를 저장했다가, 오류가 발생했을 때 오류 발생 이전 상태로 시스템을 복구하는 것이다. 본 논문에서는 오류 발생 시간이 독립이고 동일한 일반적인 분포를 따른다는 가정에서 즉각적으로 오류를 감지하는 경우의 체크포인팅 모형을 분석한다. 두 체크포인트 사이에 많아야 하나의 오류만 발생한다는 가정을 제거한다. 체크포인트 발생 시간, 고장 시간, 복구 시간 등이 주어질 때, 시스템의 신뢰도를 유도한다. 또한, 오류 발생 시간이 지수 분포를 따르는 경우에 최적의 체크 포인팅 시간 간격을 구한다.

다중 분할된 구조를 가지는 클러스터 검사점 저장 기법 (A Multistriped Checkpointing Scheme for the Fault-tolerant Cluster Computers)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제13A권7호
    • /
    • pp.607-614
    • /
    • 2006
  • 검사점 저장 기법을 사용하여 주기적으로 클러스터 노드들의 프로세스 수행 정보를 전역 저장 장치에 저장하는 분산 클러스터 시스템에서 결함 허용 성능을 유지하는 데 드는 비용을 줄이고 전체 프로세스의 수행 성능을 증가시키기 위해서는 검사점 정보를 저장할 때에 네트워크로 전달되는 부하를 각 노드에 최대한 적절하게 분산하여 데이터 저장 시간을 줄임으로써 검사점 정보를 저장하는 동안 전체 클러스터 시스템의 프로세스가 지연되는 시간을 줄이도록 하여야 한다. 이를 위하여 분산 RAID 기반의 단일 입출력 공간을 사용하는. 클러스터 시스템에서는 여러가지 검사점 저장 기법을 사용하며, 검사점 정보의 저장 기법에 따라서 저장 성능과 결함 회복 성능이 달라진다. 본 연구에서는 분할된 검사점 저장 기법을 개선하여 검사점 데이터를 분산 RAID 기반의 단일 입출력 공간에 저장할 때에 그룹별로 분할되는 분할 그룹 크기를 검사점 정보가 저장될 때의 네트워크의 트래픽에 따라서 동적으로 결정하여 네트워크를 통한 분산 RAID에 저장함으로써 네트워크 병목현상을 최소화하는 다중 분할된 검사점 저장 구조를 제안하였다. 제안된 구조의 성능을 분석하기 위하여 최대 512개의 가상 노드로 구성된 클러스터 시스템을 대상으로 하여 MPI 와 Linpack HPC 벤치마크를 통한 성능 평가를 수행하였으며, 성능 평가 결과는 검사점 정보의 크기와 클러스터의 크기가 증가할수록 제안된 기법이 검사점 정보의 저장과 결함 회복 능력에 대하여 기존의 검사점 저장 기법에 비하여 우수한 성능을 보인다.

이동 기기에 적합한 소프트웨어 에이전트 기반의 효율적 체크포인팅 기법 (An Efficient Checkpointing Method for Mobile Hosts via the Software Agent)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.111-118
    • /
    • 2008
  • 이동 통신 시스템의 발전과 함께 여러 대의 이동 기기에서 동작하는 분산 응용의 필요성이 점차 커지고 있다. 모바일 기기의 고장이나 통신망 단절이 기존 고정 통신망에 비해 자주 발생하는 환경을 고려할 때 모바일 응용을 위한 복구 기법이 매우 중요하며, 중단된 응용의 재시작을위해 체크포인팅이 널리 사용되고 있다. 본 논문에서도 이런 분산 응용의 복구를 위한 효율적 체크포인팅 기법을 제안한다. 제안된 기법에서는 MSS(Mobile Support Station)에서 동작하는 체크포인팅 에이전트라는 소프트웨어 에이전트를 사용한다. 이 에이전트는 R-distance(rollback-distance) 개념을 지원하며, 이를 통해 복귀되는 지역 체크포인트의 최대 개수를 한정할 수 있다. 제안된 방식은 기존의 문제점이었던 도미노 현상이나 체크포인트 유지에 필요한 추가 비용을 크게 줄이면서도 매우 유연한 방식의 체크포인트 생성을 지원할 수 있다.

P2P 컴퓨팅에서 중복 수행 결과의 정확성 검증 기법 (A Verification of Replicated Operation In P2P Computing)

  • 박찬열
    • 컴퓨터교육학회논문지
    • /
    • 제7권3호
    • /
    • pp.35-43
    • /
    • 2004
  • 인터넷을 기반으로 독립적인 장치들이 참여하는 P2P 컴퓨팅은 원하는 목적을 달성하는데 있어서 참여 장치들의 이탈, 고장, 네트워크 상태, 익명성 등으로 인해 잦은 접속단절과 보안 공격을 겪는다. 여러 연구와 구현에서 이러한 문제들을 해결하기 위해 공유되는 자원의 중복 기법을 사용한다. 이 논문에서는 컴퓨팅 자원의 공유를 목적으로 하는 P2P 컴퓨팅에서 수행되는 작업의 중복 수행을 통해 접속단절과 보안 공격에도 올바른 결과를 얻어내는 정확성 검증 기법을 제안한다. 제안하는 기법에서는 종속성이 존재하는 단위작업들에 대해 시스템 전체의 전역적인 메시지 교환 없이 주기적으로 정확성을 검증하고, 검증된 결과는 검사점이 되어 복귀 회복이 가능한 결함 포용이 가능하다.

  • PDF