• 제목/요약/키워드: checkpointing/rollback

검색결과 16건 처리시간 0.02초

분산시스템에서 가상 체크포인팅을 이용한 비동기화 체크포인팅 알고리즘 (An Asychronous Checkpointing Algorithm Using Virtual Checkpointing On Distributed Systems)

  • 김도형;박창순;김종
    • 한국정보처리학회논문지
    • /
    • 제6권5호
    • /
    • pp.1203-1211
    • /
    • 1999
  • Checkpointing is the one of fault-tolerant techniques to restore faults and to restart job fast. Checkpointing algorithms in distributed systems have been studied for many years. These algorithms can be classified into synchronous Checkpointing algorithms and asynchronous Checkpoiting algorithms. In this paper, we propose an independent Checkpointing algorithm that has a minimum Checkpointing counts equal to periodic Checkpointing algorithm, and relatively short rollback distance at faulty situation. Checkpointing count is directly related to task completion time in a fault-free situation and short rollback distance is directly related to task completion time in a faulty situation. The proposed algorithm is compared with the previously proposed asynchronous Checkpointing algorithms using simulation. In the simulation, the proposed Checkpointing algorithm produces better results than other algorithms in terms of task completion time in fault-free as well as faulty situations.

  • PDF

결함 내성 분산 시스템에서의 동적 검사점 스케쥴링 기법 (A Dynamic Checkpoint Scheduling Scheme for Fault Tolerant Distributed Computing Systems)

  • 박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권2호
    • /
    • pp.75-86
    • /
    • 2002
  • 분산 시스템에 결함 내성 기능을 제공하는 기법의 하나인, 검사점을 이용한 회복 기법을 효율 적으로 구현하기 위해서는 최적화된 검사점 설정 구간의 선택이 매우 중요한 문제로 인식되고 있다. 본 논문은 분산 시스템내의 각 프로세스 적절한 검사점 설정 구간을 프로세스의 연산 중에서 동적으로 스케 쥴링 하는 기법을 제안한다. 제안된 기법에서는 시스템내에의 각 프로세스가 현 검사점 구간 동안으 검사점 설정 비용과 가능한 롤백 회복 비용을 비교 평가하고, 다음 검사점 설정을 위한 적절한 구간을 계산한다. 대부분의 기존 기법들과는 달리 제안된 기법은 검사점과 롤백 두 가지 비용 모두를 최소화는 구간 값 을 선택하여 , 현 검사점 구간 동안의 통신 형태를 고려한 구간 값을 선택한다. 또한 검사점 설정 구간 선 택을 위한 별도의 통신비용의 요구되지 않으며, 제안된 기법의 기존의 검사점 조정 기법들과 쉽게 통합되어 사용될수 있다.

다중 분할된 구조를 가지는 클러스터 검사점 저장 기법 (A Multistriped Checkpointing Scheme for the Fault-tolerant Cluster Computers)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제13A권7호
    • /
    • pp.607-614
    • /
    • 2006
  • 검사점 저장 기법을 사용하여 주기적으로 클러스터 노드들의 프로세스 수행 정보를 전역 저장 장치에 저장하는 분산 클러스터 시스템에서 결함 허용 성능을 유지하는 데 드는 비용을 줄이고 전체 프로세스의 수행 성능을 증가시키기 위해서는 검사점 정보를 저장할 때에 네트워크로 전달되는 부하를 각 노드에 최대한 적절하게 분산하여 데이터 저장 시간을 줄임으로써 검사점 정보를 저장하는 동안 전체 클러스터 시스템의 프로세스가 지연되는 시간을 줄이도록 하여야 한다. 이를 위하여 분산 RAID 기반의 단일 입출력 공간을 사용하는. 클러스터 시스템에서는 여러가지 검사점 저장 기법을 사용하며, 검사점 정보의 저장 기법에 따라서 저장 성능과 결함 회복 성능이 달라진다. 본 연구에서는 분할된 검사점 저장 기법을 개선하여 검사점 데이터를 분산 RAID 기반의 단일 입출력 공간에 저장할 때에 그룹별로 분할되는 분할 그룹 크기를 검사점 정보가 저장될 때의 네트워크의 트래픽에 따라서 동적으로 결정하여 네트워크를 통한 분산 RAID에 저장함으로써 네트워크 병목현상을 최소화하는 다중 분할된 검사점 저장 구조를 제안하였다. 제안된 구조의 성능을 분석하기 위하여 최대 512개의 가상 노드로 구성된 클러스터 시스템을 대상으로 하여 MPI 와 Linpack HPC 벤치마크를 통한 성능 평가를 수행하였으며, 성능 평가 결과는 검사점 정보의 크기와 클러스터의 크기가 증가할수록 제안된 기법이 검사점 정보의 저장과 결함 회복 능력에 대하여 기존의 검사점 저장 기법에 비하여 우수한 성능을 보인다.

동기적 검사점 기법에서 불필요한 복귀를 회피하기 위한 쓰레기 처리 기법 (Lazy Garbage Collection of Coordinated Checkpointing Protocol for Avoiding Sympathetic Rollback)

  • 정광식;유헌창;이원규;이성훈;황종선
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권6호
    • /
    • pp.331-339
    • /
    • 2002
  • 이 논문은 동기적 검사점 기법에서 결한 포용을 목적으로 불안전 저장 장치(volatile storage)에 저장되는 메시지 로그와 안전 저장 장치에 저장되는 검사점의 쓰레기 처리 기법을 제안한다. 기존의 동기적 검사점 기법을 기반으로 한 결함 포용 정보 쓰레기 처리 기법은 가장 최근의 검사점을 제외한 모든 결함 정보를 쓰레기 처리하였다. 하지만 TCP/IP와 같은 신뢰적 통신 기법을 기반으로 한 동기적 검사점 기법이 가장 최근의 검사점만을 복귀 회복 기법에서 사용한다면, 손실 메시지(lost message)로 인한 불필요한 복귀(sympathetic rollback)가 발생된다. 이 논문은 동기적 검사점 기법에서 손실 메시지로 인한 불필요한 복귀 문제를 해결하기 위해 각 프로세스가 동기화된 가장 최근의 검사정의에 검사점이나 메시지 로그를 유지해야 한다는 것을 보였다. 또한 손실 메시지로 인한 불필요한 복귀 문제의 해결을 위해 관리되어야 하는 검사점이나 메시지 로그가 쓰레기 처리되어지기 위해 필요한 조건을 새롭게 정의하며, 이 정의를 기반으로 한 검사정과 메시지 로그의 쓰레기 처리 알고리즘을 제안한다. 제시된 조건을 기반으로 한 검사점과 메시지 로그의 쓰레기 처리는 송수신 메시지에 부가된 손실 메시지 관련 프로세스 정보를 이용하므로 쓰레기 처리를 위한 부가적인 메시지를 발생시키지 않는다. 제안된 기법은 손실 메시지 관련 정보가 부가된 메시지가 송수신되기 전까지 쓰레기 처리가 지연되는 '지연 쓰레기 처리 현상(lazy garbage collection)'을 발생시킨다. 하지만 '지연 쓰레기 처리 현상'은 분산 시스템의 일관성을 위배하지 않는다.

결함허용 실시간 시스템을 위한 이중화 기법과 체크포인팅 기법의 성능 비교 (Performance Comparisons of Duplex Scheme and Checkpointing Scheme for Fault-Tolerant Real-Time Systems)

  • 임성화;김재훈;김성수
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2533-2539
    • /
    • 1999
  • 결험 허용(fault olerant) 방법에는 두 개의 시스템으로 같은 직업을 수행하게 하는 이중계(duplex) 시스템과, 체크포인트를 두어 결함 발생 시 rollback 하는 checkpoint & rollback 시스템이 있다. 기존 결함 허용 시스템에서는 요구되는 신뢰성을 유지하며 테스크의 수행시간을 단축시키는데 주안점을 두었지만 시간제약을 갖는 실시간 응용 분야에서는 신뢰성 유지와 정해진 시간 이내에 테스크를 종료시키는 것이 더욱 중요하다. 본 논문에서는 이들 결함 허용 시스템을 실시간 응용 측면에서 비교 분석하였다.

  • PDF

통신 유형 변형을 이용하여 검사점 생성 개수를 개선한 검사점 Z-Cycle 검출 기법 (New Z-Cycle Detection Algorithm Using Communication Pattern Transformation for the Minimum Number of Forced Checkpoints)

  • 우남윤;염헌영;박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권12호
    • /
    • pp.692-703
    • /
    • 2004
  • 통신 유도 검사점 기법(communication induced checkpointing)은 분산 프로세스들의 결함 내성을 위한 검사점 기법 중 한 가지이다. 각 프로세스가 동기화를 거치지 않고 독립적으로 생성한 지역 검사점은 일관성을 위배하는 불필요한 검사점(useless checkpoint)이 될 가능성이 있으며, 연속적인 프로세스의 롤백(rollback)을 유발시킨다. 이를 막기 위해서 통신 유도 검사점 기법은 추가로 강제적인 검사점(forced checkpoint)을 생성한다. 강제적 검사점의 개수는 전체 시스템 성능의 부하와 직결되므로 이를 줄이는 것이 중요하다. 이 논문에서는 "Z-cycle 부재" 조건을 만족하는 두 가지의 통신 기반 검사점 기법을 제안하며, 시뮬레이션 결과를 통해서 제안된 알고리즘들이 기존의 알고리즘들보다 적은 부하를 요구함을 보인다. 덧붙여, 인덱스를 사용한 기존의 통신 유도 검사점 기법은 일관적인 전역 회복점(consistent global cut)을 찾는데 비효율적임을 보인다.

이동 기기에 적합한 소프트웨어 에이전트 기반의 효율적 체크포인팅 기법 (An Efficient Checkpointing Method for Mobile Hosts via the Software Agent)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.111-118
    • /
    • 2008
  • 이동 통신 시스템의 발전과 함께 여러 대의 이동 기기에서 동작하는 분산 응용의 필요성이 점차 커지고 있다. 모바일 기기의 고장이나 통신망 단절이 기존 고정 통신망에 비해 자주 발생하는 환경을 고려할 때 모바일 응용을 위한 복구 기법이 매우 중요하며, 중단된 응용의 재시작을위해 체크포인팅이 널리 사용되고 있다. 본 논문에서도 이런 분산 응용의 복구를 위한 효율적 체크포인팅 기법을 제안한다. 제안된 기법에서는 MSS(Mobile Support Station)에서 동작하는 체크포인팅 에이전트라는 소프트웨어 에이전트를 사용한다. 이 에이전트는 R-distance(rollback-distance) 개념을 지원하며, 이를 통해 복귀되는 지역 체크포인트의 최대 개수를 한정할 수 있다. 제안된 방식은 기존의 문제점이었던 도미노 현상이나 체크포인트 유지에 필요한 추가 비용을 크게 줄이면서도 매우 유연한 방식의 체크포인트 생성을 지원할 수 있다.

뉴메모리 기반 시스템에서 세밀한 COW 관리 기법을 통한 효율적 프로세스 체크포인팅 기법 (Efficient Process Checkpointing through Fine-Grained COW Management in New Memory based Systems)

  • 박재형;문영제;노삼혁
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.132-138
    • /
    • 2017
  • 본 연구에서는 뉴메모리 기반 컴퓨팅 시스템의 신뢰성을 높이기 위해 프로세스 단위로 체크포인팅하는 시스템을 설계하고 구현한다. 프로세스 체크포인팅을 위하여 일반적인 프로세스 실행에서 문맥전환이 일어나는 시점마다 결함이 발생하기 이전의 안전한 상태로 되돌아갈 수 있는 롤백 시점을 만든다. 본 연구에서는 롤백 시점의 안전한 프로세스 상태에 대한 새로운 프로세스를 만들며 이를 P-process(Persistent-process)라고 명명한다. P-process를 만드는 주기를 세밀한 간격인 문맥전환 때마다 만들기 때문에 결함이 발생하였을 때 롤백으로 인한 프로세스 실행시간 손실을 작게 만들 수 있다. P-process를 만드는 오버헤드를 줄이기 위하여 프로세스의 메모리 상태에서 변경된 부분만 저장할 수 있도록 COW(Copy-On-Write) 메커니즘을 이용하였다. 문맥전환 때마다 P-process를 생성하였을 때 PARSEC 벤치마크의 11개 워크로드 중 8개의 워크로드에서 5% 내의 실행 시간 오버헤드가 발생하였으며 오버헤드가 많이 발생한 워크로드도 P-process의 생성 주기의 조정으로 오버헤드를 감소시킬 수 있었다.

분산 계산 환경의 검사점 작성 및 롤백 복구 프로토콜 (Checkpointing and Rollback-Recovery Protocols in Distributed Computing Systems)

  • 안성준;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.93-95
    • /
    • 1999
  • 메시지 전달을 이용한 분산 계산 환경의 검사점 작성 및 롤백 프로토콜은 조정 검사점 작성(coordinated checkpointing), 약조정 검사점, 작성(loosely coordinated checkpointing), 독립적 검사점 작성(independent checkpointint)등 크게 세 종류로 구분할 수 있다. 이 프로토콜들의 성능은 프로세스간 통신의 빈도, 통신의 패턴 등 응용의 특성 및 수행 환경에 영향을 받는다. 기존에 제안된 프로토콜 각각의 성능에 대해서는 많은 연구가 있었으나 이질적인 종류의 프로토콜들을 동일한 환경에서 구현하여 성능을 비교하는 연구는 이루어지지 않았다. 본 논문에서는 검사점 작성 및 롤백 복구 프로토콜들을 구현하고, 동일한 환경에서 성능을 측정한 결과를 제시한다. 아울러 검사점 작성 및 롤백 복구 프로토콜의 성능에 영향을 미치는 요소들을 분석하여, 이들 프로토콜의 성능 평가 기준과 응용의 특성에 적합한 프로토콜의 선택 기준을 제시한다.

  • PDF

Reducing Overhead of Distributed Checkpointing with Group Communication

  • Ahn, Jinho
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.83-90
    • /
    • 2020
  • A protocol HMNR, was proposed to utilize control information of every other process piggybacked on each sent message for minimizing the number of forced checkpoints. Then, an improved protocol, called Lazy-HMNR, was presented to lower the possibility of taking forced checkpoints incurred by the asymmetry between checkpointing frequencies of processes. Despite these two different minimization techniques, if the high message interaction traffic occurs, Lazy-HMNR may considerably lower the probability of knowing whether there occurs no Z-cycle due to its shortcomings. Also, we recognize that no previous work has smart procedures to be able to utilize network infrastructures for highly decreasing the number of forced checkpoints with dependency information carried on every application message. We introduce a novel Lazy-HMNR protocol for group communication-based distributed computing systems to cut back the number of forced checkpoints in a more effective manner. Our simulation outcomes showed that the proposed protocol may highly lessen the frequency of forced checkpoints by comparison to Lazy-HMNR.