• 제목/요약/키워드: checkpointing

검색결과 72건 처리시간 0.023초

분산 RAID 기반의 클러스터 시스템을 위한 분할된 결함허용정보 저장 기법 (A Striped Checkpointing Scheme for the Cluster System with the Distributed RAID)

  • 장윤석
    • 정보처리학회논문지A
    • /
    • 제10A권2호
    • /
    • pp.123-130
    • /
    • 2003
  • 본 논문에서는 서버를 사용하지 않고 각 노드에 연결된 지역 디스크들을 이용하여 분산 RAID 저장 장치를 구성하는 분산 환경의 클러스터 컴퓨터를 위한 분할된 결함허용정보 저장 기법을 제안한다. 클러스터 노드들의 결함허용정보를 주기적으로 동시에 분산 RAID에 저장하는 방법은 분산 RAID의 병렬성을 이용할 수 있고, 각 노드의 결함허용정보를 순차적으로 저장하는 기법은 분산 환경에서 네트워크에 병목 현상을 방지할 수 있는 장점을 가지고 있다. 본 연구에서는 분산 RAID를 저장 장치로 사용하는 클러스터 컴퓨터에서 이들 두 가지 기법을 결합함으로써 통신 부하가 큰 응용에서 노드들에 대한 결함허용정보 저장 비용을 줄이고 클러스터의 가용성을 높일 수 있도록 하였다. 제안된 기법의 성능을 검증하기 위하여 본 연구에서는 16노드의 클러스터 시스템에서 MIP와 Linpack HPC 벤치마크 프로그램을 이용한 성능 평가를 수행하였다. 벤치마크 결과는 분할된 결함허용정보 저장 기법이 기존의 기법들에 비하여 분산 RAID를 사용한 클러스터 컴퓨터에서 비교적 우수한 성능을 나타낼 수 있으며, 클러스터의 단일 노드 결함이 발생되었을 경우에 빠른 회복을 수행하는 결함허용정보저장 기법을 설계하는 데에 효과적으로 이용될 수 있다.

실시간 임베디드 시스템의 결함 허용성 개선을 위한 정적 체크포인팅 방안 (Fault-Tolerance Improvement of Real-Time Embedded System using Static Checkpointing)

  • 유상문
    • 제어로봇시스템학회논문지
    • /
    • 제13권12호
    • /
    • pp.1147-1152
    • /
    • 2007
  • This paper deals with a scheme for fault-tolerance improvement of real-time embedded systems, which engages an equidistant checkpointing technique to tolerate transient errors. Transient errors are caused by transient faults which are the most significant type of fault in reliable computer systems. Transient faults are assumed to occur according to a Poisson process and to be detected in a non-concurrent manner (e.g., checked periodically). The probability of the successful real-time task completion in the presence of transient errors is derived with the consideration of the possible effects of the transient errors. Based on this, a condition under which inserting checkpoints improves the fault-tolerance of the system is introduced and an optimal equidistant checkpointing strategy that achieves the highest fault tolerance is presented.

안정 저장장치의 효율적 사용을 위한 페이지 기반 점진적 검사점 기법 (Page-level Incremental Checkpointing for Efficient Use of Stable Storage)

  • 허준영;이상호;구본철;조유근;홍지만
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권12호
    • /
    • pp.610-617
    • /
    • 2007
  • 페이지 기반 점진적 검사점은 검사점 오버헤드를 줄이기 위해 프로세스의 메모리 상태 중 변경된 페이지만 저장하는 기법이다. 그러나 점진적 검사점의 누적 크기는 검사점 횟수가 증가함에 따라 서서히 증가하게 된다. 이는 한 페이지가 검사점 작성 이후에 변경되어 검사점 작성시에 검사점에 저장되는 과정이 되풀이 되고, 이후에 삭제되지 않기 때문이다. 복구 시에 프로세스의 저장된 상태를 만들기 위해 검사점들이 모두 필요할 수 있으므로 함부로 검사점을 삭제를 할 수 없다. 본 논문에서는 페이지 기반 검사점 도구인 Pickpt를 소개하고, Pickpt가 검사점의 누적 크기 증가 문제를 해결하는 방법을 설명한다. 실험을 통해 기존 점진적 검사점에 비해 Pickpt가 점진적 검사점의 누적 크기를 현저히 줄임을 보였다.

분산 트랜잭션 처리 시스템에서 2-단계 확인 프로토콜을 근거로 하는 검사점 설정 및 오류 복구 알고리즘 (A Checkpointing and Error Recovery Algorithm Based on 2-Phase Commit Protocol for Distributed Transaction)

  • 박윤용;전성익;조주현
    • 한국정보처리학회논문지
    • /
    • 제3권2호
    • /
    • pp.327-338
    • /
    • 1996
  • 본 논문은 분산 트랜잭션 처리 시스템에서 분산 트랜잭션들이 사용한 자원들을 들을 일관성 있게 유지하는 검사점 설정 및 오류 복구 기법에 관한 연구이다. 기존 의 방법과 비교하여 제안하는 검사점 설정 방법은 검사점을 설정하는 동안 수행되고 있는 분산 트랜잭션들에 간섭 현상과 저장 비용을 최소화 할 수 있고, 검사점을 설정 하기 위한 별도의 메세지를 사용하지 않기 때문에 추가의 검사점을 설정하기 위한 메세지 비용이 없다. 또한 제안하는 알고리즘은 도미노 현상과 순환적 재시작 현상을 제거할 수 있다. 본 논문에서는 제안하는 알고리즘의 정확성과 성능을 설명하였다.

  • PDF

객체지향 종속 추적 및 체크포인팅(checkpointing)을 이용한 복구 가능한 분산 공유 메모리 시스템 (Recoverable Distributed shared Memory Systems Using Object-Oriented Dependency Tracking and Checkpointing)

  • 김재훈
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.476-484
    • /
    • 1999
  • 메시지 전달 방식으로 노드간 통신을 하는 분산 시스템의 고장허용을 위하여 메시지 저장과 체크 포인팅에 관한 많은 연구가 이루어졌다. 복구 가능한 분산 공유메모리 시스템에 대한 대부분의 연구 또한 메시지 전달 방식에서 사용되었던 방법을 채택하였다. 그러나, 메시지 전송시스템과 분산공유메모리 시스템의 근본적인 차이(함수전달(function shipping)과 데이터전달(data shipping)의 차이) 때문에 메시지 전달 시스템에서 사용되었던 방식이 분산공유메모리 시스템에 항상 적합하게 사용될 수 없다. 본 논문에서는 복구 가능한 분산공유메모리 시스템을 위하여 객체지향방법을 제안하였다. 프로세스간 종속 추적대신 페이지간 종속 추적을 이용한 체크 포인팅 및 복구 가능한 전략을 분산 공유 메모리 시스템에 적용하였다.

  • PDF

이식성을 고려한 사용자기반 MPI 체크포인터의 설계 및 구현 (Design and Implementation of a User-based MPI Checkpointer for Portability)

  • 안선일;한상영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.35-43
    • /
    • 2006
  • MPI 체크포인터는 MPI 응용 프로그램에 체크포인팅을 통해 결함내성을 제공하는 툴이다. 네트워크의 개방성이 확대되고 GRID에 대한 활용이 증가함에 따라 MPI 체크포인터가 다양한 플랫폼과 MPI 구현들로 쉽게 이식되어야 한다는 요구가 커지고 있다. 기존의 MPI 체크포인터들은 자동 체크포인팅과 복구 기능에 초점을 맞추었고 이식성에 대한 고려가 없었기 때문에, 다른 플랫폼과 MPI 구현들로 이식되기 어려웠다. 본 논문에서는 사용자기반 MPI 체크포인터인 STFT를 개발하면서 이식성을 위해 고려하였던 설계 및 구현 이슈들에 대해 설명한다. STFT는 MPI 체크포인터의 이식성을 위해 첫째로 단일 프로세스 체크포인터들에 대한 추상화 인터페이스를 제시한다. 둘째로 사용자기반 체크포인팅 방법에서 사용자가 체크포인팅할 수 있는 지점을 제한하여 메시지 체크포인팅을 회피한다. 셋째로 네트워크 연결을 재생성하기 위해 MPI_Init가 다른 랭크를 가진 프로세스들과 항상 고정된 순서대로 연결을 생성하도록 강제한다. 이를 통해 STFT는 다양한 플랫폼과 MPI 구현들로 쉽게 이식 가능할 것으로 기대되며, 우리는 프로토타입의 구현을 통해서 STFT가 LAM과 MPICH/P4의 두 MPI 구현들로 쉽게 이식 가능함으로 확인하였다.

통신 유형 변형을 이용하여 검사점 생성 개수를 개선한 검사점 Z-Cycle 검출 기법 (New Z-Cycle Detection Algorithm Using Communication Pattern Transformation for the Minimum Number of Forced Checkpoints)

  • 우남윤;염헌영;박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권12호
    • /
    • pp.692-703
    • /
    • 2004
  • 통신 유도 검사점 기법(communication induced checkpointing)은 분산 프로세스들의 결함 내성을 위한 검사점 기법 중 한 가지이다. 각 프로세스가 동기화를 거치지 않고 독립적으로 생성한 지역 검사점은 일관성을 위배하는 불필요한 검사점(useless checkpoint)이 될 가능성이 있으며, 연속적인 프로세스의 롤백(rollback)을 유발시킨다. 이를 막기 위해서 통신 유도 검사점 기법은 추가로 강제적인 검사점(forced checkpoint)을 생성한다. 강제적 검사점의 개수는 전체 시스템 성능의 부하와 직결되므로 이를 줄이는 것이 중요하다. 이 논문에서는 "Z-cycle 부재" 조건을 만족하는 두 가지의 통신 기반 검사점 기법을 제안하며, 시뮬레이션 결과를 통해서 제안된 알고리즘들이 기존의 알고리즘들보다 적은 부하를 요구함을 보인다. 덧붙여, 인덱스를 사용한 기존의 통신 유도 검사점 기법은 일관적인 전역 회복점(consistent global cut)을 찾는데 비효율적임을 보인다.

Cactus와 Globus에 기반한 그리드 컴퓨팅 환경에서의 응용프로그램 수준의 체크포인팅을 사용한 동적 재구성 기법 (A Dynamic Reconfiguration Method using Application-level Checkpointing in a Grid Computing Environment with Cactus and Globus)

  • 김영균;오길호;조금원;나정수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권6호
    • /
    • pp.465-476
    • /
    • 2005
  • 본 논문에서는 Cactus와 Globus 기반의 그리드 컴퓨팅 환경에서 응용프로그램 수준의 체크 포인팅을 사용한 동적 재구성(Dynamic Reconfiguration) 기법을 새로이 제안하였다. 기존의 동적 재구성은 특정 하드웨어와 운영체제에 종속적이었으나 제안한 방법은 특정 하드웨어와 운영체제의 지원 없이 동적재구성이 가능하고 응용프로그램도 동적 재구성을 고려할 필요 없이 프로그래밍이 가능하다. 제안한 동적 재구성 기법에서 초기 연산자원의 구성을 갖고 실행되는 작업은 실행 중에 동적으로 발견된 새로운 연산자원을 포함하여 계속 연산을 수행한다. 본 연구에서 제안된 방법은 새롭게 발견된 연산자원의 프로세서 성능과 유휴 메모리를 고려하여, 해당 연산자원을 수행중인 연산에 포함할 것인가 여부를 결정한다 연산중 연산 결과의 실시간 가시화를 가능하도록 하고 운영체제에 종속적이지 않은 응용프로그램 수준의 체크 포인팅 기법을 사용하여 중간 연산결과를 저장한다. 새롭게 발견된 유휴사이트, 유휴프로세서를 포함하도록 연산자원의 구성을 재구성한 후 체크 포인팅 파일을 사용하여 작업을 계속 실행한다. 제안한 동적 재구성 기법은 K*Grid 환경에서 연산시간을 단축함을 확인하였다.

분산 계산 환경의 검사점 작성 및 롤백 복구 프로토콜 (Checkpointing and Rollback-Recovery Protocols in Distributed Computing Systems)

  • 안성준;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.93-95
    • /
    • 1999
  • 메시지 전달을 이용한 분산 계산 환경의 검사점 작성 및 롤백 프로토콜은 조정 검사점 작성(coordinated checkpointing), 약조정 검사점, 작성(loosely coordinated checkpointing), 독립적 검사점 작성(independent checkpointint)등 크게 세 종류로 구분할 수 있다. 이 프로토콜들의 성능은 프로세스간 통신의 빈도, 통신의 패턴 등 응용의 특성 및 수행 환경에 영향을 받는다. 기존에 제안된 프로토콜 각각의 성능에 대해서는 많은 연구가 있었으나 이질적인 종류의 프로토콜들을 동일한 환경에서 구현하여 성능을 비교하는 연구는 이루어지지 않았다. 본 논문에서는 검사점 작성 및 롤백 복구 프로토콜들을 구현하고, 동일한 환경에서 성능을 측정한 결과를 제시한다. 아울러 검사점 작성 및 롤백 복구 프로토콜의 성능에 영향을 미치는 요소들을 분석하여, 이들 프로토콜의 성능 평가 기준과 응용의 특성에 적합한 프로토콜의 선택 기준을 제시한다.

  • PDF

Reducing Overhead of Distributed Checkpointing with Group Communication

  • Ahn, Jinho
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.83-90
    • /
    • 2020
  • A protocol HMNR, was proposed to utilize control information of every other process piggybacked on each sent message for minimizing the number of forced checkpoints. Then, an improved protocol, called Lazy-HMNR, was presented to lower the possibility of taking forced checkpoints incurred by the asymmetry between checkpointing frequencies of processes. Despite these two different minimization techniques, if the high message interaction traffic occurs, Lazy-HMNR may considerably lower the probability of knowing whether there occurs no Z-cycle due to its shortcomings. Also, we recognize that no previous work has smart procedures to be able to utilize network infrastructures for highly decreasing the number of forced checkpoints with dependency information carried on every application message. We introduce a novel Lazy-HMNR protocol for group communication-based distributed computing systems to cut back the number of forced checkpoints in a more effective manner. Our simulation outcomes showed that the proposed protocol may highly lessen the frequency of forced checkpoints by comparison to Lazy-HMNR.