• 제목/요약/키워드: Checkpointing and Recovery

검색결과 30건 처리시간 0.025초

객체지향 종속 추적 및 체크포인팅(checkpointing)을 이용한 복구 가능한 분산 공유 메모리 시스템 (Recoverable Distributed shared Memory Systems Using Object-Oriented Dependency Tracking and Checkpointing)

  • 김재훈
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.476-484
    • /
    • 1999
  • 메시지 전달 방식으로 노드간 통신을 하는 분산 시스템의 고장허용을 위하여 메시지 저장과 체크 포인팅에 관한 많은 연구가 이루어졌다. 복구 가능한 분산 공유메모리 시스템에 대한 대부분의 연구 또한 메시지 전달 방식에서 사용되었던 방법을 채택하였다. 그러나, 메시지 전송시스템과 분산공유메모리 시스템의 근본적인 차이(함수전달(function shipping)과 데이터전달(data shipping)의 차이) 때문에 메시지 전달 시스템에서 사용되었던 방식이 분산공유메모리 시스템에 항상 적합하게 사용될 수 없다. 본 논문에서는 복구 가능한 분산공유메모리 시스템을 위하여 객체지향방법을 제안하였다. 프로세스간 종속 추적대신 페이지간 종속 추적을 이용한 체크 포인팅 및 복구 가능한 전략을 분산 공유 메모리 시스템에 적용하였다.

  • PDF

안정 저장장치의 효율적 사용을 위한 페이지 기반 점진적 검사점 기법 (Page-level Incremental Checkpointing for Efficient Use of Stable Storage)

  • 허준영;이상호;구본철;조유근;홍지만
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권12호
    • /
    • pp.610-617
    • /
    • 2007
  • 페이지 기반 점진적 검사점은 검사점 오버헤드를 줄이기 위해 프로세스의 메모리 상태 중 변경된 페이지만 저장하는 기법이다. 그러나 점진적 검사점의 누적 크기는 검사점 횟수가 증가함에 따라 서서히 증가하게 된다. 이는 한 페이지가 검사점 작성 이후에 변경되어 검사점 작성시에 검사점에 저장되는 과정이 되풀이 되고, 이후에 삭제되지 않기 때문이다. 복구 시에 프로세스의 저장된 상태를 만들기 위해 검사점들이 모두 필요할 수 있으므로 함부로 검사점을 삭제를 할 수 없다. 본 논문에서는 페이지 기반 검사점 도구인 Pickpt를 소개하고, Pickpt가 검사점의 누적 크기 증가 문제를 해결하는 방법을 설명한다. 실험을 통해 기존 점진적 검사점에 비해 Pickpt가 점진적 검사점의 누적 크기를 현저히 줄임을 보였다.

이동 기기에 적합한 소프트웨어 에이전트 기반의 효율적 체크포인팅 기법 (An Efficient Checkpointing Method for Mobile Hosts via the Software Agent)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.111-118
    • /
    • 2008
  • 이동 통신 시스템의 발전과 함께 여러 대의 이동 기기에서 동작하는 분산 응용의 필요성이 점차 커지고 있다. 모바일 기기의 고장이나 통신망 단절이 기존 고정 통신망에 비해 자주 발생하는 환경을 고려할 때 모바일 응용을 위한 복구 기법이 매우 중요하며, 중단된 응용의 재시작을위해 체크포인팅이 널리 사용되고 있다. 본 논문에서도 이런 분산 응용의 복구를 위한 효율적 체크포인팅 기법을 제안한다. 제안된 기법에서는 MSS(Mobile Support Station)에서 동작하는 체크포인팅 에이전트라는 소프트웨어 에이전트를 사용한다. 이 에이전트는 R-distance(rollback-distance) 개념을 지원하며, 이를 통해 복귀되는 지역 체크포인트의 최대 개수를 한정할 수 있다. 제안된 방식은 기존의 문제점이었던 도미노 현상이나 체크포인트 유지에 필요한 추가 비용을 크게 줄이면서도 매우 유연한 방식의 체크포인트 생성을 지원할 수 있다.

이식성을 고려한 사용자기반 MPI 체크포인터의 설계 및 구현 (Design and Implementation of a User-based MPI Checkpointer for Portability)

  • 안선일;한상영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.35-43
    • /
    • 2006
  • MPI 체크포인터는 MPI 응용 프로그램에 체크포인팅을 통해 결함내성을 제공하는 툴이다. 네트워크의 개방성이 확대되고 GRID에 대한 활용이 증가함에 따라 MPI 체크포인터가 다양한 플랫폼과 MPI 구현들로 쉽게 이식되어야 한다는 요구가 커지고 있다. 기존의 MPI 체크포인터들은 자동 체크포인팅과 복구 기능에 초점을 맞추었고 이식성에 대한 고려가 없었기 때문에, 다른 플랫폼과 MPI 구현들로 이식되기 어려웠다. 본 논문에서는 사용자기반 MPI 체크포인터인 STFT를 개발하면서 이식성을 위해 고려하였던 설계 및 구현 이슈들에 대해 설명한다. STFT는 MPI 체크포인터의 이식성을 위해 첫째로 단일 프로세스 체크포인터들에 대한 추상화 인터페이스를 제시한다. 둘째로 사용자기반 체크포인팅 방법에서 사용자가 체크포인팅할 수 있는 지점을 제한하여 메시지 체크포인팅을 회피한다. 셋째로 네트워크 연결을 재생성하기 위해 MPI_Init가 다른 랭크를 가진 프로세스들과 항상 고정된 순서대로 연결을 생성하도록 강제한다. 이를 통해 STFT는 다양한 플랫폼과 MPI 구현들로 쉽게 이식 가능할 것으로 기대되며, 우리는 프로토타입의 구현을 통해서 STFT가 LAM과 MPICH/P4의 두 MPI 구현들로 쉽게 이식 가능함으로 확인하였다.

실시간 시스템에서 퍼지 검사점을 이용한 주기억 데이터베이스 프로토타입 시스템의설계 (Design of Main-Memory Database Prototype System using Fuzzy Checkpoint Technique in Real-Time Environment)

  • 박용문;이찬섭;최의인
    • 한국정보처리학회논문지
    • /
    • 제7권6호
    • /
    • pp.1753-1765
    • /
    • 2000
  • As the areas of computer application are expanded, real-time application environments that must process as many transactions as possible within their deadlines, such as a stock transaction systems, ATM switching systems etc, have been increased recently. The reason why the conventional database systems can't process soft real-time applications is the lack of prediction and poor performance on processing transaction's deadline. If transactions want to access data stored at the secondary storage, they can not satisfy requirements of real-time applications because of the disk delay time. This paper designs a main-memory database prototype systems to be suitable to real-time applications and then this system can produce rapid results without disk i/o as all of the information are loaded in main memory database. In thesis proposed the improved techniques with respect to logging, checkpointing, and recovering in our environment. In order to improve the performance of the system, a) the frequency of log analysis and redo processing is reduced by the proposed redo technique at system failure, b) database consistency is maintained by improved fuzzy checkpointing. The performance model is proposed which consists of two parts. The first part evaluates log processing time for recovery and compares with other research activities. The second part examines checkpointing behavior.

  • PDF

수중 무선 센서 네트워크를 위한 클러스터 헤드 오류 복구 기법 (A Recovery Scheme of a Cluster Head Failure for Underwater Wireless Sensor Networks)

  • 허준영;민홍
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.17-22
    • /
    • 2011
  • 수중 환경은 육상 환경과 많은 차이를 보이며 무선 통신에 사용되는 자원과 제약 조건들도 다르다. 일반적으로 수중 통신 환경은 육상 통신 환경보다 열악하고, 파도, 조류와 같은 해수의 흐름으로 인한 노드의 이동성 때문에 오류 발생 가능성이 기존의 지상 무선 센서 네트워크 보다 높다. 따라서 수중 무선 센서 네트워크의 통신 환경을 고려하여 노드 간 데이터 전송률을 향상시키기 위한 기법들에 대한 요구가 높아지고 있다. 본 논문에서는 수중 무선 센서 네트워크의 통신 환경을 고려하여 클러스터 헤드 노드의 오류 발생 시 이를 빠른 시간 내에 복구하기 위한 체크포인팅 기법을 제안한다. 또한 실험을 통해 제안 기법이 네트워크 운영의 신뢰도를 향상 시킬 수 있을 뿐만 아니라, 에너지 소모량과 오류 복구 지연 시간 측면에서 제안 기법을 적용하지 않았을 때보다 좋은 성능을 보인다는 것을 검증한다.

신뢰도를 요구하는 임베디드 시스템에서의 저전력 태스크 스케쥴링 (Power-aware Real-time Task Scheduling in Dependable Embedded Systems)

  • 김경훈;김유나;김종
    • 대한임베디드공학회논문지
    • /
    • 제3권1호
    • /
    • pp.25-29
    • /
    • 2008
  • In this paper, we provide an adaptive power-aware checkpointing scheme for fixed priority-based DVS scheduling in dependable real-time systems. In the provided scheme, we analyze the minimum number of tolerable faults of a task and the optimal checkpointing interval in order to meet the deadline and guarantee its specified reliability. The energy-efficient voltage level at a fault arrival is also analyzed and used in the recovery of the faulty task.

  • PDF

Design of a Fault-tolerant Embedded Controllerfor Rail-way Signaling Systems

  • Cho, Yong-Gee;Lim, Jae-Sik
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.68.4-68
    • /
    • 2002
  • $\textbullet$ This report presents an implementation a set of reusable software components which use of fault-tolerance embedded controller for railway signalling systems. These components can be used in real-time applications without application reprogramming. $\textbullet$ This library runs under VxWorks operating system and is oriented on real-time embedded systems. The library includes fault detection, fault containment, checkpointing and recovery components. $\textbullet$ The library enables to support high-speed response to fault occurrence in application software. Garbage collector together with VxWorks Watchdog provides both dead tasks detection and useless resources removing to avoid an overflow. Control flow...

  • PDF

점진적 검사점에서 복구와 쓰레기 수집을 위한 효율적인 병합 알고리즘 (An Efficient Merging Algorithm for Recovery and Garbage Collection in Incremental Checkpointing)

  • 허준영;이상호;조유근;홍지만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.151-153
    • /
    • 2004
  • 점진적 검사점은 페이지 쓰기 보호를 사용하여 검사점에서 변경된 페이지만을 저장한다. 점진적 검사점을 사용하면 검사점 오버헤드가 줄어드는 반면에 프로세스의 메모리 페이지들이 여러 검사점에 걸쳐있기 때문에 오래된 검사점들을 병합하거나 지울 수 없다. 본 논문에서는 점진적 검사점에서 복구와 쓰레기 수집을 위한 효율적인 병합 알고리즘을 제안한다. 제안한 알고리즘으로 점진적 검사점들을 병합하여 복구를 위한 완전 검사점을 만들고 불필요한 검사점들을 지울 수 있다.

  • PDF

Consistency preservation techniques for Location Register System in Mobile Networks

  • Kim, Jang-Hwan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권2호
    • /
    • pp.144-149
    • /
    • 2020
  • A database called Home Location Register(HLR) plays a major role in location management in mobile cellular networks. The objectives of this paper are to identify the problems of the current HLR system through rigorous analysis, to suggest solutions to them. The current HLR backup method is a process of simply writing the changed memory SLD block to disk, which has a problem in maintaining database consistency. Since information change and backup are performed separately by separate processes, there is a risk of information inconsistency when an error restart occurs. To solve this problem, a transaction concept was introduced for subscriber-related operation functions and a recovery method through logging and checkpointing was introduced. The subscriber related functions of tasks terminated normally by the suggested process are recovered with consistency even after system restarts. Performance is also not affected seriously because disk tasks for log occur with only subscriber related functions.