• Title/Summary/Keyword: checkpointing

Search Result 72, Processing Time 0.029 seconds

Checkpointing-Recovery Schemes for Mobile Ad-hoc Network Environment (이동 애드-혹 네트워크 환경을 위한 검사점 복구 기법에 관한 연구)

  • Park, Taesoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.560-563
    • /
    • 2007
  • 결함 내성은 신뢰도 있는 이동 컴퓨팅 환경을 구축하기 위한 중요한 요소 중 하나이며, 이동 컴퓨팅 환경을 위한 많은 결함 내성 기법들이 제안 되어졌다. 그러나 대부분의 제안된 기법들은 기지국의 지원과 같은 고정된 네트워크 구조를 기반으로 하는 이동 컴퓨팅 환경을 그 대상으로 한다. 이에 본 논문에서는 기존에 제안된 기법들을 고정된 네트워크 구조를 가지지 않는 이동 애드-혹 네트워크 환경에 적용 시킬 경우 발생 가능한 문제점들을 논의하고, 새로운 네트워크 환경인 애드-혹 네트워크 환경에 적합한 결함 내성 기법들에 관해 논의한다.

  • PDF

Efficient Process Checkpointing through Fine-Grained COW Management in New Memory based Systems (뉴메모리 기반 시스템에서 세밀한 COW 관리 기법을 통한 효율적 프로세스 체크포인팅 기법)

  • Park, Jay H.;Moon, Young Je;Noh, Sam H.
    • Journal of KIISE
    • /
    • v.44 no.2
    • /
    • pp.132-138
    • /
    • 2017
  • We design and implement a process-based fault recovery system to increase the reliability of new memory based computer systems. A rollback point is made at every context switch to which a process can rollback to upon a fault. In this study, a clone process of the original process, which we refer to as a P-process (Persistent-process), is created as a rollback point. Such a design minimizes losses when a fault does occur. Specifically, first, execution loss can be minimized as rollback points are created only at context switches, which bounds the lost execution. Second, as we make use of the COW (Copy-On-Write)mechanism, only those parts of the process memory state that are modified (in page units) are copied decreasing the overhead for creating the P-process. Our experimental results show that the overhead is approximately 5% in 8 out of 11 PARSEC benchmark workloads when P-process is created at every context switch time. Even for workloads that result in considerable overhead, we show that this overhead can be reduced by increasing the P-process generation interval.

Performance Evaluation and Optimization of Journaling File Systems with Multicores and High-Performance Flash SSDs (멀티코어 및 고성능 플래시 SSD 환경에서 저널링 파일 시스템의 성능 평가 및 최적화)

  • Han, Hyuck
    • The Journal of the Korea Contents Association
    • /
    • v.18 no.4
    • /
    • pp.178-185
    • /
    • 2018
  • Recently, demands for computer systems with multicore CPUs and high-performance flash-based storage devices (i.e., flash SSD) have rapidly grown in cloud computing, surer-computing, and enterprise storage/database systems. Journaling file systems running on high-performance systems do not exploit the full I/O bandwidth of high-performance SSDs. In this article, we evaluate and analyze the performance of the Linux EXT4 file system with high-performance SSDs and multicore CPUs. The system used in this study has 72 cores and Intel NVMe SSD, and the flash SSD has performance up to 2800/1900 MB/s for sequential read/write operations. Our experimental results show that checkpointing in the EXT4 file system is a major overhead. Furthermore, we optimize the checkpointing procedure and our optimized EXT4 file system shows up to 92% better performance than the original EXT4 file system.

A Relative Performance Index-based Job Migration in Grid Computing Environment (그리드 컴퓨팅 환경에서의 상대성능지수에 기반한 작업 이주)

  • Kim Young-Gyun;Oh Gil-Ho;Cho Kum Won;Ko Soon-Heum
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.11 no.4
    • /
    • pp.293-304
    • /
    • 2005
  • In this paper, we research on job migration in a grid computing environment with cactus and MPICH-C2 based on Globus. Our concepts are to perform job migration by finding the site with plenty of computational resources that would decrease execution time in a grid computing environment. The Migration Manager recovers the job from the checkpointing files and restarts the job on the migrated site. To select a migrating site, the proposed method considers system's performance index, cpu's load, network traffic to send migration job tiles and the execution time predicted on a migration site. Then it selects a site with maximal performance gains. By selecting a site with minimum migration time and minimum execution time. this approach implements a more efficient grid computing environment. The proposed method Is proved by effectively decreasing total execution time at the $K\ast{Grid}$.

Mobile Checkpointing for Wireless Sensor Networks (무선 센서 네트워크를 위한 모바일 체크포인팅)

  • Yi Sangho;Heo Junyoung;Cho Yookun;Hong Jiman
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11a
    • /
    • pp.775-777
    • /
    • 2005
  • 무선 센서 네트워크는 다양한 환경에서 자연의 정보를 수집하여 인간이 필요로 하는 형태로 정보를 제공하는 네트워크이다. 이러한 센서 네트워크는 수많은 우선 센서 노드들로 이루어지고, 각 센서 노드는 자율적으로 자연의 정보를 계측하고, 이웃 노드와 통신하며, 결함 발생시에 이를 허용하고 대처할 수 있어야 한다. 본 논문에서는 무선 센서 네트워크를 위한 모바일 체크포인팅 기법을 소개한다. 모바일 체크포인팅 기법을 통하여, 보다 안정적인 결함 허용 무선 센서 네트워크를 구현해 낼 수 있고, 실험 결과를 통하여 이 기법을 사용하였을 때에 전체 센서 네트워크가 보다 더 안정적으로 동작할 수 있음을 보인다.

  • PDF

An Application-Level Fault Tolerant System For Synchronous Parallel Computation (동기 병렬연산을 위한 응용수준의 결함 내성 연산시스템)

  • Park, Pil-Seong
    • Journal of Internet Computing and Services
    • /
    • v.9 no.5
    • /
    • pp.185-193
    • /
    • 2008
  • An MTBF(mean time between failures) of large scale parallel systems is known to be only an order of several hours, and large computations sometimes result in a waste of huge amount of CPU time, However. the MPI(Message Passing Interface), a de facto standard for message passing parallel programming, suggests no possibility to handle such a problem. In this paper, we propose an application-level fault tolerant computation system, purely on the basis of the current MPI standard without using any non-standard fault tolerant MPI library, that can be used for general scientific synchronous parallel computation.

  • PDF

Consistency preservation techniques for Location Register System in Mobile Networks

  • Kim, Jang-Hwan
    • International Journal of Internet, Broadcasting and Communication
    • /
    • v.12 no.2
    • /
    • pp.144-149
    • /
    • 2020
  • A database called Home Location Register(HLR) plays a major role in location management in mobile cellular networks. The objectives of this paper are to identify the problems of the current HLR system through rigorous analysis, to suggest solutions to them. The current HLR backup method is a process of simply writing the changed memory SLD block to disk, which has a problem in maintaining database consistency. Since information change and backup are performed separately by separate processes, there is a risk of information inconsistency when an error restart occurs. To solve this problem, a transaction concept was introduced for subscriber-related operation functions and a recovery method through logging and checkpointing was introduced. The subscriber related functions of tasks terminated normally by the suggested process are recovered with consistency even after system restarts. Performance is also not affected seriously because disk tasks for log occur with only subscriber related functions.

Adaptive Checkpointing Protocol for Improving of Fault Tolerance in Distributed System (분산 시스템에서 고장 감내성의 향상을 위한 적응형 체크포인팅 프로토콜)

  • 이용호;장태무
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.90-92
    • /
    • 1999
  • 비동기 체크포인팅 프로토콜은 분산 시스템에서 고장 감내성을 제공하기 위한 방법중 하나다. 이 방법은 모든 프로세스가 독립적으로 자신의 지역 체크포인트를 두고 어느 한 프로세스에서의 고장 발생시 가장 최근의 체크포인트에서부터 롤백을 하는 것이다. 하지만 이 방법은 어느 한 프로세스에서의 고장 발생이 다른 프로세스의 롤백까지 유도하는 캐스캐이드 롤백을 발생시킬 수 있는 단점이 있다. 본 논문에서는 고장 감내성의 수준을 높이기 위하여 비동기 체크포인팅 프로토콜을 사용하면서도 캐스캐이드 롤백을 막을 수 있는 적응형 체크포인팅 프로토콜을 사용한다. 프로세스사이에 오고가는 모든 메시지의 복사본이 서버쪽의 중재자를 통하여 서버에 있는 기계 상태 테이블에 저장된다. 이렇게 하여 서버에는 무든 지역 기계의 상태가 저장되어 기계 고장이 발생했을 경우에 고장이 발생한 기계의 복구에 사용된다.

  • PDF

Implementation of Checkpointing in Embedded Environment (임베디드환경에서의 검사점 구현)

  • Park Sang-Jun;Kook Jung-Jin;Hong Ji-Man
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.214-216
    • /
    • 2006
  • 검사점 및 복구 도구는 사용자 응용 프로그램의 상태를 주기적으로 안정된 저장소에 저장을 하고, 결함이 발생하였을 경우 가장 최근의 검사점으로부터 효율적으로 복구하게 하는 도구이다. 특히 검사점 및 복구 도구는 장시간 수행되는 프로세스를 위해서는 아주 중요한 의미를 지니며, 결함으로 인해 장시간 수행되는 프로세스에 의해 생성된 중간 결과를 잃어버리지 않게 한다. 본 논문에서는 일반 범용 컴퓨터시스템 상에서 구현된 검사점 및 복구들을 리눅스 기반의 임베디드 시스템에 적용시켜 보고, 그 결과를 통해 임베디드 시스템상에서의 검사정 적용의 가능성을 알아본다.

  • PDF

Light-weight Checkpointing Mechanism for Reducing Overhead in Mobile Computing Systems (모바일 컴퓨팅 시스템에서 과부하를 줄이기 위한 경량 체크포인팅 기법)

  • Lee Chang-Yup;Choi Chang-Yeol;Kim Sung-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.160-162
    • /
    • 2006
  • 최근 모바일 환경에서 모바일 기기가 결항에 쉽게 노출될 수 있다는 특성 때문에 모바일 컴퓨팅 시스템에서의 결함 허용에 대한 관심이 높아지고 있다. 결함 허용을 제공하기 위한 기법 중 하나로 체크포인팅을 들 수 있는데, 이를 모바일 환경에 적용하기 위해서는 체크포인트의 실행으로 인해 모바일 기기에 가해지는 과부하를 줄이는 것이 중요하다. 따라서 본 논문에서는 각각의 프로세스가 독립적으로 실행하는 BASIC 체크포인트를 없앰으로써 과부하를 줄이기 위한 체크포인팅 기법을 제안한다.

  • PDF