An Application-Level Fault Tolerant System For Synchronous Parallel Computation

동기 병렬연산을 위한 응용수준의 결함 내성 연산시스템

  • Published : 2008.10.31

Abstract

An MTBF(mean time between failures) of large scale parallel systems is known to be only an order of several hours, and large computations sometimes result in a waste of huge amount of CPU time, However. the MPI(Message Passing Interface), a de facto standard for message passing parallel programming, suggests no possibility to handle such a problem. In this paper, we propose an application-level fault tolerant computation system, purely on the basis of the current MPI standard without using any non-standard fault tolerant MPI library, that can be used for general scientific synchronous parallel computation.

대규모 병렬 시스템의 MTBF(moon time between failures)는 아주 짧아 겨우 수 시간 단위에 불과하여 장시간의 연산 도중 연산 실패로 끝나 소중한 계산 시간이 낭비되는 경우가 많다. 그러나 현재의 MPI(Message Passing Interface) 표준은 이에 대한 대안을 제시하지 않고 있다. 본 논문에서는, 비표준의 결함 내성 MPI 라이브러리가 아닌 MPI 표준 함수들만을 사용하여, 일반적인 동기 병렬 연산에 적용할 수 있는 응용 수준의 결함 내성 연산 시스템을 제안한다.

Keywords