Journal of Internet Computing and Services (인터넷정보학회논문지)
- Volume 9 Issue 5
- /
- Pages.185-193
- /
- 2008
- /
- 1598-0170(pISSN)
- /
- 2287-1136(eISSN)
An Application-Level Fault Tolerant System For Synchronous Parallel Computation
동기 병렬연산을 위한 응용수준의 결함 내성 연산시스템
Abstract
An MTBF(mean time between failures) of large scale parallel systems is known to be only an order of several hours, and large computations sometimes result in a waste of huge amount of CPU time, However. the MPI(Message Passing Interface), a de facto standard for message passing parallel programming, suggests no possibility to handle such a problem. In this paper, we propose an application-level fault tolerant computation system, purely on the basis of the current MPI standard without using any non-standard fault tolerant MPI library, that can be used for general scientific synchronous parallel computation.
대규모 병렬 시스템의 MTBF(moon time between failures)는 아주 짧아 겨우 수 시간 단위에 불과하여 장시간의 연산 도중 연산 실패로 끝나 소중한 계산 시간이 낭비되는 경우가 많다. 그러나 현재의 MPI(Message Passing Interface) 표준은 이에 대한 대안을 제시하지 않고 있다. 본 논문에서는, 비표준의 결함 내성 MPI 라이브러리가 아닌 MPI 표준 함수들만을 사용하여, 일반적인 동기 병렬 연산에 적용할 수 있는 응용 수준의 결함 내성 연산 시스템을 제안한다.
Keywords