Search | Korea Science

A Striped Checkpointing Scheme for the Cluster System with the Distributed RAID (분산 RAID 기반의 클러스터 시스템을 위한 분할된 결함허용정보 저장 기법)

Chang, Yun-Seok
- The KIPS Transactions:PartA
- /
- v.10A no.2
- /
- pp.123-130
- /
- 2003
This paper presents a new striped checkpointing scheme for serverless cluster computers, where the local disks are attached to the cluster nodes collectively form a distributed RAID with a single I/O space. Striping enables parallel I/O on the distributed disks and staggering avoids network bottleneck in the distributed RAID. We demonstrate how to reduce the checkpointing overhead and increase the availability by striping and staggering dynamically for communication intensive applications. Linpack HPC Benchamark and MPI programs are applied to these checkpointing schemes for performance evaluation on the 16-nodes cluster system. Benchmark results prove the benefits of the striped checkpointing scheme compare to the existing schemes, and these results are useful to design the efficient checkpointing scheme for fast rollback recovery from any single node failure in a cluster system.
https://doi.org/10.3745/KIPSTA.2003.10A.2.123 인용 PDF KSCI

Methodology of Fault Tolerance for Integrated Management and Monitoring System based on Information Model of Naval Combat System (해군 전투 체계의 정보 모델 기반 통합 관리 및 모니터링 시스템을 위한 결함허용 방법)

Min, Bup-Ki;Kim, Hyeon-Soo;Kuk, Seung-Hak;Kim, Chum-Su
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06b
- /
- pp.114-116
- /
- 2012
본 논문에서는 대규모 무기체계에서 정보 모델 기반의 통합 관리 및 모니터링 시스템을 위한 결함허용 방법을 제시한다. 정보 모델 기반의 통합 관리 및 모니터링 시스템은 이기종 분산 환경으로 이루어지는 대규모 무기체계의 하드웨어 및 애플리케이션을 추상화된 정보 모델을 이용하여 관리할 수 있는 중앙 관리 및 통제 시스템이다. 대규모 무기체계에서는 하나의 시스템에서 오류가 발생하게 되면 시스템 전체에 영향을 줄 수 있기 때문에 중앙 관리 및 통제 시스템에서의 결함허용 방법이 필요하다. 이 문제를 해결하기 위해 정보 모델을 관리하기 위한 결함허용 그룹을 정의하고, 결함허용 그룹마다 서로 다른 결함허용 방법을 설정하여 애플리케이션의 중요도에 따라 다양한 방법을 이용하여 결함허용을 수행한다.

Distributed Fault-Tolerant System using Dual Channel Ethernet (이중 채널 이더넷을 이용한 분산 결함 허용 시스템)

최보곤;김진용;함명호;신현식
- Proceedings of the Korean Information Science Society Conference
- /
- 2002.10c
- /
- pp.307-309
- /
- 2002
고가용성 및 고신뢰성의 분산 결함 허용 시스템의 설계와 구현에 대해서 다룬다. 이 시스템은 관리자 노드와 작업 노드 풀로 노드들을 구성하고, 각각의 노드들은 결함 허용 네트웍을 통해 통신을 하게 된다. 이 결함 허용 네트웍은 두 개의 네트웍이 중복되게 구성되어 한 네트웍의 결함 시에도 정상적인 데이터 교환을 보장한다. 여기서 중복된 네트웍을 위한 결함 검출 복구 기법이 필요하고 이들 관리자 노드와 작업 노드들의 관리를 위해 결함 허용 미들웨어가 포함된다. 미들웨어의 기능에 적응형 결함 허용 기법을 도입하여 실행 시간에 결함 허용 모드를 선택할 수 있게 하고, 결과적으로 보다 높은 가용성과 신뢰성의 결함 허용 시스템을 구성하였다.
PDF

Dependability Modeling of Software Fault Tolerance Techniques (소프트웨어 결함허용 기법들의 의존도 모델링)

김용규;김성수
- Proceedings of the Korean Information Science Society Conference
- /
- 1999.10a
- /
- pp.614-616
- /
- 1999
신뢰도 높은 소프트웨어 개발의 필요성은 전혀 새로운 것이 아니다. 요즘 들어, 소프트웨어의 크기와 복잡도가 증가함으로 인해 소프트웨어의 결함 때문에 발생하는 시스템 고장이 전체 시스템 고장에서 많은 비중을 차지하고 있다. 고 신뢰도를 요구하는 시스템의 소프트웨어는 복구블록, 분산 복구블록, N-버전 프로그래밍, N 자기검사 프로그래밍과 같은 소프트웨어 결함허용 기법들을 사용하고 있다. 이러한 소프트웨어 결함허용 기법들에 대한 연구와 함께 소프트웨어 결함허용 기법들의 의존도 측정에 관한 연구 또한 매우 중요하다. 이에 본 논문에서는 마르코프 모델을 사용해서 소프트웨어 결함허용 기법들의 보다 자세한 신뢰도 모델링과 가용도, 안전도 등에 관한 모델링을 제시한다. 제안된 모델 분석 결과 같은 수의 대체블록이 있을 때는 분산 복구블록, 복구 블록, N 자기검사 프로그래밍, N-버전 프로그래밍 순으로 의존도가 높음을 알 수 있다. 또한 소프트웨어 결함허용 기법들의 신뢰도민감성 분석에서는 복구블록과 분산 복구블록인 경우는 적응검사의 결함발생율에, N-버전 프로그래밍인 경우는 프로그램 버전의 결함발생율에 더 민감한 영향을 받는 것을 알 수 있다.
PDF

Establishing detours for Fault-Tolerance Real-Time Communication in K-ary n-cube Networks (k-ary n-cube네트웍에서 결함허용실시간통신을 위한 우회경로 설정)

이경희
- Proceedings of the Korean Information Science Society Conference
- /
- 1998.10a
- /
- pp.627-629
- /
- 1998
실시간 어플리케이션이 확장되고 복잡해질수록 시스템이나 네트웍에 존재하는 결함에 대응해야 할 필요성은 더 높아진다. 이런 작업의 활용도가 높지는 않더라도 하나의 결함이 시스템 전체에 영향을 미칠 가능성은 항상 있기 때문에 신뢰도 제공면에서 요구되는 작업이다. 전통적인 결함허용 방법은 여분의 하드웨어나 소프트웨어를 중복 사용함으로써 결함에 대처하고자 하였다. 본 논문에서는 네트워크에 대하여 네트웍을 구성하는 요소를 중복하는 것이 아니라 네트웍의 결함발생시 통신경로를 우회함으로써 결함을 허용하는 방법을 제안한다.
PDF

Search Technique for the Design of Cost Effective Fault Tolerant Systems (효율적인 결함허용 시스템 설계를 위한 탐색기법)

이효순;신현식
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.04a
- /
- pp.6-8
- /
- 2000
결함허용 시스템은 다양한 형태의 중복을 사용하여 신뢰도를 향상시킬 수 있는 반면, 시스템의 비용을 크게 증가시킨다. 본 논문은 만족스러운 신뢰도를 갖추면서 추가 비용을 적게 요구하는 결함허용 컴퓨터 시스템의 구조를 결정하기 위한 설계 문제를 정의하고 탐색에 기반을 둔 해결법을 제안한다. 이 때, 탐색 기법이 방문하는 탐색 공간의 크기를 줄이기 위하여 사용되는 세 가지의 유용한 사실을 설명한다. 이를 바탕으로 삼중 모듈 중복(TMR: Triple-Modular-Redundancy), 백업 예비(backup sparing), 그리고 혼합 중복(hybride redundancy) 기법과 같은 결함허용 기법들이 시스템 구조에 적용되었을 때, 탐색 공간을 줄이는 용도로 사용될 수 있는 신뢰도 제약조건을 유도해낸다.
PDF

An Architecture to Monitor Real-Time Objects in FTB Stub Approach (결함허용 중개자 스터브 방식에서 실시간객체를 감시하는 구조)

Im, Hyeong-Taek;Yang, Seung-Min
- Journal of KIISE:Software and Applications
- /
- v.28 no.1
- /
- pp.1-13
- /
- 2001
RMO(Region Monitor Object)는 결함전파나 객체군에 주어진 요구사항의 위반에 의해 발생하는 오류를 처리하는 실시간객체로써 여러 실시간객체의 상태를 감시 및 분석하여 오류를 감지하고, 증상을 진단한 후 알맞은 복구 및 재구성을 실행하다, 이를 위하여 RMO는 응용 실시간객체를 감시할 수 있는 권한을 갖는다. RMO의 권한을 지원해주는 구조는 결함허용 중개자를 이용한다. 결함허용 중개자(FTB 또는 Fault Tolerance Broker)는 RMO가 응용 실시간객체를 감시할 때에 응용의 설계와 응용의 위치에 투명하게 수행될 수 있게 중개자 역할을 한다. 제안하는 감시 구조에는 결함허용 중개자가 응용 실사간객체마다 스터브로 붙는 스터브 방식과 각 노드의 커널에 모듈로 존재하는 커널 모듈 방식이 있다. 본 논문은 스터브 방식에서 RMO가 응용 실시간객체를 감시하는 구조를 제시하고 구현한다. 결함허용 중개자 스터브는 응용 실시간객체와 같은 주소 공간에 존재하면서 응용 실시간객체에서 발생하는 메세지를 가로채고 소속자료에 접근한다. RMO는 결함허용 중개자 스터브가 제공하는 인터페이스를 통해서 응용 실시간객체에 대한 감시 정보를 얻는다. 제안한 감시 구조는 실시간객체 모델인 dRTO(dependable RTO) 모델에 기반하여 설계하였고 실시간 커널인 dKernel 상에서 구현 및 실험하였으나 다른 모델이나 커널에도 적용될 수 있다.
PDF

소프트웨어 결함 허용 측면에서의 결함 허용 실시간 시스템에 관한 고찰

이홍규;이귀영
- Communications of the Korean Institute of Information Scientists and Engineers
- /
- v.11 no.3
- /
- pp.67-75
- /
- 1993
PDF

The Design of Fault Tolerant VoD System (결함 허용성을 고려한 VoD 시스템 설계)

박서림;이승원;정기동
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04a
- /
- pp.223-225
- /
- 2001
본 논문은 분산 환경에서 결함 허용성 있는 VoD서비스를 위한 결함 처리 방법을 제안하고 성능을 측정하였다. 디스크 결함, 서버 결함, 시스템 결함에 따른 결함 체크와 처리 방법을 제시하였다. 사용자에게 신뢰성과 실시간성을 보장하기 위한 서버 스위칭 방법을 제안하였다. 서버 스위칭 방법은 결함이 발생하지 않은 서버들의 여유 로드율에 따라 달라진다. 서버 스위칭이 일어나는 동안 클라이언트의 버퍼에 적정량의 데이터를 유지하기 위한 흐름제어 기법도 제시하였다. 본 논문에서 제안하는 방법을 통해 결함일 발생함에도 불구하고 클라이언트는 서비스의 중단 없이 VoD 서비스르 제공 받을 수 있다.

Performance Analysis of Fault-Tolerant Scheduling in a Uniprocessor Computer (단일칩 컴퓨터의 결함허용 스케쥴링 성능 분석)

Kim, Sung-Soo
- The Transactions of the Korea Information Processing Society
- /
- v.5 no.6
- /
- pp.1639-1651
- /
- 1998
In this paper, we present analytical and simulation models for evaluating the operation of a uniprocessor computer which utilizes a time redundant approach (such as recomputation by shilted operands) for lault-tolerant computing. In the proposed approach, all incoming jobs to the uniprocessor are duplicated, thus two versions 01 each job must be processed. Three methods for appropriately scheduling the primary and sL'Condary versions of the jobs are proposed and analyzed. The proposed scheduling methods take into account the load and the fault rate of the uniprocessor to evaluate two figures of merit for cost and profit with respect to a delay in response time due to faults and fault tolerance. Our model utilizes a fault-tolerant schedule according to which it is possible to find an optimal delay (given by $\kappa$) based on empiric parameters such as cost, the load and the fault rate of the uniprocessor.
PDF

Search Result 165, Processing Time 0.043 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)