• 제목/요약/키워드: Fault- Tolerance

검색결과 570건 처리시간 0.024초

이식성을 고려한 사용자기반 MPI 체크포인터의 설계 및 구현 (Design and Implementation of a User-based MPI Checkpointer for Portability)

  • 안선일;한상영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권1_2호
    • /
    • pp.35-43
    • /
    • 2006
  • MPI 체크포인터는 MPI 응용 프로그램에 체크포인팅을 통해 결함내성을 제공하는 툴이다. 네트워크의 개방성이 확대되고 GRID에 대한 활용이 증가함에 따라 MPI 체크포인터가 다양한 플랫폼과 MPI 구현들로 쉽게 이식되어야 한다는 요구가 커지고 있다. 기존의 MPI 체크포인터들은 자동 체크포인팅과 복구 기능에 초점을 맞추었고 이식성에 대한 고려가 없었기 때문에, 다른 플랫폼과 MPI 구현들로 이식되기 어려웠다. 본 논문에서는 사용자기반 MPI 체크포인터인 STFT를 개발하면서 이식성을 위해 고려하였던 설계 및 구현 이슈들에 대해 설명한다. STFT는 MPI 체크포인터의 이식성을 위해 첫째로 단일 프로세스 체크포인터들에 대한 추상화 인터페이스를 제시한다. 둘째로 사용자기반 체크포인팅 방법에서 사용자가 체크포인팅할 수 있는 지점을 제한하여 메시지 체크포인팅을 회피한다. 셋째로 네트워크 연결을 재생성하기 위해 MPI_Init가 다른 랭크를 가진 프로세스들과 항상 고정된 순서대로 연결을 생성하도록 강제한다. 이를 통해 STFT는 다양한 플랫폼과 MPI 구현들로 쉽게 이식 가능할 것으로 기대되며, 우리는 프로토타입의 구현을 통해서 STFT가 LAM과 MPICH/P4의 두 MPI 구현들로 쉽게 이식 가능함으로 확인하였다.

분산 컴포넌트 기반의 소프트웨어 분석 및 설계 방법 (An Approach to Software Analysis and Design based on Distributed Components)

  • 최유희;염근혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권12호
    • /
    • pp.896-909
    • /
    • 2001
  • 현재 새롭게 개발되는 소프트웨어는 50% 이상이 분산 플랫폼에서 개발되고 있다. 또한 분산 컴포넌트 기반의 소프트웨어 개발을 가능하게 하는 EJB(Enterprise Java Beans)[1] COM(Component Object Model )[2]. CORBA(Common Object Request Broker Architecture)[3] 와 같은 기술이 급격히 발전하고 있다. 따라서 분산 플랫폼 상에서 컴포넌트 기반의 응용 소프트웨어 개발을 위한 체계적인 개발 프로세스가 요구된다. 그러나 현재의 일반적인 컴포넌트 기반 소프트웨어 개발 방법론은 각 작업들간의 관 계와 각 작업의 산출물간의 관계를 명확히 제시하지 않는다. 또한 분산 응용 소프트웨어 개발에 있어서 고려되어야 할 분산 이슈에 대해서도 체계적으로 다루지 않고 있다. 본 논문에서는 분산 컴포넌트 기반의 응용 소프트웨어 개발을 위한 분석 및 설계 방법을 제시한다. 본 논문에서 제시하는 방법에서는 UMI 기반의 프로세스인 Unified process를 바탕으로 하여 체계적인 개발 지침과 산출물의 관계를 제시한다 또한 플랫폼과 프로그래밍 언어에 독립적인 CORBA 환경을 고려하여 성능. 결함 방지, 안전성, 분산 트랜잭션의 분산 이슈를 명시적으로 다루는 지침을 제시한다.

  • PDF

확률 최적화를 이용한 비선점형 Rate Monotonic 스케줄링의 체크포인트 구간 결정 (Determining Checkpoint Intervals of Non-Preemptive Rate Monotonic Scheduling Using Probabilistic Optimization)

  • 곽성우;양정민
    • 한국지능시스템학회논문지
    • /
    • 제21권1호
    • /
    • pp.120-127
    • /
    • 2011
  • 체크포인트 기법은 실시간 시스템의 내고장성을 구현하는 대표적인 방법이다. 본 논문에서는 확률 최적화를 이용하여 체크 포인트 구간을 결정하는 기법을 제시한다. 본 논문에서 다루는 실시간 시스템은 멀티 태스크(multi-task)들로 구성되며 Poisson 분포를 가지는 과도 고장이 발생한다. 또 멀티 태스크들은 비선점형 Rate Monotonic 알고리듬으로 스케줄링된다. 이번 연구에서는 멀티 태스크들의 수행 성공 확률을 체크포인트 삽입 개수로 표현하는 최적화 문제를 설정하고 이 확률값을 최대로 만드는 체크포인트 개수와 구간 길이를 구한다. 제안된 확률 계산 과정은 체크포인트 재수행 횟수에 대한 비선점형 RM 알고리듬의 스케줄링 가능성을 판별하는 방법도 포함한다. 사례 연구를 통해서 제안된 기법의 적용가능성을 입증한다.

비동기적 검사점 기록을 고려한 저 비용 인과적 메시지 로깅 기반 회복 알고리즘 (Low-Cost Causal Message Logging based Recovery Algorithm Considering Asynchronous Checkpointing)

  • 안진호;방승준
    • 정보처리학회논문지A
    • /
    • 제13A권6호
    • /
    • pp.525-532
    • /
    • 2006
  • 인과적 메시지 로깅을 위한 기존 회복 알고리즘들에 비해, Elnozahy가 제안한 회복 알고리즘은 안전한 저장소 접근횟수를 매우 줄이고, 회복과정을 수행하는 동안 살아있는 프로세스들이 자신의 계산을 계속해서 수행할 수 있도록 한다. 그러나, 인과적 메시지 로깅 기법이 비동기적 검사점 기록 기법과 함께 사용된다면, 동시적 고장들이 발생하는 경우 이 알고리즘 수행 후 전체 시스템 상태가 일관적이지 못하게 될 수 있다. 본 논문에서는 이러한 일관적이지 못한 경우들을 보여주고, 이러한 문제점을 해결하는 인과적 메시지 로깅을 위한 저 비용의 회복 알고리즘을 제안한다. 시스템 일관성을 보장하기 위해, 이 알고리즘은 회복 리더가 모든 살아있는 프로세스들뿐만 아니라 다른 회복 프로세스들로부터 회복정보를 얻을 수 있도록 한다. 또한, 제안된 알고리즘은 Elnozahy 회복 알고리즘에 비해 어떠한 부가적인 메시지도 요구하지 않으며, 메시지 피기백에 의해 발생되는 제안된 알고리즘의 부가적인 비용이 매우 낮다 이를 입증하기 위해, 시뮬레이션 결과는 제안된 알고리즘이 Elnozahy 알고리즘에 비해 회복정보 수집시간을 단지 1.0%$\sim$2.1% 정도로 증가시킴을 보여준다.

분산 환경에서 CFD 분석 프로그램 수행을 위한 그리드 시스템 META 설계 및 구현 (Design and Implementation of a Grid System META for Executing CFD Analysis Programs on Distributed Environment)

  • 강경우;우균
    • 정보처리학회논문지A
    • /
    • 제13A권6호
    • /
    • pp.533-540
    • /
    • 2006
  • 본 논문에서는 분산 환경 상에서 CFD(Computational Fluid Dynamics) 분석 프로그램을 편리하게 수행할 수 있도록 하는 그리드 시스템 META(Metacomputing Environment using Test-un of Application)의 설계 및 구현에 관하여 기술한다. 그리드 시스템 META는 CFD 프로그램 개발자들이 네트워크에 분산된 계산 자원들을 단일 시스템처럼 사용할 수 있도록 한다. 그리드 컴퓨팅과 관련하여 연구주제로는 고장허용, 자원 선택, 사용자 인터페이스 설계 등이 있다. 본 논문에서는 MPI(Message Passing Interface)로 작성된 SPMD(Single Program, Multiple Data) 구조의 병렬프로그램을 실행시키기 위한 자동 자원 선택방법을 활용하였다. 본 논문에서 제안한 자원 관리기법은 네트워크상의 전송지연 시간과 시험수행을 통해 얻어진 핵심루프의 경과시간을 이용한다. 전송지연시간은 병렬 프로그램이 복수의 시스템에 분산되어 수행될 때 수행 성능에 큰 영향을 주는 요인이다. CFD 프로그램들의 공통적인 특성 때문에 핵심루프 경과시간은 전체 수행시간을 예측할 수 있는 지표가 된다. 핵심루프는 CFD 프로그램의 전체 수행시간 중 90% 이상을 차지한다.

무선 센서 네트워크를 위한 대규모 장애 적응적 라우팅 프로토콜 (Large Scale Failure Adaptive Routing Protocol for Wireless Sensor Networks)

  • 이좌형;선주호;정인범
    • 정보처리학회논문지A
    • /
    • 제16A권1호
    • /
    • pp.17-26
    • /
    • 2009
  • 무선센서네트워크는 위험 지역에서의 데이터 수집 용도로 최근 각광받고 있는 기술이다. 하지만 위험한 지역에서는 다수 노드들에서 동시 다발적인 장애발생 위험이 크기 때문에 대규모의 장애를 빠르게 복구시키기 위한 자가 복구 능력을 높여야 한다. 기존의 라우팅 프로토콜들은 하나의 노드에서 발생한 장애는 빠르게 복구하지만 다수의 노드들에서 장애 발생시 이에 효과적으로 대처하지 못한다. 이에 본 논문에서는 대규모 장애 발생시 이를 빠르게 복구하기 위한LSFA(Large Scale Failure Adaptive Routing Protocol)을 제안한다. LSFA는 다수의 노드들에 장애가 발생하여 데이터 전송이 이루어지지 못하는 환경에서 장애를 빠르게 감지하고 라우팅 주기를 적응적으로 조절하여 빠른 시간에 네트워크를 복구한다. LSFA는 패킷손실 정도를 장애발생 판단의 기준으로 사용하며 장애를 감지하면 라우팅 주기를 짧게 하여 장애가 발생한 사실이 네트워크에 빠르게 퍼지도록 한다. 베이스스테이션으로의 경로를 유지하고 있는 노드가 주위에 장애가 발생한 사실을 감지하면 자신의 라우팅 정보를 빠르게 전파시켜 장애 복구가 빠르게 이루어지도록 한다. 실험을 통하여 LSFA가 다른 프로토콜들에 비해 적은 패킷을 사용하면서도 장애를 빠르게 복구함을 보인다.

Pub/Sub-based Sensor virtualization framework for Cloud environment

  • Ullah, Mohammad Hasmat;Park, Sung-Soon;Nob, Jaechun;Kim, Gyeong Hun
    • International journal of advanced smart convergence
    • /
    • 제4권2호
    • /
    • pp.109-119
    • /
    • 2015
  • The interaction between wireless sensors such as Internet of Things (IoT) and Cloud is a new paradigm of communication virtualization to overcome resource and efficiency restriction. Cloud computing provides unlimited platform, resources, services and also covers almost every area of computing. On the other hand, Wireless Sensor Networks (WSN) has gained attention for their potential supports and attractive solutions such as IoT, environment monitoring, healthcare, military, critical infrastructure monitoring, home and industrial automation, transportation, business, etc. Besides, our virtual groups and social networks are in main role of information sharing. However, this sensor network lacks resource, storage capacity and computational power along with extensibility, fault-tolerance, reliability and openness. These data are not available to community groups or cloud environment for general purpose research or utilization yet. If we reduce the gap between real and virtual world by adding this WSN driven data to cloud environment and virtual communities, then it can gain a remarkable attention from all over, along with giving us the benefit in various sectors. We have proposed a Pub/Sub-based sensor virtualization framework Cloud environment. This integration provides resource, service, and storage with sensor driven data to the community. We have virtualized physical sensors as virtual sensors on cloud computing, while this middleware and virtual sensors are provisioned automatically to end users whenever they required. Our architecture provides service to end users without being concerned about its implementation details. Furthermore, we have proposed an efficient content-based event matching algorithm to analyze subscriptions and to publish proper contents in a cost-effective manner. We have evaluated our algorithm which shows better performance while comparing to that of previously proposed algorithms.

EMS 규정에 따른 승강기 내성시험 및 오동작 대책에 관한 연구 (Malfunction Measures and Susceptibility test of Elevator Based on EMS(Electromagnetic Susceptibility) Standard)

  • 김기현;배석명;이주환
    • 조명전기설비학회논문지
    • /
    • 제21권2호
    • /
    • pp.78-85
    • /
    • 2007
  • 승강기 운행 중 갇힘, 급상승, 급정지, 층 표시 오류 등 승객의 불안감을 유발시킬 수 있고, 인명 사고와 연결될 수 있는 오동작 사고가 발생을 하고 있다. 하지만 이런 부분이 현장 재연성이 거의 없고, 발생했다 사라지는 현상이기에 사실상 사고 원인 판명이 어려운 것이 현실이다. 따라서 본 논문에서는 이런 갇힘 및 오동작을 발생시킬 수 있는 원인을 분석하기 위하여, 최근의 승강기 모델 3개를 대상으로 EN12016(2004) 규정에 따라 내성시험을 하고 그에 따른 승강기 동작 특성을 분석하였다. 또한 오동작에 대한 대책을 보강한 후에 다시 시험하여 그 성능을 평가하였다. 분석 결과는 최종적으로 승강기 설비의 오동작에 대한 상호 연관성 분석 및 승강기 설비의 전기적 장해에 대한 대책을 제시하는데 자료로 이용될 것이다.

iATA 기반의 RAID5 분산 스토리지 서버의 설계 및 구현 (Design and Implementation of iATA-based RAID5 Distributed Storage Servers)

  • 왕숙미;임효택
    • 한국정보통신학회논문지
    • /
    • 제14권2호
    • /
    • pp.305-311
    • /
    • 2010
  • iATA는 TCP/IP 네트워크상에서 ATA 명령어를 전달하기 위해 개발된 블록-레벨 프로토콜로서, 모바일 기기의 스토리지 한계를 극복하기 위한 대안으로 활용 될 수 있다. 본 논문은 RAID5 분산 스토리지 서버 개념을 iATA에 적용하여 스토리지 서버의 신뢰성과 속도를 개선하고자 한다. 분산 스토리지 서버중 하나의 서버가 다운된 경우에 나머지 서버 데이터의 XOR 함수를 적용하여 데이터 회복이 가능하며 이를 통해 데이터의 신뢰성을 높일 수 있다. 벤치마킹 실험과 시험을 통해 제안된 iATA 프로토콜은 제한된 스토리지를 가지고 있는 모바일 기기상에서 효율적이 고도 신뢰성 있는 가상 스토리지 프로토콜로서 사용될 수 있음을 보여주고 있다.

오픈소스 플랫폼 기반의 실시간 환자 대기시간 모니터링 시스템 설계 (A System Design for Real-Time Monitoring of Patient Waiting Time based on Open-Source Platform)

  • 류우석
    • 한국정보통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.575-580
    • /
    • 2018
  • 본 논문에서는 병원에서 환자의 대기시간을 실시간으로 모니터링하기 위한 오픈소스 기반의 시스템을 제안한다. 환자의 위치 데이터를 실시간으로 분석, 처리하기 위한 고성능 스트림 처리 시스템을 비용 효율적으로 구축하기 위해서는 오픈소스 프로젝트를 활용하는 것이 필요하다. 빅데이터를 처리하기 위한 오픈 소스 시스템으로 다양한 하둡 서브프로젝트들로 구성된 하둡 에코시스템이 있다. 본 논문에서는 먼저 시스템 요구사항을 정의하고 하둡 에코시스템에서 이를 만족시키기 위한 몇 가지 오픈소스 프로젝트들을 선정한다. 그리고, 선정된 아파치 스파크, 아파치 카프카 등을 이용한 시스템 구조 설계 및 상세 모듈 설계를 제안한다. 제안된 시스템은 기존 시스템과의 연계 및 오픈소스 프로젝트를 통해 구축비용을 절감할 수 있으며, 또한 분산 스트림 처리를 통해 고성능과 안정성을 확보할 수 있다.