• 제목/요약/키워드: 롤백 복구

검색결과 11건 처리시간 0.023초

분산 계산 환경의 검사점 작성 및 롤백 복구 프로토콜 (Checkpointing and Rollback-Recovery Protocols in Distributed Computing Systems)

  • 안성준;조유근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.93-95
    • /
    • 1999
  • 메시지 전달을 이용한 분산 계산 환경의 검사점 작성 및 롤백 프로토콜은 조정 검사점 작성(coordinated checkpointing), 약조정 검사점, 작성(loosely coordinated checkpointing), 독립적 검사점 작성(independent checkpointint)등 크게 세 종류로 구분할 수 있다. 이 프로토콜들의 성능은 프로세스간 통신의 빈도, 통신의 패턴 등 응용의 특성 및 수행 환경에 영향을 받는다. 기존에 제안된 프로토콜 각각의 성능에 대해서는 많은 연구가 있었으나 이질적인 종류의 프로토콜들을 동일한 환경에서 구현하여 성능을 비교하는 연구는 이루어지지 않았다. 본 논문에서는 검사점 작성 및 롤백 복구 프로토콜들을 구현하고, 동일한 환경에서 성능을 측정한 결과를 제시한다. 아울러 검사점 작성 및 롤백 복구 프로토콜의 성능에 영향을 미치는 요소들을 분석하여, 이들 프로토콜의 성능 평가 기준과 응용의 특성에 적합한 프로토콜의 선택 기준을 제시한다.

  • PDF

분산 시스템에서 고장 감내성의 향상을 위한 적응형 체크포인팅 프로토콜 (Adaptive Checkpointing Protocol for Improving of Fault Tolerance in Distributed System)

  • 이용호;장태무
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.90-92
    • /
    • 1999
  • 비동기 체크포인팅 프로토콜은 분산 시스템에서 고장 감내성을 제공하기 위한 방법중 하나다. 이 방법은 모든 프로세스가 독립적으로 자신의 지역 체크포인트를 두고 어느 한 프로세스에서의 고장 발생시 가장 최근의 체크포인트에서부터 롤백을 하는 것이다. 하지만 이 방법은 어느 한 프로세스에서의 고장 발생이 다른 프로세스의 롤백까지 유도하는 캐스캐이드 롤백을 발생시킬 수 있는 단점이 있다. 본 논문에서는 고장 감내성의 수준을 높이기 위하여 비동기 체크포인팅 프로토콜을 사용하면서도 캐스캐이드 롤백을 막을 수 있는 적응형 체크포인팅 프로토콜을 사용한다. 프로세스사이에 오고가는 모든 메시지의 복사본이 서버쪽의 중재자를 통하여 서버에 있는 기계 상태 테이블에 저장된다. 이렇게 하여 서버에는 무든 지역 기계의 상태가 저장되어 기계 고장이 발생했을 경우에 고장이 발생한 기계의 복구에 사용된다.

  • PDF

스토리지 클래스 메모리를 위한 롤백-복구 방식의 데이터 일관성 유지 기법 (Data Consistency-Control Scheme Using a Rollback-Recovery Mechanism for Storage Class Memory)

  • 이현구;김정훈;강동현;엄영익
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.7-14
    • /
    • 2015
  • 스토리지 클래스 메모리(SCM)는 메모리와 스토리지의 장점을 동시에 가지고 있기 때문에 기존의 스토리지를 대체할 차세대 스토리지로 주목 받고 있다. 하지만 현재까지 제안된 SCM 전용 파일시스템은 데이터 일관성을 충분히 보장하지 않거나 혹은 보장될 경우, 과도한 일관성 유지 비용을 발생시키는 문제점을 지니고 있다. 본 논문에서는 보편적으로 사용하는 WAL(Write Ahead Logging) 방식의 일관성 유지 기법 대신 롤백-복구 방식을 이용하여, 블록내의 변경되는 데이터의 비율에 따라 로그 데이터 기록 방식을 변경하는 데이터 일관성 유지 기법을 제안한다. 본 기법은 데이터 일관성 손실 없이 로그 데이터의 크기를 줄여 데이터 쓰기 및 동기화 비용을 최소화시킬 수 있다. 제안한 기법을 평가하기 위해 리눅스 3.10.2 상에 구현하여 성능을 측정한 결과, 다른 일관성 유지기법에 비해 평균적으로 9배 정도의 데이터 쓰기 성능이 향상됨을 볼 수 있었다.

딥러닝 형상관리를 위한 블록체인 시스템 설계 (Design for Deep Learning Configuration Management System using Block Chain)

  • 배수환;신용태
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권3호
    • /
    • pp.201-207
    • /
    • 2021
  • 머신러닝의 한 종류인 딥러닝은 각 학습 과정을 진행할 때, 가중치를 변경하면서 학습을 수행한다. 딥러닝을 수행할때 대표적으로 사용되는 Tensor Flow나 Keras의 경우 학습이 종료된 결과를 그래프 형태로 제공한다. 이에 과다학습으로 인한 퇴화 현상 또는 가중치의 잘못된 설정으로 인해 학습 결과에 오류가 발생하는 경우, 해당 학습 결과를 폐기해야한다. 이에 기존 기술은 학습 결과를 롤백하는 기능을 제공하고 있지만, 롤백 기능은 최대 5회 이내의 결과로 제한된다. 또한, 딥러닝의 모든 과정을 기록하고 있는 것이 아니기 때문에 값을 추적하기 어렵다. 이를 해결하기 위해 MLOps의 개념을 적용한 기술이 존재하지만. 해당 기술에서는 이전 시점으로 롤백하는 기능을 제공하지 않는다. 본 논문에서는 기존 기술의 문제점을 해결하기 위해 학습 과정의 중간 값을 블록체인으로 관리하여 학습 중간 과정을 기록하고, 오류가 발생할 경우 롤백할 수 있는 시스템을 구성한다. 블록체인의 기능 수행을 위해서 딥러닝 과정 및 학습 결과 롤백은 Smart Contract를 작성하여 동작하도록 설계하였다. 성능평가는 기존의 딥러닝 방식의 롤백 기능을 평가하였을 때, 제안방식은 100%의 복구율을 가지는 것에 비교하여 기존 기법에서는 6회 이후에 복구율이 감소되어 50회일 때 10%까지 감소하는 것을 확인하였다. 또한, 이더리움 블록체인의 Smart Contract를 사용할 때, 블록 1회 생성 시 157만원의 금액이 지속적으로 소모되는 것을 확인하였다.

이동 에이전트 기반의 검사점 조정 기법 (Mobile Agent based Checkpointing Coordination Scheme)

  • 박태순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.57-60
    • /
    • 2013
  • 분산 컴퓨팅에 참여하는 프로세스들의 일관성 있는 실행 상태를 저장하여, 특정 시스템 사이트의 결함 발생 시 프로세스들을 일관성 있는 상태에서 복구 시키는 방법을 검사점 설정을 이용한 롤백 복구 기법이라고 한다. 이러한 복구를 위해서는 일관된 검사점 설정이 중요하며, 일관된 복구를 위한 검사점 조정 기법 중 하나가 약조정 기법이다. 본 논문에서는 약조정 기법의 문제점 중 하나인 검사점 저장 공간 문제를 해결하기 위해, 검사점 저장 공간을 안정된 저장 공간과 임시 저장 공간으로 나누고, 이동 에이전트를 이용해 불필요한 검사점을 찾아내서 주기적으로 삭제하여 효율적으로 저장 공간을 관리하는 방법을 제안한다.

결함 내성 분산 시스템에서의 동적 검사점 스케쥴링 기법 (A Dynamic Checkpoint Scheduling Scheme for Fault Tolerant Distributed Computing Systems)

  • 박태순
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권2호
    • /
    • pp.75-86
    • /
    • 2002
  • 분산 시스템에 결함 내성 기능을 제공하는 기법의 하나인, 검사점을 이용한 회복 기법을 효율 적으로 구현하기 위해서는 최적화된 검사점 설정 구간의 선택이 매우 중요한 문제로 인식되고 있다. 본 논문은 분산 시스템내의 각 프로세스 적절한 검사점 설정 구간을 프로세스의 연산 중에서 동적으로 스케 쥴링 하는 기법을 제안한다. 제안된 기법에서는 시스템내에의 각 프로세스가 현 검사점 구간 동안으 검사점 설정 비용과 가능한 롤백 회복 비용을 비교 평가하고, 다음 검사점 설정을 위한 적절한 구간을 계산한다. 대부분의 기존 기법들과는 달리 제안된 기법은 검사점과 롤백 두 가지 비용 모두를 최소화는 구간 값 을 선택하여 , 현 검사점 구간 동안의 통신 형태를 고려한 구간 값을 선택한다. 또한 검사점 설정 구간 선 택을 위한 별도의 통신비용의 요구되지 않으며, 제안된 기법의 기존의 검사점 조정 기법들과 쉽게 통합되어 사용될수 있다.

EJB 2.1 타이머 서비스 설계 및 구현 (Design and Implementation of EJB 2.1 Timer Service)

  • 정숭욱;이경호;김중배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (3)
    • /
    • pp.247-249
    • /
    • 2003
  • EJB(Enterprise Java Beans)는 웹 응용 서버 스펙인 J2EE(Java2 Enterprise Edition)의 핵심으로서, 비즈니스 업무를 웹 환경에서 컴포넌트 형태로 작성하여 재 사용성을 높이기 위한 서버 측 컴포넌트 프로그래밍 모델이다. EJB 2.1에서는 기존 EJB 2.0에 기술된 기능 이외에 웹 서비스, 타이머 서비스, EJB QL 업그레이드 등의 기능을 추가하였다. 타이머 서비스는 지정된 시간마다 EJB 빈의 특정 함수를 호출하는 기능이다. 또한, 타이머 서비스는 트랜잭션과 연관된 경우 해당 트랜잭션 컨텍스트(context) 내에서 타이머의 롤백(rollback)을 지원해야 하며, 시스템의 고장 후 재시작 시에 기존 타이머의 복구 기능을 지원해야 한다. 본 논문에서는 EJB 스펙 2.1에서 제시한 타이머 서비스의 요구 사항에 대해 알아보고, ETRI 에서 개발한 E504 EJB 서버에서 타이머 서비스를 구현한 방법에 대해 논의한다.

  • PDF

HORB에 기반한 신뢰성 있는 분산 프로그래밍 환경의 설계 및 구현 (Design and Implementation of Reliable Distributed Programming Environment based on HORB)

  • 현무용;김식;김명준
    • 전자공학회논문지CI
    • /
    • 제39권2호
    • /
    • pp.1-9
    • /
    • 2002
  • DSOM, DCOM, CORBA, Java RMI 같은 객체 지향 분산 프로그래밍 환경을 이용한 분산 응용 프로그램 개발이 일반화되고 있다. 그러나, 이러한 분산 미들웨어들은 응용프로그램의 품질과 재사용성을 향상시켜 주지만, 결함 허용 기능을 지원하지 않음으로서 신뢰성이 보장된 객체 기반 분산 응용프로그램의 설계 및 구현을 복잡하게 한다. 본 논문에서는 RMI 메커니즘을 기반으로 한 결함 허용 분산 시스템 개발 환경인 에버그린(Evergreen)을 제안하고자 한다. 에버그린은 신뢰성 있는 분산 컴퓨팅을 지원하기 위해서 체크포인트와 롤백 복구(rollback recovery) 메커니즘을 이용하여 설계되었다 일련의 실험을 통해 에버그린의 성능을 평가하였고 최적의 디자인 목표를 지원하기 위한 확장 가능성을 확인하였다.

재실행과 Rollback 기법을 사용한 TMR 고장의 시간여분 복구 기법 (A Time-Redundant Recovery Scheme of TMR failures Using Retry and Rollback Techniques)

  • 강명석;손병희;김학배
    • 정보처리학회논문지A
    • /
    • 제13A권5호
    • /
    • pp.421-428
    • /
    • 2006
  • 본 논문에서는 복잡해져 가는 제어 컴퓨터의 높은 신뢰성 확보를 위해 시간 여분(time redundancy)의 일종인 재실행과 rollback 기법을 TMR 구조에 적절하게 혼용하는 방법을 제안한다 재실행과 rollback 기법은 약간의 추가 시간만으로 재구성(reconfiguration) 없이도 일시적인 결함(fault)에 의해 발생한 TMR 고장(failure)의 회복을 위해 상호 보완적으로 사용될 수 있다. 이를 위해 고장 검출시 가능한 모든 시스템의 고장상태 확률을 추정하였으며, 이를 바탕으로 전체 작업의 평균 실행시간이 최소가 되는 최적의 재실행과 rollback 횟수를 유도하였다. 또한 제안된 방법과 다른 고장회복 기법을 적용했을 때의 평균 실행 시간을 정량적으로 비교하여 그 우수성을 검증하였다.

하드웨어 성능 카운터와 디버깅 기능을 이용한 리코드-리플레이 방법 (An Efficient Record-Replay Mechanism using Hardware Performance Counters and Debugging Facilities)

  • 맹지찬;유민수
    • 정보처리학회논문지A
    • /
    • 제18A권5호
    • /
    • pp.177-180
    • /
    • 2011
  • 본 논문에서는 인터럽트의 기록과 재현을 통해 소프트웨어의 실행을 동일하게 재현하는 리코드-리플레이(record-replay) 기법을 제안한다. 전통적인 리코드-리플레이 방법에서는 경합(race) 현상을 대표적인 비결정적 요인으로 간주하여 임계영역으로의 진입/진출, 공유 메모리 접근, 메시지 교환 등을 기록하고 동일한 순서(order)로 재현하는 방법을 다루어 왔다. 하지만, 인터럽트 역시 프로그램의 실행에 영향을 끼칠 수 있는 중요한 비결정적 요인이며, 게다가 인터럽트의 경우 발생 순서는 물론 정확한 발생 시점을 재현하는 것이 필요하다. 이에 본 논문에서는 프로세서 하드웨어가 제공하는 성능 카운터와 디버깅 기능을 이용하여 인터럽트의 발생 시점을 정확하게 기록하고 재현하는 방법을 제안한다.