분산 시스템에서의 복잡한 사건/상태의 결함 허용 분산 탐지

Fault-Tolerant, Distributed Detection of Complex Events and States in Distributed Systems

  • 심영철 (홍익대학교 컴퓨터공학과)
  • 발행 : 1997.06.01


분산 시스템은 높은 성능, 결함 허용성, 정보와 자원의 공유 등을 이룰 수 있는 환경을 제공한다. 그러나 분산 시스템 내에서 발생하는 사건과 상태들을 적절히 관리하지 못하면 이러한 장점의 혜택을 받을 수 없게 된다. 이러한 사건과 상태들은 성능 저하, 동작 오류, 수상한 행위 등의 징후가 될 수 있으므로 자세히 분석되어야 한다. 사건/상태를 적절히 관리하려면 이들을 명세하고 효율적으로 탐지할 수 있어야 한다. 본 논문에서는 사건/상태의 중앙 집중 탐지 알고리즘에 대해 설명한다. 다음 계층적 구조를 갖는 분산 시스템에서 이 탐지 알고리즘을 분산화 하는 방안에 대해 설명한다. 분산 알고리즘은 사건/상태 탐지 임무를 부임무들로 분해하는 과정과 부임무들을 적절한 노드들에 할당하는 과정으로 구성된다. 또 이 분산 탐지 알고리즘이 결함 허용성을 갖도록 하는 방안에 대해서도 설명한다.

Distributed systems offer environments for attaining high performance, fault-tolerance, information sharing, resource sharing, etc. But we cannot benefit from these potential advantages without suitable management of events/states occurring in distributed systems. These events and states can be symptoms for performance degradation, erroneous functions, suspicious activities, etc. and are subject to further analysis. To properly manage events/states, we need to be able to specify and efficiently detect these events/states. In this paper we first describe an event/state specification language and a centralized algorithm for detecting events/states specified with this language. Then we describe an algorithm for distributing an event/state detection task in a distributed system which is hierarchically organized. The algorithm consists of decomposing an event/state detection task into subtasks and allocation these subtasks to the proper nodes. We also explain a method to make the distributed detection fault-tolerant.
