• 제목/요약/키워드: service computing

검색결과 2,602건 처리시간 0.021초

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.

전염병의 경로 추적 및 예측을 위한 통합 정보 시스템 구현 (Implementation of integrated monitoring system for trace and path prediction of infectious disease)

  • 김은경;이석;변영태;이혁재;이택진
    • 인터넷정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.69-76
    • /
    • 2013
  • 세계적으로 전파력과 병원성이 높은 신종인플루엔자, 조류독감 등과 같은 전염병이 증가하고 있다. 전염병이란 특정 병원체(pathogen)로 인하여 발생하는 질병으로 감염된 사람으로부터 감수성이 있는 숙주(사람)에게 감염되는 질환을 의미한다. 전염병의 병원체는 세균, 스피로헤타, 리케차, 바이러스, 진균, 기생충 등이 있으며, 호흡기계 질환, 위장관 질환, 간질환, 급성 열성 질환 등을 일으킨다. 전파 방법은 식품이나 식수, 곤충 매개, 호흡에 의한 병원체의 흡입, 다른 사람과의 접촉 등 다양한 경로를 통해 발생한다. 전 세계의 대부분 국가들은 전염병의 전파를 예측하고 대비하기 위해서 수학적 모델을 사용하고 있다. 하지만 과거와 달리 현대 사회는 지상과 지하 교통수단의 발달로 전염병의 전파 속도가 매우 복잡하고 빨라졌기 때문에 우리는 이를 예방하기 위한 대책 마련의 시간이 부족하다. 그러므로 전염병의 확산을 막기 위해서는 전염병의 전파 경로를 예측할 수 있는 시스템이 필요하다. 우리는 이러한 문제를 해결하기 위해서 전염병의 실시간 감시 및 관리를 위한 전염병의 감염 경로 추적 및 예측이 가능한 통합정보 시스템을 구현하였다. 이 논문에서는 전염병의 전파경로 예측에 관한 부분을 다루며, 이 시스템은 기존의 수학적 모델인 Susceptible - Infectious - Recovered (SIR) 모델을 기반으로 하였다. 이 모델의 특징은 교통수단인 버스, 기차, 승용차, 비행기를 포함시킴으로써, 도시내 뿐만 아니라 도시간의 교통수단을 이용한 이동으로 사람간의 접촉을 표현할 수 있다. 그리고 한국의 지리적 특성에 맞도록 실제 자료를 수정하였기 때문에 한국의 현실을 잘 반영할 수 있다. 또한 백신은 시간에 따라서 투여 지역과 양을 조절할 수 있기 때문에 사용자가 시뮬레이션을 통해서 어느 시점에서 어느 지역에 우선적으로 투여할지 백신을 컨트롤할 수 있다. 시뮬레이션은 몇가지 가정과 시나리오를 기반으로 한다. 그리고 통계청의 자료를 이용해서 인구 이동이 많은 주요 5개 도시인 서울, 인천국제공항, 강릉, 평창, 원주를 선정했다. 상기 도시들은 네트워크로 연결되어있으며 4가지의 교통수단들만 이용하여 전파된다고 가정하였다. 교통량은 국가통계포털에서 일일 교통량 자료를 입수하였으며, 각도시의 인구수는 통계청에서 통계자료를 입수하였다. 그리고 질병관리본부에서는 신종인플루엔자 A의 자료를 입수하였으며, 항공포털시스템에서는 항공 통계자료를 입수하였다. 이처럼 일일 교통량, 인구 통계, 신종인플루엔자 A 그리고 항공 통계자료는 한국의 지리적 특성에 맞도록 수정하여 현실에 가까운 가정과 시나리오를 바탕으로 하였다. 시뮬레이션은 신종인플루엔자 A가 인천공항에 발생하였을 때, 백신이 투여되지 않은 경우, 서울과 평창에 각각 백신이 투여된 경우의 3가지 시나리오에 대해서, 감염자가 피크인 날짜와 I (infectious)의 비율을 비교하였다. 그 결과 백신이 투여되지 않은 경우, 감염자가 피크인 날짜는 교통량이 가장 많은 서울에서 37일로 가장 빠르고, 교통량이 가장 적은 평창에서 43일로 가장 느렸다. I의 비율은 서울에서 가장 높았고, 평창에서 가장 낮았다. 서울에 백신이 투여된 경우, 감염자가 피크인 날짜는 서울이 37일로 가장 빨랐으며, 평창은 43일로 가장 느렸다. 그리고 I의 비율은 강릉에서 가장 높으며, 평창에서 가장 낮았다. 평창에 백신을 투여한 경우, 감염자가 피크인 날짜는 37일로 서울이 가장 빠르고 평창은 43일로 가장 느렸다. I의 비율은 강릉에서 가장 높았고, 평창에서는 가장 낮았다. 이 결과로부터 신종인플루엔자 A가 발생하면 각 도시는 교통량에 의해 영향을 받아 확산된다는 것을 확인할 수 있다. 따라서 전염병 발생시 전파 경로는 각 도시의 교통량에 따라서 달라지므로, 교통량의 분석을 통해서 전염병의 전파 경로를 추적하고 예측함으로써 전염병에 대한 대책이 가능할 것이다.