• 제목/요약/키워드: 개인 클라우드 컴퓨팅

검색결과 224건 처리시간 0.021초

클러스터 기반 컨테이너 환경에서 실시간 GPU 작업 모니터링 및 컨테이너 배치를 위한 노드 리스트 관리기법 (Real-Time GPU Task Monitoring and Node List Management Techniques for Container Deployment in a Cluster-Based Container Environment)

  • 강지훈;길준민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권11호
    • /
    • pp.381-394
    • /
    • 2022
  • 최근 인터넷 기반 서비스는 데이터의 개인화 및 맞춤화로 인해 사용자의 상황이나 요구사항에 따라 즉시 처리해야 하는 실시간 AI 추론 및 데이터 분석과 같은 실시간 처리에 대한 요구사항이 증가하고 있다. 실시간 작업은 각 작업이 시작되고 결과를 반환하기까지의 데드라인이 정해져 있으며, 데드라인의 보장은 서비스의 품질과 직접적으로 연결된다. 하지만, 기존 컨테이너 시스템에서는 컨테이너에서 실행되는 작업의 데드라인을 할당하고 관리하기 위한 기능이 제공되지 않기 때문에 실시간 작업을 운용하는데 제한적이다. 또한, AI 추론 및 데이터 분석과 같은 작업은 GPU(Graphic Processing Unit)를 기본적으로 사용하는데, 일반적으로 GPU 자원은 컨테이너 사이에 성능 격리가 제공되지 않기 때문에 서로 성능 영향을 미치며, 노드의 자원 사용량만으로는 각 컨테이너의 데드라인 보장률이나 새로운 실시간 컨테이너의 배치 여부를 결정할 수 없다. 따라서, 본 논문에서는 컨테이너에서 실행되는 GPU 작업의 실시간 처리를 지원하기 위해 컨테이너의 데드라인 및 실시간 GPU 작업의 실행 상태를 추적하고 관리하기 위한 모니터링 기법과 클러스터 환경에서 실시간 GPU 작업을 실행하는 컨테이너가 데드라인을 보장할 수 있도록 적절한 노드에 배치하기 위한 노드 리스트 관리기법을 제안한다. 또한, 실험을 통해 제안하는 기법이 시스템에 매우 작은 영향을 미친다는 것을 증명한다.

DSCP 재정의를 통한 효율적인 QoS 정책 구현: 네트워크 부하 분산을 위해 (Efficient QoS Policy Implementation Using DSCP Redefinition: Towards Network Load Balancing)

  • 이한우;김수환;박건우
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.715-720
    • /
    • 2023
  • 군은 4차 산업혁명으로 AI, 클라우드 컴퓨팅, 드론봇 운용 등 혁신적인 변화를 추진하고 있다. 이러한 변화는 하급 제대의 모든 전투원에 이르기까지 IoT 기반의 네트워킹이 발생함으로써 정보교환 요구량이 급격히 증가할 것으로 예상된다. 따라서 지상망, 정지위성 및 저궤도 소형통신 위성 등 다양한 기반체계를 통해 효율적인 정보유통을 보장해야 하며, 이를 통해 유통되는 정보교환요구량을 적절히 분산시켜야 할 필요성이 제기된다. 본 연구에서는 정보유통 시 QoS (Quality of Service)와 밀접히 관련된 DSCP에 11개 우선순위를 재정의하고, 군집 분석을 통해 식별된 국방 "정보교환요구목록"의 군집 그룹과 1:1로 매핑하는 연구를 수행하였다. 연구의 목적은, 중요한 정보교환요구 목록들이 우선순위를 갖고 라우팅이 되도록 QoS 정책을 재수립함으로써, 제한된 대역폭을 갖는 다계층 통합망(지상망, 정지위성망, 저궤도 소형통신위성망) 내에서 효율적인 정보유통을 보장하기 위한 것이다. 본 논문에서는 군집 분석을 통해 분류된 정보교환요구목록이 DSCP에 얼마나 잘 할당되었는가를 M&S를 통해 평가하였으며, 제안하는 DSCP 재분류를 통해, 대역폭이 제한된 네트워크 환경에서 보다 효율적으로 정보가 유통되는 것을 확인하였다.

금융 특화 딥러닝 광학문자인식 기반 문서 처리 플랫폼 구축 및 금융권 내 활용 (Deep Learning OCR based document processing platform and its application in financial domain)

  • 김동영;김두형;곽명성;손현수;손동원;임민기;신예지;이현정;박찬동;김미향;최동원
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.143-174
    • /
    • 2023
  • 인공지능의 발전과 함께 딥러닝을 활용한 인공지능 광학문자인식 기법 (Artificial Intelligence powered Optical Character Recognition, AI-OCR) 의 등장은 기존의 이미지 처리 기반 OCR 기술의 한계를 넘어 다양한 형태의 이미지로부터 여러 언어를 높은 정확도로 읽어낼 수 있는 모델로 발전하였다. 특히, AI-OCR은 인력을 통해 대량의 다양한 서류 처리 업무를 수행하는 금융업에 있어 그 활용 잠재력이 크다. 본 연구에서는 금융권내 활용을 위한 AI-OCR 모델의 구성과 설계를 제시하고, 이를 효율적으로 적용하기 위한 플랫폼 구축 및 활용 사례에 대해 논한다. 금융권 특화 딥러닝 모델을 만듦에 있어 금융 도메인 데이터 사용은 필수적이나, 개인정보보호법 이하 실 데이터의 사용이 불가하다. 이에 본 연구에서는 딥러닝 기반 데이터 생성 모델을 개발하였고, 이를 활용하여 AI-OCR 모델 학습을 진행하였다. 다양한 서류 처리에 있어 유연한 데이터 처리를 위해 단계적 구성의 AI-OCR 모델들을 제안하며, 이는 이미지 전처리 모델, 문자 탐지 모델, 문자 인식 모델, 문자 정렬 모델 및 언어 처리 모델의 선택적, 단계적 사용을 포함한다. AI-OCR 모델의 배포를 위해 온프레미스(On-Premise) 및 프라이빗 클라우드(Private Cloud) 내 GPU 컴퓨팅 클러스터를 구성하고, Hybrid GPU Cluster 내 컨테이너 오케스트레이션을 통한 고효율, 고가용 AI-OCR 플랫폼 구축하여 다양한 업무 및 채널에 적용하였다. 본 연구를 통해 금융 특화 AI-OCR 모델 및 플랫폼을 구축하여 금융권 서류 처리 업무인 문서 분류, 문서 검증 및 입력 보조 시스템으로의 활용을 통해 업무 효율 및 편의성 증대를 확인하였다.

Hierarchical Attention Network를 이용한 복합 장애 발생 예측 시스템 개발 (Development of a complex failure prediction system using Hierarchical Attention Network)

  • 박영찬;안상준;김민태;김우주
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.127-148
    • /
    • 2020
  • 데이터 센터는 컴퓨터 시스템과 관련 구성요소를 수용하기 위한 물리적 환경시설로, 빅데이터, 인공지능 스마트 공장, 웨어러블, 스마트 홈 등 차세대 핵심 산업의 필수 기반기술이다. 특히, 클라우드 컴퓨팅의 성장으로 데이터 센터 인프라의 비례적 확장은 불가피하다. 이러한 데이터 센터 설비의 상태를 모니터링하는 것은 시스템을 유지, 관리하고 장애를 예방하기 위한 방법이다. 설비를 구성하는 일부 요소에 장애가 발생하는 경우 해당 장비뿐 아니라 연결된 다른 장비에도 영향을 미칠 수 있으며, 막대한 손해를 초래할 수 있다. 특히, IT 시설은 상호의존성에 의해 불규칙하고 원인을 알기 어렵다. 데이터 센터 내 장애를 예측하는 선행연구에서는, 장치들이 혼재된 상황임을 가정하지 않고 단일 서버를 단일 상태로 보고 장애를 예측했다. 이에 본 연구에서는, 서버 내부에서 발생하는 장애(Outage A)와 서버 외부에서 발생하는 장애(Outage B)로 데이터 센터 장애를 구분하고, 서버 내에서 발생하는 복합적인 장애 분석에 중점을 두었다. 서버 외부 장애는 전력, 냉각, 사용자 실수 등인데, 이와 같은 장애는 데이터 센터 설비 구축 초기 단계에서 예방이 가능했기 때문에 다양한 솔루션이 개발되고 있는 상황이다. 반면 서버 내 발생하는 장애는 원인 규명이 어려워 아직까지 적절한 예방이 이뤄지지 못하고 있다. 특히 서버 장애가 단일적으로 발생하지 않고, 다른 서버 장애의 원인이 되기도 하고, 다른 서버부터 장애의 원인이 되는 무언가를 받기도 하는 이유다. 즉, 기존 연구들은 서버들 간 영향을 주지 않는 단일 서버인 상태로 가정하고 장애를 분석했다면, 본 연구에서는 서버들 간 영향을 준다고 가정하고 장애 발생 상태를 분석했다. 데이터 센터 내 복합 장애 상황을 정의하기 위해, 데이터 센터 내 존재하는 각 장비별로 장애가 발생한 장애 이력 데이터를 활용했다. 본 연구에서 고려되는 장애는 Network Node Down, Server Down, Windows Activation Services Down, Database Management System Service Down으로 크게 4가지이다. 각 장비별로 발생되는 장애들을 시간 순으로 정렬하고, 특정 장비에서 장애가 발생하였을 때, 발생 시점으로부터 5분 내 특정 장비에서 장애가 발생하였다면 이를 동시에 장애가 발생하였다고 정의하였다. 이렇게 동시에 장애가 발생한 장비들에 대해서 Sequence를 구성한 후, 구성한 Sequence 내에서 동시에 자주 발생하는 장비 5개를 선정하였고, 선정된 장비들이 동시에 장애가 발생된 경우를 시각화를 통해 확인하였다. 장애 분석을 위해 수집된 서버 리소스 정보는 시계열 단위이며 흐름성을 가진다는 점에서 이전 상태를 통해 다음 상태를 예측할 수 있는 딥러닝 알고리즘인 LSTM(Long Short-term Memory)을 사용했다. 또한 단일 서버와 달리 복합장애는 서버별로 장애 발생에 끼치는 수준이 다르다는 점을 감안하여 Hierarchical Attention Network 딥러닝 모델 구조를 활용했다. 본 알고리즘은 장애에 끼치는 영향이 클 수록 해당 서버에 가중치를 주어 예측 정확도를 높이는 방법이다. 연구는 장애유형을 정의하고 분석 대상을 선정하는 것으로 시작하여, 첫 번째 실험에서는 동일한 수집 데이터에 대해 단일 서버 상태와 복합 서버 상태로 가정하고 비교분석하였다. 두 번째 실험은 서버의 임계치를 각각 최적화 하여 복합 서버 상태일 때의 예측 정확도를 향상시켰다. 단일 서버와 다중 서버로 각각 가정한 첫 번째 실험에서 단일 서버로 가정한 경우 실제 장애가 발생했음에도 불구하고 5개 서버 중 3개의 서버에서는 장애가 발생하지 않은것으로 예측했다. 그러나 다중 서버로 가정했을때에는 5개 서버 모두 장애가 발생한 것으로 예측했다. 실험 결과 서버 간 영향이 있을 것이라고 추측한 가설이 입증된 것이다. 연구결과 단일 서버로 가정했을 때 보다 다중 서버로 가정했을 때 예측 성능이 우수함을 확인했다. 특히 서버별 영향이 다를것으로 가정하고 Hierarchical Attention Network 알고리즘을 적용한 것이 분석 효과를 향상시키는 역할을 했다. 또한 각 서버마다 다른 임계치를 적용함으로써 예측 정확도를 향상시킬 수 있었다. 본 연구는 원인 규명이 어려운 장애를 과거 데이터를 통해 예측 가능하게 함을 보였고, 데이터 센터의 서버 내에서 발생하는 장애를 예측할 수 있는 모델을 제시했다. 본 연구결과를 활용하여 장애 발생을 사전에 방지할 수 있을 것으로 기대된다.