DOI QR코드

DOI QR Code

클라우드 도입이 서비스 연속성에 미치는 영향에 관한 사례 분석 - 장애 중심으로

A Case Analysis on the Effects of Cloud Adoption on Service Continuity - Focusing on Failures

  • 허지용 (숭실대학교 대학원 IT정책경영학과) ;
  • 윤준희 (숭실대학교 대학원 IT정책경영학과) ;
  • 한은경 (숭실대학교 대학원 IT정책경영학과)
  • 투고 : 2023.07.05
  • 심사 : 2023.08.04
  • 발행 : 2023.08.31

초록

최근 인공지능, 빅데이터, IOT 등 IT 기술에 대한 서비스 활용도가 높아짐에 따라 방대한 데이터와 이를 처리하는 IT 인프라 자원의 효율적인 관리를 위해 클라우드 컴퓨팅을 도입하여 인프라 비용을 효율화하면서 안정적이고 신뢰성 있는 정보서비스 제공을 위한 노력이 계속되고 있다. 본 논문은 전체 1,750여개의 클라우드 시스템을 운영중인 기업의 클라우드 시스템에서 전국 360개 지점 426개 시스템을 대상으로 클라우드 도입 전과 도입후의 운영결과를 시스템 장애 관점에서 비교분석 하였으며, 분석 결과 장애건수, 장애유형, 서비스 중단 시간 등을 종합할 때 클라우드 도입이 서비스 연속성을 확보하는데 유의미한 결과를 얻었다. 이 결과를 통해 클라우드 도입으로 서비스 연속성 확보를 기대하는 기업에게 의미 있는 시사점을 제공 할 것으로 기대한다.

As service utilization for IT technologies such as artificial intelligence, big data, and IOT has recently increased, cloud computing has been introduced to efficiently manage vast amounts of data and IT infrastructure resources that process them to provide stable and reliable information services while streamlining infrastructure costs. Efforts for this are ongoing. This thesis compares and analyzes the operation results before and after cloud adoption in terms of system failures for 426 systems at 360 branches nationwide in cloud systems of companies operating a total of 1,750 cloud systems. As a result of the analysis, the number of failures and failure types , service downtime, etc., the introduction of the cloud yielded significant results in securing service continuity. Through this result, it is expected to provide meaningful implications to companies expecting to secure service continuity by adopting the cloud.

키워드

Ⅰ. 서론

최근 인공지능, 빅데이터, IOT 등 IT 기술에 대한 서비스 활용도가 높아짐에 따라 방대한 데이터와 이를 처리하는 IT 인프라 자원의 효율적인 관리를 위해 클라우드 컴퓨팅을 도입하여 인프라 비용을 효율화하면서 안정적이고 신뢰성 있는 정보서비스 제공을 위한 노력이 계속되고 있다[1].

클라우드 컴퓨팅 개념은 그리드 컴퓨팅, 분산 컴퓨팅, 유틸리티 컴퓨팅, 웹 서비스, 서버 및 스토리지의 가상화 기술과 공개 소프트웨어 등과 같은 기존 기술들이 융합되어 하나의 커다란 구름(Cloud)과 같은 환경을 만들며 서로 다른 물리적 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통하여 제공하는 기술 개념을 포함한다[2].

기존 레거시 시스템의 클라우드 전환으로 탄력성(elasticity), 민첩성(agility), 사용량 기반 과금(pay per use), 확장성 (scalability), 자원 이용률(utilization), 신뢰성(reliability), 비용 절감(cost reduction) 등의 다양한 기대 효과를 기대할 수 있다. 레거시 시스템은 최대 사용량 기준으로 용량 산정을 하기 때문에 장비 이용률 및 재활용률도 낮지만 클라우드 컴퓨팅은 가상화를 통해 장비 이용률을 높일 수 있다. 또한 클라우드 컴퓨팅의 이중화 구성, HA 그리고 데이터 손실을 방지할 수 있는 정기적인 백업 등의 인프라에 신뢰성을 제공한다[3].

클라우드 시스템은 분산된 환경 때문에 컴퓨터 보안에서 유용하게 사용되며[4], 데이터를 클라우드 환경으로 이전하면 모든 자원에 대한 가시성 제공이 가능하기 때문에 데이터 거버넌스가 강화되고, 비즈니스 핵심으로서의 보안성 담보가 가능하게 된다[5].

이용자에게 정보관리에 대한 유연성을 제공해 주는 클라우드 컴퓨팅 환경은 특정 단말장치에 데이터를 의존해야만 했던 데이터 접근성과 이동의 취약성을 극복하게 해 정보 이용과 관련한 물리적 접근성에 대한 고민을 해결해 주었다[6].

또한 서비스 가용성은 서비스 제공자의 기본 의무로서 클라우드 서비스의 가장 중요한 특성으로 중단없는 서비스 제공을 의미한다. 성능 및 확장성은 가용성과 함께 클라우드 서비스의 주요 특성으로 유연한 성능과 확장성을 보장해야 한다[7].

클라우드 컴퓨팅이 지속적 성장세를 보이고 향후 정보통신기술 산업에서 그 중요성이 부각되면서 학술적 관점에서 대부분의 연구가 클라우드 컴퓨팅 채택에 따른 조직성과에 대한 사례연구, 기술 및 아키텍처 중심의 연구가 이루어지고 있다[8].

클라우드 관련 선행 연구에서는 클라우드 컴퓨팅 서비스 선택 시 혜택과 비용에 대한 상호작용 효과를 탐색적으로 분석하였고[9], 다른 연구에서는 모바일 클라우드 컴퓨팅의 효율성에 대해 사용자 관점에서 이해하고자 모바일 클라우드 컴퓨팅 기술사용에 영향을 주는 환경적 요인들과 직무관련성의 조절효과를 제안하여 실증분석을 하였다[10][11].

클라우드 관련 조직적인 측면에서 팀 구성원을 대상으로 클라우드 컴퓨팅 환경이 프로젝트 수행에 어떠한 영향을 미치는지를 분석하였으며[12], 클라우드 컴퓨팅 서비스의 특성변수를 혁신확산 관점에서 접근하였고, 이러한 특성들이 기업의 인지된 기대성과와 사용의도에 이르는 다양한 속성들을 통합적인 관점에서도 연구가 되었다[13].

이처럼 클라우드 컴퓨팅 서비스에 대한 다양한 관점의 연구가 수행되고 있지만 기존 클라우드 선행 연구들은 클라우드의 도입, 구축, 활용, 평가, 보안 등 대부분이 기술과 정책, 조직과 관련된 주제로 연구가 수행되어온 반면 실제 도입에 따른 사례 분석 연구는 미미한 수준이다.

본 논문은 인프라 신뢰성, 지역적 한계로 인한 물리적 접근성, 확장성, 가용성을 확보하기 위해 기존 유닉스 시스템을 단계적으로 지역 거점 클라우드 시스템으로 통합한 기업의 사례를 분석하였으며, 클라우드 도입으로 서비스 연속성 확보를 기대하는 기업에게 의미 있는 시사점을 제공할 것으로 기대한다.

Ⅱ. 사례분석

본 논문에서 분석 자료는 사례기업의 전체 1,750여개의 클라우드 시스템 중 전국에 분포된 360개 지점의 426개 시스템에 대한 H/W 장애 데이터와 서비스 수준 측정데이터로, 분석 기간은 2015년부터 2022년까지 8년간 데이터를 대상으로 하였다.

데이터에 대한 분석은 클라우드 도입 전과 후의 변화를 비교하기 위해 연도 별로 구분하여 장애건수, 장애유형, 서비스 중단 시간, 서비스 수준 측정 결과로 구분하여 비교 분석하였다.

1. 장애건수 분석

사례기업의 장애발생 추이를 보면 2015년부터 2018년까지 연 평균 40여건의 H/W 장애가 발생하였고, 2019년 클라우드 전환을 시작으로 장애가 현저히 감소하였다.

클라우드 전환 막바지인 2019년 장애의 경우 클라우드 전환이 완료되지 않은 지점의 노후화 된 서버에서 장애가 발생 하였고, 2020년 클라우드 전환이 완료 된 이후 안정적으로 시스템이 운영되는 것을 볼 수 있다.

OTNBBE_2023_v23n4_121_f0001.png 이미지

그림 1. 장애 발생 추이

Fig. 1. Failure Occurrence Trend

2. 장애유형 분석

클라우드 시스템 도입 전 장애를 보면 부품, 환경, 기타(자원부족, 시설 공사 등) 순으로 발생하였고, 클라우드 시스템 도입 이후에는 부품, 환경, 자원 부족으로 인한 문제가 모두 해소되었다.

OTNBBE_2023_v23n4_121_f0002.png 이미지

그림 2. 장애유형

Fig. 2. Type Of Disability

부품 장애의 경우 노후화된 파워, 메인보드, 메모리, CPU 순으로 장애가 가장 많이 발생하였으며, IT관리 인력이 상주하고 있지 않은 지점의 전산환경(먼지, 항온항습 등)과 설비 문제도 부품 장애 발생에 직·간접적인 영향을 주었다.

환경적인 장애의 경우 항온항습 시설 미비, 전기 작업과 낙뢰로 인한 정전, 공사 등이며 이는 지점의 열악한 전산환경과 설비 문제로 인해 발생하였고, 2019년 전산 설비 환경이 잘 갖춰진 지역 거점 클라우드 센터로 이전하면서 환경 요소로 인한 장애는 발생하지 않았다.

표 1. 부품장애

Table 1. Parts Failure

OTNBBE_2023_v23n4_121_t0001.png 이미지

표 2. 환경장애

Table 2. Environmental Disorder

OTNBBE_2023_v23n4_121_t0002.png 이미지

기타 장애의 자원 부족은 기존 서버 환경에서 자원 증설이 불가하여 발생한 장애로, 클라우드 전환 이후 자원 증설이 용이해짐에 따라 동일한 장애가 발생하지 않았고, 시설 공사 또한 지역 거점 클라우드 센터의 통제 범위 내에서 진행되어 이로 인한 장애는 발생하지 않았다.

3. 서비스 중단 시간 분석

지점 장애 발생 시 지역 거점 유지관리 업체 직원의 현장 도착 시간은 1시간 이상 소요되는 경우가 많았고, 현장 도착 후에도 단독 서버들에 대한 부품 교체와 데이터를 복구하는데 장시간 소요되었다.

또한 지점마다 장비 제조사가 다른 경우가 많아 동시 다발적인 장애 발생 시 부품 재고 문제로 부품 수급 지연이 발생하였지만, 클라우드 도입 이후 이러한 데이터 백업 및 복구, 부품, 전산환경, 기타 문제가 대부분 해결되었다.

클라우드 전환 이후에도 발생한 장애는 상시 모니터링 직원이 클라우드 관리 센터를 통해 지역 거점 유지관리 업체 직원의 현장 출동 없이 대부분의 문제를 즉시 해결할 수 있어 서비스 중단 시간이 최소화 되었다.

OTNBBE_2023_v23n4_121_f0003.png 이미지

그림 3. 서비스 중단 시간

Fig. 3. Service Downtime

4. SLA 평가

클라우드 서비스 안정화를 위해서는 서비스 이용자의 데이터를 저장 보관하여 비상 시 활용할 수 있는 임치(Escrow) 제도가 필요하며, 클라우드 데이터 센터의 백업이나 업무 연속을 통하여 안정된 서비스를 제공할 수 있도록 하여야 한다. 또 다른 방법으로 안정된 서비스와 과금과의 관계 설정을 통하여 보다 높은 품질의 서비스에는 상응하는 요금을 지급하는 서비스 요금 체계를 갖추고 이를 서비스 제공자와 이용자 간에 계약에 의해서, 그리고 정량화하여 서비스 품질에 대한 만족을 제공할 수 있는 표준 SLA(Service Level Agreement) 제도를 활용하는 것도 대안이 될 수 있다[14].

SLA(Service Level Agreement:서비스 수준 협약)란, 정보시스템 수요자와 정보시스템 공급자 사이에 상호간 동의에 의하여 일정 수준의 서비스를 명시하고 이를 문서화한 계약서이다[15].

사례기업도 SLA 협약에 따라 발주자의 정보시스템 운영에 필요한 기대 서비스 수준을 서비스 평가 지표, 서비스 관리 지표로 선정하여, 계약상대자의 서비스 활동을 매월 평가하고 측정하고 있으며, “표 3. 평가지표 요약”을 보면 시스템 가동율은 배점 20점, 장애관리 영역은 배점 25점으로 전체 배점의 45%의 비중을 두고 있다.

표 3. 평가지표 요약

Table 3. Summary of Evaluation Indicators

OTNBBE_2023_v23n4_121_t0003.png 이미지

클라우드 전환 전인 2015년부터 2017년의 서비스 수준 측정 결과 “그림 4“를 보면 장애 발생으로 운영관리 평가지표와 장애관리 평가지표 세부항목 일부가 기대 수준 이하로 측정되어 서비스 수준 종합 점수가 낮아지는 것을 볼 수 있다.

OTNBBE_2023_v23n4_121_f0004.png 이미지

그림 4. 2015년~2017년 월별 서비스 수준 평가 결과

Fig. 4. Monthly SLA evaluation results from 2015 to 2017

하지만 클라우드 전환이 완료된 2021년부터 2022년의 월별 SLA평가 결과인 ”그림 5“를 보면 서비스 수준 종합점수는 2021년에는 최소 점수가 96.4점, 2022년에는 최소 점수가 98.4점으로 개선되었고 최대 점수 100점 달성 횟수도 크게 증가하였다.

OTNBBE_2023_v23n4_121_f0005.png 이미지

그림 5. 2021년~2022년 월별 서비스 수준 평가 결과

Fig. 5. Monthly SLA evaluation results from 2021 to 2022

Ⅲ. 결론

결론적으로 클라우드 시스템 환경으로 전환은 기존의 장애 요소를 제거하고 안정적인 시스템 운영을 제공하여 핵심 업무들에 대한 서비스 연속성을 확보할 수 있었다.

그 결과 서비스 수준 평가 점수도 상향되었고, 특히 관리가 어려웠던 전국에 분포된 426개의 단독서버를 클라우드 시스템으로 전환함에 따라 유지관리 효율성 확보와 비용 절감이 가능하게 되었다.

또한 신규 지점 구축 시 서버, 저장장치 등을 도입하기 위해 사업을 발주하고, 업체 선정을 통해 현장에 구축해야 하는 번거로운 작업이 클라우드 시스템 도입으로 민첩성과 확장성이 확보되어 시간과 노력이 대폭 절감되었다.

하지만 화재 등 재난 상황과 클라우드 저장장치 장애, 네트워크 장애 등 핵심장치에서 장애가 발생하면 지역 거점 클라우드 센터의 기능이 상실되고, 지역 거점 클라우드 센터에 포함된 전체 지점의 서비스가 중단되기 때문에 지역 거점별 클라우드 시스템 상호 DR 구축에 대한 논의가 필요하다.

참고문헌

  1. Chol-Hong Im, "A Study on Policies and Technologies to Promote the Use of Cloud Computing in the Public Sector", Journal of Information Technology and Architecture Vol. 18. No. 3, pp. 275-284, 2021 DOI: http://doi.org/10.22865/jita.2021.18.3.275
  2. Choi Sung, "A Study of IT competitiveness of SMEs by Cloud Services", The Journal of Digital Convergence, Vol. 11, No. 3, pp. 59-71, 2013 https://doi.org/10.14400/JDPM.2013.11.11.59
  3. Kim C.S, Kim, H.Y, Nam, G.H, "Development of Large-scale Cluster Management Technology for Cloud Services", The Journal Of Electronics and telecommunications trends, Vol. 24, No. 4, pp. 89-98, 2009 DOI: 10.22648/ETRI.2009.J.240408
  4. Jong Jin Le, "A Study of Cloud-based DDoS Attack Defence Mechanism", Journal of KIIT. Vol. 13, No. 10, pp. 91-98, Oct. 31, 2015 DOI : https://doi.org/10.14801/jkiit.2015.13.10.91
  5. Yong-Nyuo Shin, "A Study on ISMS-P Controls for Hyper Scale Cloud", The Journal of the Institute of Internet, Broadcasting and Communication, Vol. 23, No 3, pp. 19-26, 2023 DOI: https://doi.org/10.7236/JIIBC.2023.23.3.19
  6. Jung Hyeon Yoon, "A Study of the Systems Quality Effect on the Intention to Use of Cloud Computing Services in Information Center", The Journal of the Korean Society for Information Management, Vol. 28, No. 4, pp. 49-63 (15 pages), 2011 DOI: http://dx.doi.org/10.3743/KOSIM.2011.28.4.049
  7. Hyun Sun Kang, "A Study of Plans and Strategies for Cloud Computing Transformation", The Journal of Software Assessment and Valuation, Vol. 18, No. 2, pp. 115-123 (9 pages), 2022 DOI: https://doi.org/10.29056/jsav.2022.12.11
  8. Sang Cheou1 Park, Soon Jae Kwon,. "A Study on Factors Affecting the intention to switch for using cloud computing : A Case for Google docs", The Journal of Korea Society of IT Serviecs, pp. 481-490, 2010
  9. So Yeon Park, Yong Won Kim, (2013). "유Ubiquitous and Mobile Computing : An Analysiss of the Interaction Effect of Benefit and Cost on Cloud Computing Service", Korea Information Processing Society review, Vol. 2, No. 1, pp. 27-34 (8 pages), 2013 DOI : https://doi.org/10.3745/KTCCS.2013.2.1.027
  10. San Hyun Kim, Geun A Kim "An Empirical Study on the Factors Affecting the Adoption of Mobile Cloud and the Moderating Effect of Mobile Trust", The e-Bisinesss Studies, Vol. 12, No. 1, pp. 281-310, 2011 https://doi.org/10.15719/geba.12.1.201103.281
  11. San Hyun Kim, Geun A Kim , "An Empirical Study on the Influence of Environmental Determinants on the Mobile Cloud Computing Technology Usage and the Moderating Effects of Job Relevance", Journal of Information Technology Application &Management, Vo1. 18, No. 4, pp. 1-20. 2011 DOI: https://doi.org/10.21219/jitam.2011.18.4.001
  12. Hyeok-Jun Woo, Jeong-Hyun Shim, Jung-Hoon Lee. "A Study on Project Performance in Cloud Computing : Focus on User Experience of GoogleDocs", The Journal of Society for e-Business Studies, Vol. 16 No. 1 , pp. 71 - 100, 2011 DOI: https://doi.org/10.7838/jsebs.2011.16.1.07
  13. Jae Soo Lim, Soo Young Yun, Byung Seob Cho, Jae In Oh, "A Study on the Effect of the Characteristics of Cloud Computing Services on Perceived Expectancy Performance and Intention to Use -Focusing on the Innovation Diffusion Theory", Journal of Korea Society of Management information Systems, pp 311-332, 2012
  14. Choon-Sik Park, " Study on Security Considerations in the Cloud Computing", Journal of the Korea Academia-Industrial cooperation Society, Vol. 12, No. .3, Ppp. 1408-1416, 2011 DOI: https://doi.org/10.5762/KAIS.2011.12.3.1408
  15. Younghee Lee, (Jungrak Chun, Soonchul Lee, "A Research for Effective SLA Index Application : 3 application cases with main focus on Corporate W", The Journal of information technology applications & management, Vol. 11, No. 1, pp. 101 - 115, 2004