Fault-Free Process for IT System with TRM(Technical Reference Model) based Fault Check Point and Event Rule Engine

기술분류체계 기반의 장애 점검포인트와 이벤트 룰엔진을 적용한 무장애체계 구현

  • 현병탁 (LG CNS 서비스 사업부) ;
  • 김태우 (LG CNS 컨설팅 부문) ;
  • 엄창섭 (LG CNS 엔지니어링서비스부문) ;
  • 서종현 (한국산업기술대학교 e-비즈니스학과)
  • Received : 2010.08.10
  • Accepted : 2010.12.15
  • Published : 2010.12.31

Abstract

IT Systems based on Global Single Instance (GSI) can manage a corporation's internal information, resources and assets effectively and raise business efficiency through consolidation of their business process and productivity. But, It has also dangerous factor that IT system fault failure can cause a state of paralysis of a business itself, followed by huge loss of money. Many of studies have been conducted about fault-tolerance based on using redundant component. The concept of fault tolerance is rather simple but, designing and adopting fault-tolerance system is not easy due to uncertainty of a type and frequency of faults. So, Operational fault management that working after developed IT system is important more and more along with technical fault management. This study proposes the fault management process that including a pre-estimation method using TRM (Technical Reference Model) check point and event rule engine. And also proposes a effect of fault-free process through built fault management system to representative company of Hi-tech industry. After adopting fault-free process, a number of failure decreased by 46%, a failure time decreased by 56% and the Opportunity loss costs decreased by 77%.

글로벌 싱글 인스턴스(GSI) 기반의 기업의 정보시스템은 기업 내부정보 및 자원/자산을 통합관리하고 프로세스의 동질성을 확보하여 업무의 효율성 및 전사적인 생산성을 향상시키고 있지만 정보시스템의 장애가 발생하게 되면 비즈니스가 마비될 수 있고 그로 인해 엄청난 금전적 손실이 따르는 위험을 동시에 안고 있다. 여분의 부품 사용을 전제하는 수많은 결함허용(Fault-Tolerance) 기법들이 안정적인 정보시스템을 위해 연구되어 왔다. 결함허용 기법의 설계 및 적용의 어려운 점은 결함의 유형 및 빈도를 정보시스템을 운영하기 전에는 알기 어렵다는 것이다. 따라서 정보시스템 구축 단계에서의 결함허용 기법의 적용과 함께, 구축 후, 운영적인 측면에서의 장애관리 기법을 동시에 고려하여 안정적으로 정보시스템을 운영하는 것이 매우 중요하다. 본 연구에서는 기술분류체계(TRM)기반의 점검포인트와 이벤트 룰엔진 적용으로 시스템 장애를 사전예측 하는 방법을 포함하는 정보시스템 장애관리 기법인 무장애체계 프로세스를 제시 하였다. 또한, 무장애체계 방법을 적용한 장애관리 정보시스템(PICS)을 하이테크 장치산업의 대표기업에 구축하여 무장애체계 방법 적용 전, 후의 효과도 함께 제시 하였다. 무장애체계 도입 후 월별 장애건수, 장애시간은 각각 46%, 56% 감소하였으며, 장애로 인한 매출에 대한 기회 손실금액은 77% 절감하는 효과를 보였다.

Keywords

References

  1. 김문회, "결함허용 시스템의 설계 고려사항 및 동향", 한국정보과학지, 제11권, 제3호, 1993, pp. 7-16.
  2. 김승남, 박민현, 한욱표, 정연중, "실시간 모니터링 기술을 이용한 웹서버 장애관리 시스템", 강원대학교, 2006.
  3. 박선철, 이원영, "정보시스템 장애요인 분석을 통한 운영 프로세스 개선안 연구", 한국경영과학회, 추계학술대회논문집, 2008, pp. 136-140.
  4. 백운기, "애플리케이션 거버넌스는 GSI 환경의 필수", CIO BIZ, 2010.
  5. 신용우, 안영덕, "IT Governace 실현을 위한 통합 ITMS 구축 방안", SAMSUNG SDS Consulting Review, 제2권, 2006, pp. 54-68.
  6. 이치헌, 강승원, 서종현, "Global Single Instance 기반의 ERP 시스템 통합 Framework", Entrue Journal of Information Technology, 제6권, 제2호, 2007, pp. 127-138.
  7. 정보통신산업진흥원, "정보시스템 장애처리 지침", 2005.
  8. 정아주, 박준상, 이상우, 김명섭, "SNMP를 이용한 실시간 장애관리 시스템의 개발", 한국정보처리학회, 제16권, 제1호, 2009, pp. 1317-1320.
  9. 조성민, 한혁수, "CMMI 기반의 결함 분석 및 통제 시스템 개발", 인터넷정보학회논문지, 2007, pp. 15-22.
  10. 홍지윤, 조광문, "생산 자동화 시스템 운영에서의 장애 검출 방안", 한국콘텐츠학회, 제1권, 제2호, 2003, pp. 167-170.
  11. Brian, R., Netscout Systems Survey, 2007.
  12. lsermann, R. and P. Ball, "Trends in The Application of Model-Based Fault Detection and Diagnosis of Technical Processes", Control Eng. Practice, Vol.5, No.5, 1997, pp. 709-719. https://doi.org/10.1016/S0967-0661(97)00053-1
  13. Johnson, B. W., Design and Analysis of Fault Tolerant Digital Systems, Addison Wesley, 1989.
  14. Kim, K. H., "Design of Real-Time Fault Tolerant Computing Stations", Lecture Note in the NATO Advanced Science Institute on Real-Time Computing, Sint Maarten, 1992.
  15. Laprie, J.-C. et al., "Definition and Analysis of Hardware and Software-Fault-Tolerant Architectures", Computer, 1990, pp. 39-51.
  16. Randell, B., "System Structure for Software fault tolerance", IEEE Trans, on Software Engr, 1975, pp. 220-232.