Performance Analysis of Highly Available Cold Standby Cluster Systems

가용성이 높은 Cold Standby 클러스터 시스템의 성능 분석

  • 박기진 (아주대학교 컴퓨터공학과) ;
  • 김성수 (아주대학교 정보통신전문대학원)
  • Published : 2001.04.01

Abstract

고가용도 클러스터 시스템에서 가동되는 인터넷 기반 소프트웨어의 복잡도가 증가됨에 따라 소프트웨어의 설계, 구현, 또는 그 밖의 여러 가지 원인과 관련된 결함으로 인하여 시스템 서비스의 오동작 또는 수행 중단으로 이어지는 사례가 늘어나고 있다. 특히 대량 트랜잭션을 처리하는 인터넷 기반 컴퓨팅 소프트웨어는 빈번한 통신 두절과 데이터 유실로 인하여, 이들이 탑재된 클러스터 시스템의 결함 발생이 더욱 심각할 가능성이 높다. 본 연구는 소프트웨어 재활 결함 허용 기법을 활용하여, 별도의 추가되는 하드웨어 없이도 가용도를 개선할 수 있다는 '소프트웨서 재활 기법을 적용한 다중계 시스템 가용도 분석'에 관한 논문에서 언급된 문제점들에 대한 해결 방안을 제시하였으며, 구체적으로는 1) 주서버의 고장 발생시 여분서버로의 작업전이(switchover) 상태를 클러스터 시스템 모델링에 포함시켰으며, 2) 작업전이 상태와 재활(rejuvenation) 상태에서 머무는 시간을 지수분포 대신에 k-stage Erlangian 분포를 사용하여 확정시간(deterministic time)을 표현할 수 있도록 하였다. 즉 본 논문에서는 고가용도 cold standby 클러스터 시스템의 운영 상태에 대한 상태전이도(state transition diagram)에서, 임의의 상태에서 머무는 시간분포가 memoryless 성질을 만족하지 않아도 되는 semi-Markov 프로세스 문제를 해결하였다.

Keywords

References

  1. 김춘길, '전자상거래의 개념과 발전방향', 정보과학회지 제16권, 제5호, pp. 5-10, 1998. 5
  2. H. Zhu, T. Yang, Q. Zheng, D. Watson, O. Ibarra and T. Smith, 'Adaptive Load Sharing for Clustered Digital Library Servers,' Proceedings of the Seventh IEEE International Symposium on High Performance Distributed Computing, July, 1998 https://doi.org/10.1109/HPDC.1998.709977
  3. D. Anderson, T. Yang and O.H. Ibarra, 'Toward a Scalable Distributed WWW Server on Workstation Clusters,' Journal of Parallel and Distributed Computing, Vol. 42, pp. 91-100, 1997 https://doi.org/10.1006/jpdc.1997.1305
  4. R. Buyya, High Performance Cluster Computing Volume 1: Architectures and System, p. 849, Prentice-Hall, 1999
  5. 오수철, 정상화, '클러스터 시스템의 기술 동향', 정보과학회지 제18권, 제3호, pp. 4-10, 2000.3
  6. 유찬수, '리눅스 클러스터링', 정보과학회지 제18권, 제2호, pp. 33-39, 2000. 2
  7. H. Levendel, 'Software Dependability in Wireless Systems,' Annual IEEE Workshop on Fault Tolerant Parallel and Distributed Systems, San Juan, Puerto Rico, USA, April 16, 1999
  8. 권세오, 김상식, 김동승, '리눅스 클러스터형 웹 서버설계', 정보과학회지 제18권, 제3호, pp. 48-56, 2000. 3
  9. G. F. Pister, 'In Search of Cluster,' Prentice-Hall, 1998
  10. B. Johnson, Design and Fault-Tolerant Analysis of Digital Systems, p. 584, Addison-Wesley Publishing Company, 1989
  11. N. Talagala and D. Patterson, 'An analysis of error behavior in a large storage system,' IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems, pp. 28-51, San Juan, Puerto Rico, Apr. 1999
  12. R. Jain, The Art of Computer Systems Performance Analysis. p. 685, John Wiley & Sons Inc., 1991
  13. I. Lee and R. Iyer, 'Software dependability in the Tandem GUARDIAN System,' IEEE Transactions on Software Engineering, Vol. 21, No. 5, pp. 455-467, May 1995 https://doi.org/10.1109/32.387474
  14. S. Garg, A. Puliafito, M. Telek and K. Trivedi, 'On the analysis of software rejuvenation policies,' Proc. 12th Annual Conference on Computer Assurance(COMPASS), June 1997 https://doi.org/10.1109/CMPASS.1997.613248
  15. S. Garg, A. Puliafito, M. Telek and K. Trivedi, 'Analysis of Preventive maintenance in transaction based software systems,' IEEE Transactions on Computers, Vol. 47, No. 1, pp. 96-107, Jan. 1998 https://doi.org/10.1109/12.656092
  16. A. Pfening, S. Garg, M. Telek, A. Puliafito and K. Trivedi, 'Optimal rejuvenation for tolerating soft failures,' Performance Evaluation, Vol. 27 & 28, North-Holland, pp. 491-506, Oct. 1996 https://doi.org/10.1016/S0166-5316(96)90042-5
  17. Y. Huang, C. Kintala, N. Kolettis and N. Fulton, 'Software rejuvenation : analysis, module and applications,' Proceedings of the 25th International Symposium on Fault Tolerant Computing(FTCS-25), Pasadena, CA, pp. 381-390, June 1995 https://doi.org/10.1109/FTCS.1995.466961
  18. K. Vo, Y. Wang, P. Chung, and Y. Huang, 'Xept : A Software Instrumentation Method for Exception Handling,' in Proc. Int. Symp. on Software Reliability Engineering, Nov. 1997 https://doi.org/10.1109/ISSRE.1997.630848
  19. S. Garg, Y. Huang, C. Kintala and K. Trivedi, 'Time and Load based software rejuvenation : policy, evaluation and optimality,' Proc. of the First Conference on Fault tolerant systems, Madras, India, Dec. 1995
  20. Y. Huang, C. Kintala and Y. Wang, 'Software tools and libraries for fault tolerance,' Bulletin of the Technical committee on Operating Systems and Application Environment(TCOS), Vol. 7, No. 4, pp. 5-9, Winter 1995
  21. 박기진, 김성수, 김재훈, '소프트웨어 재활 기법을 적용한 다중계 시스템의 가용도 분석', 한국정보과학회 논문지(시스템및이론), 제27권, 제8호, pp. 730-741, 2000. 8
  22. L. Kleinrock, Queueing Systems Volume 1 : Theory. p. 417, John Wiley & Sons Inc., 1975
  23. K. Trivedi, Probability and statistics with Reliability, Queueing and Computer Science Applications. p. 624, Prentice-Hall, 1982