The Design and Implementation of RISE for Managing a Large Scale Cluster in Distributed Environment

분산 환경의 대규모 클러스터를 관리하기 위한 RISE 시스템의 설계 및 구현

  • Published : 2006.07.01

Abstract

In this paper, the way of remote installation and back-up of 3-tier structure is introduced for efficient utilizing the cluster system resources distributed at several places. Recently, cluster system is constructed as the system of over hundreds nodes under complex network system mixed with public networks and private networks. Therefore, the as installation method suitable for the large scale cluster system and the remote recovery of failure nodes are important. However the previous researches which are based on 2-tier architecture may not provide the efficient cluster installation and image back-up method when the network of cluster system is composed of several private networks and public networks. In this paper, RISE (Remote Installation Service and Environment) based on the 3-tier architecture is proposed to solve this problem. In our approach, the managing node's role is divided into the global master node (GRISE) and the local master node (LRISE) to provide the efficient initial system deployment and remote failure recovery of distributed cluster system under the various network systems. Also, LRISE's availability is ensured under the complex network environments by adopting the auto-synchronization mechanism between GRISE and LRISE. In this work, a 64-node cluster system with gigabit network system is utilized for the experiment. From the experimental result, the system image with 1.86GB data can be obtained in 5 minutes and 53 seconds and the image-based installation of 64-node system can be carried out in 17 minutes and 53 seconds.

본 논문에서는 지리적으로 분산되어 있는 클러스터 시스템자원들을 효율적으로 활용하기 위한 3-tier 구조의 원격 설치 및 백업 방안을 소개한다. 최근에는 클러스터 시스템이 수백 노드 이상의 대규모 시스템이며, 공인망과 사설망이 혼재되는 복잡한 네트워크 환경으로 구성되고 있다. 따라서, 대규모 클러스터 시스템에 적합한 클러스터의 OS 설치와 원격지에서 클러스터 노드의 장애를 효과적으로 복구하는 것이 중요하다. 하지만 기존의 2-tier 구조의 클러스터 설치 및 이미지 백업 방법들은 공인망과 사설망으로 구성되어 있는 클러스터의 경우, 원격지에서 접근과 관리가 어렵다. 이러한 문제점을 해결하고자 본 논문에서는 3-tier 구조의 RISE(Remote Installation Service Environment) 시스템을 제안하고자 한다. RISE 시스템은 2-tier 구조의 마스터 노드 역할을 관리노드(GRISE)와 지역관리노드(LRISE)로 나누어줌으로써 다양한 네트워크환경하에서 초기설치 및 장애 발생시 효과적으로 지원할 수 있으며, 관리노드와 지역관리 노드들의 동기화 기능을 통해 지역관리노드들의 안정성을 보장하고 있다. 64개 노드의 클러스터 시스템과 Gigabit 네트워크 시스템을 활용한 실험을 통하여, 1.86 GByte의 시스템 이미지를 5분 53초 안에 확보 할 수 있었고, 64개 노드 클러스터 시스템의 초기설치 작업을 평균 17분 38초 안에 완료할 수 있었다.

Keywords

References

  1. Top500 supercomputer sites, http://www.top500.org/
  2. Martin Hamilton. Red Hat Linux Kick-Start HOWTO, http://www.cache.ja.net/dev/kickstart/KickStart-HOWTO.html
  3. J. Squyres, S. Scott, M. Chase-Salerno, S. Dague, N. Gorsuch (Open Cluster Group), Open Source Cluster Application Resources (OSCAR). http://oscar.sourceforge.net
  4. M.J. Katz, P.M. Papadopoulos, G. Bruno, Leveraging standard core technologies to programmatically build Linux cluster appliances, Fourth IEEE International Conference on Cluster Computing, Chicago, IL, September 2002, pp. 47-53
  5. B. Finley, S. Dague, M. Chase-Salerno, D. Frazier, System Installation Suite (SIS). http://sisuite.org
  6. JavaServer Pages, http://java.sun.com/products/jsp/
  7. Servlet, http://java.sun.com/products/servlet/
  8. Apache Software Foundation, http://jakarta.apache.org/tomcat
  9. The Python Language Home Page, http://www.python.org
  10. PostgreSQL Home Page, http://www.postgresql.org
  11. XML package for Python, http://pyxml.sourceforge.net/
  12. Intel Corporation, Preboot execution environment (pxe) specification, http://www.intel.com/design/archives/wfm/downloads/pxespec.htm
  13. Sollings K. R., Trivial File Transfer (TFTP) Protocol, Version 2, Internet Request for Comments (RFC) July 1992
  14. Partimage, http://www.partimage.org/
  15. Sam Chessman, http://www.linuxjournal.com/article/1320