Abstract
Cluster systems have been widely used for solving problems in various application domains, and regarded as useful high performance computing resources. As the number of cluster system user is increasing, it is no less important to maintain stable operation than to improve cluster system performance. Although hardware preventive maintenance is important for keeping normal operation, the testing tool which can be used for general cluster systems during maintenance has received little attention. In this Paper, considering hardware Preventive maintenance, we suggest a testing tool for hardware of cluster system. The cluster system testing tool which is named CTS(Cluster system Test Suite) has two check routines; one for memory, and the other for NIC respectively. The CTS is designed to support the common features of general cluster systems and all the Jobs such as setting test conditions to querying the results can be done entirely within an integrated GUI environment. CTS is used as the testing tool for two kinds of cluster systems during maintenance, and the experimental results show that CTS reports useful information for cluster systems management.
현재 클러스터 시스템은 여러 분야의 문제들을 위하여 폭 넓게 이용되어지고 있으며 유용한 고성능 컴퓨팅 자원으로 인식되고 있다. 클러스터 시스템의 사용자가 늘어남에 따라 클러스터 시스템의 성능 개선 못지 않게 안정적인 운영을 유지하는 것도 중요한 상황이다. 하드웨어 예방 정비가 정상 운영을 위해서 중요한 것임에도 불구하고, 예방 점검 시간에 일반적인 클러스터 시스템을 위하여 사용될 수 있는 검사 도구는 주요 관심사가 되지 못했다. 본 논문에서는 하드웨어 예방 정비를 고려하여 클러스터 시스템을 위한 하드웨어 검사 도구를 제안한다. CTS(Cluster system Test Suite)로 명명된 클러스터 시스템 검사 도구는 메모리와 NIC를 점검하기 위한 두개의 검사 루틴을 가지고 있다. CTS를 설계시, CTS가 일반 적인 클러스터 시스템이 가지는 공통된 특징을 지원하도록 노력하였으며 검사 조건 설정에서 결과 조회까지 모든 작업은 통합 GUI 환경에서 진행될 수 있도록 하였다. 두 종류의 클러스터 시스템을 점검할 때, CTS를 사용하였고 클러스터 시스템을 관리하는데 유용한 정보가 제공됨을 확인하였다.