DOI QR코드

DOI QR Code

Design and Implementation of National Supercomputing Service Framework

국가 슈퍼컴퓨팅 서비스 프레임워크의 설계 및 구현

  • 유정록 (한국과학기술정보연구원 슈퍼컴퓨팅본부) ;
  • 변희정 (수원대학교 정보통신공학과) ;
  • 김한기 (한국과학기술정보연구원 슈퍼컴퓨팅본부)
  • Received : 2016.09.13
  • Accepted : 2016.09.29
  • Published : 2016.12.15

Abstract

Traditional supercomputing services suffer from limited accessibility and low utilization in that users(researchers) may perform computational executions only using terminal-based command line interfaces. To address this problem, in this paper, we provide the design and implementation details of National supercomputing service framework. The proposed framework supports all the fundamental primitive functions such as user management/authentication, heterogeneous computing resource management, HPC (High Performance Computing) job management, etc. so that it enables various 3rd-party applications to be newly built on top of the proposed framework. Our framework also provides Web-based RESTful OpenAPIs and the abstraction interfaces of job schedulers (as well as bundle scheduler plug-ins, for example, LoadLeveler, Open Grid Scheduler, TORQUE) in order to easily integrate the broad spectrum of heterogeneous computing clusters. To show and validate the effectiveness of the proposed framework, we describe the best practice scenario of high energy physics Lattice-QCD as an example application.

기존의 슈퍼컴퓨팅 서비스는 사용자(연구자)가 쉘 터미널을 통해 로그인 서버에 접속하여 커맨드 라인에서 계산 작업을 수행하는 단순한 형태를 띠고 있으며, 이는 컴퓨팅 자원에 대한 접근성 및 활용성을 저해하는 주요 요소이다. 이러한 문제점을 해결하고, 슈퍼컴퓨팅 서비스의 다양성을 제공하기 위하여 본 논문에서는 국가 슈퍼컴퓨팅 서비스 프레임워크의 설계 및 구현에 대해 상세히 기술한다. 제안된 프레임워크는 사용자 관리 및 인증, 이기종 컴퓨팅자원 관리, HPC(High Performance Computing) 작업 관리 등의 기능에 대해 HTTP 방식의 RESTful OpenAPI들을 제공함으로써, 슈퍼컴퓨터 자원과 연계하여 새로운 서비스를 만들고자 하는 개발자들이 편리하게 원하는 서비스를 만들 수 있는 기능을 제공한다. 또한 다양한 이기종 클러스터 자원을 활용하여 HPC 작업을 수행할 수 있도록 플러그-인 기반 표준 인터페이스 및 확장 플러그-인(LoadLeveler, Open Grid Scheduler(OGS), TORQUE)을 제공한다. 아울러, 본 논문에서는 제안한 프레임워크의 유용성을 검증하기 위해, 고에너지 물리 분야의 Lattice-QCD 프로그램을 활용한 적용 사례를 기술한다.

Keywords

Acknowledgement

Supported by : 한국과학기술정보연구원, 한국연구재단

References

  1. Xiaoyu Yang, et. al., "Cloud computing in e-Science: research challenges and opportunities," The Journal of Supercomputing, Vol. 70, Issue 1, pp. 408-464, 2014. https://doi.org/10.1007/s11227-014-1251-5
  2. John Towns, et. al., "XSEDE: Accelerating Scientific Discovery," Computer Science Engineering, 16, 62, 2014.
  3. Dooley, Rion, et al., "Software-as-a-Service: The iPlant Foundation API," 5th IEEE Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS). IEEE, 2012.
  4. Cholia, Shreyas, and Terence Sun, "The NEWT platform: an extensible plugin framework for creating ReSTful HPC APIs," Proc. of the 9th Gateway Computing Environments Workshop, IEEE Press, 2014.
  5. RESTful Web APIs, [Online]. Available: http://en.wikipedia.org/wiki/Representational_state_transfer
  6. LoadLeveler [Online]. Available: http://www-03.ibm.com/systems/power/software/loadleveler/
  7. Open Grid Scheduler [Online]. Available: http://gridscheduler.sourceforge.net/
  8. TORQUE, [Online]. Available: http://www.adaptivecomputing.com/products/open-source/torque/
  9. Jung-Lok Yu, et. al., "EDISON Platform: A Software Infrastructure for Application-Domain Neutral Computational Science Simulations," Future Information Communication Technology and Applications( ICFICE), pp. 283-291, 2013.
  10. RabbitMQ, [Online]. Available: http://www.rabbitmq.com/
  11. Pyramid web framework, [Online]. Available: http://www.pylonsproject.org/
  12. SQLAlchemy: The Python SQL Toolkit and Object Relational Mapper, [Online]. Available: http://www.sqlalchemy.org
  13. Ganglia Monitoring System, [Online]. Available: http://ganglia.sourceforge.net/
  14. Yapsy: Yet Another Plugin SYstem, [Online]. Available: http://yapsy.sourceforge.net/
  15. saga-python, [Online]. Available: http://radical-cybertools.github.io/saga-python/
  16. HanGi Kim, JungLok Yu, "A development of SAGA Python based LoadLeveler adaptor," KIISE 2013 FALL CONFERENCE, pp. 61-62, 2013.