KOKKOS 환경에서의 병렬 숄레스키 분해 구현

Implementation of Parallel Cholesky Decomposition in the Kokkos environment

  • 강준범 (건국대학교 컴퓨터공학과) ;
  • 이명호 (명지대학교 컴퓨터공학과) ;
  • 박능수 (건국대학교 컴퓨터공학과)
  • Junbeom Kang (Dept. of Computer Science and Engineering, Konkuk University) ;
  • Myungho Lee (Dept. of Computer Science and Engineering, Myongji University) ;
  • Neungsoo Park (Dept. of Computer Science and Engineering, Konkuk University)
  • 발행 : 2024.10.31

초록

최근 병렬컴퓨팅 연구는 슈퍼컴퓨터의 성능 향상에 직접 큰 영향을 끼치는 고성능 GPU를 활용한 대형 데이터셋 고속 병렬화를 중점적으로 진행되고 있다. 이를 해결하기 위해 Sandia 연구소에서 개발한 Kokkos 프로그래밍 모델이 등장했다. 이 논문에서는 CUDA 기반의 병렬 숄레스키 분해 구현을 해당 환경에 이식했을 때 어떤 성능을 보이는지 실험을 통해 확인했다. 1000×1000 크기의 양의 정부호 에르미트 행렬에 대해서 직렬 숄레스키 분해 프로그램 대비 498.16 배의 성능 향상을 보였으며, 이를 통해 자동으로 메모리를 관리하는 Kokkos 프로그래밍 모델이 추후 대형 데이터셋을 대상으로 하는 병렬화 프로그램 구현 시, 더욱 편리하고 좋은 성능 향상을 보일 것임을 기대한다.

키워드

과제정보

본 연구는 과학기술정보통신부의 재원으로 한국연구 재단의 지원 사업(RS-2023-00321688)과 정보통신기획 평가원의 정보통신방송혁신인재양성(메타버스융합대학원)사업(IITP-2024-RS-2023-00256615)의 연구 결과로 수행되었음

참고문헌

  1. Jack Dongarra et al, "The International Exascale Software Project Roadmap 1", The International Journal of High Performance Computing Applications 25, p3-60, 2011
  2. "Kokkos", (Aug 01, 2024), https://kokkos.org
  3. 권오경, "Kokkos 프로그래밍 모델", 국가슈퍼컴퓨팅연구소, Nov. 2015
  4. "The Kokkos EcoSystem", (Jul 26, 2020), Kokkos tutorial https://github.com/kokkos/kokkostutorials/blob/main/Intro-Short/KokkosTutorial_Short.pdf
  5. Aravindh Krishnamoorthy, Deepak Menon, "Matrix Inversion Using Cholesky Decomposition", [Signal Processing Algorithms, Architectures, Arrangements and Applications(SPA)], Poland, 2013, p70-72