PoLAPACK : Parallel Factorization Routines with Algorithmic Blocking

PoLAPACK : 알고리즘적인 블록 기법을 이용한 병렬 인수분해 루틴 패키지

  • Published : 2001.06.01

Abstract

본 논문에서는 분산메모리를 가진 병렬 컴퓨터에서 밀집 행렬 연산을 위한 PoLAPACK 패키지를 소개한다. PoLAPACK은 새로운 연산 기법을 적용한 LU, QR, Cholesky 인수분해 알고리즘들을 포함하고 있다. 블록순환분산법으로 분산되어 있는 행렬에 알고리즘적인 블록 기법(algorithimic blocking)을 적용하여, 실제 행렬의 분산에 사용된 블록의 크기와 다른, 최대의 성능을 보일 수 있는 최적의 블록 크기로 연산을 수행할 수 있다. 이러한 연산 방식은 분산되어 있는 원래의 행렬 A의 순서를 따르지 않으며, 따라서 최적의 블록 크기로 연산을 수행한 후에 얻어진 해 x를 원래 행렬 분산법을 따라서 재배치하여야 한다. 본 연구는 Cray T3E 컴퓨터에서 구현하였으며 ScaLAPACK의 인수분해 루틴들과 그 성능을 비교.분석하였다.

Keywords

References

  1. Jaeyoung Choi, Jack J. Dongarra, Susan Ostrouchov, David W. Walker, and R. Clint Whaley, 'The Design and Implementation of the ScaLAPACK LU, QR, and Cholesky Factorization Routines,' Scientific Programming, Vol.5, pp.173-184, 1996
  2. J. Dongarra and S. Ostrouchov, 'LAPACK Block Factorization Algorithms on the Intel iPSC/860,' LAPACK WOrking Note 24, Technical Report CS-90-I15, University of Tennessee, 1990
  3. J. Choi, J. Dongarra, and D. Walker, 'The Design of Scalable Software Libraries for Distributed Memory Concurrent Computers,' Proceedings of Environment and Tools for Parallel Scientific Computing Workshop, (Saint Hilaire du Touvet, France), pp.3-15. Elsevier Science Press Publishers, Sept. 7-8, 1992
  4. V. Kumar, A. Grama, A. Gupta, and G. Karypis, 'Introduction to Parallel Computing,' The Benjamin/Cummings Publishing Co. Redwood City, CA. 1994
  5. Jaeyoung Choi, Jack J. Dongarra, and David W. Walker, 'PUMMA: Parallel Universal Matrix Multiplication Algorithms on Distributed Memory Concurrent Computers,' Concurrency: Practice and Experience, Vol.6, No.7, pp.543-570, October, 1994
  6. R. van de Geihn and J. Watts, 'SUMMA: Scalable Universal Matrix Multiplication Algorithm,' LAPACK WOrking Note 99, Techinical Report CS 95-286, University of Tennessee, 1995
  7. Jaeyoung Choi, 'A New Parallel Universal Matrix Multiplication Algorithm on Distributed-Memory Concurrent Computers,' Concurrency: Practice and Experience, Vol.10, No.8, pp.655-670, August, 1998 https://doi.org/10.1002/(SICI)1096-9128(199807)10:8<655::AID-CPE369>3.0.CO;2-O
  8. W. Lichtenstein and S. L. Johnsson, 'Block-Cyclic Dense Linear Algebra,' SIAM J. of Sci. Stat. Computing, 14 (6), pp.1259- 1288, 1993 https://doi.org/10.1137/0914075
  9. P. V. Bangalore, The Data Distribution- Independent Approach to Scalable Parallel Libraries, Master Thesis, Mississippi State University, 1995
  10. L. S. Blackford, J. Choi, A. Cleary, J. Demmel, I. Dhillon, J. Dongarra, S. Hammarling, G. Henry, K. Stanley, D. Walker, and R. C. Whaley, 'ScaLAPACK, A Portable Linear Algebra Library for Distributed Memory Computers-Design Issues and Performance,' Proceedings of the Supercomputer 96, November 1996, IEEE Computer Society Press, 1996
  11. L. S. Blackford, J. Choi, A. Cleary, E. D'Azevedo, J. Demmel, I. Dhillon, J. Dongarra, S. Hammarling, G. Henry, A. Petitet, K. Stanley, D. Walker, R. C. Whaley, 'ScaLAPACK Users' Guide,' SIAM, Philadelphia, 1997
  12. G. Li and T. F. Coleman, 'A Parallel Triangular Solver for a Distributed-Memory Multiprocessor,' SIAM J. of Sci. Stat. Computing, Vol. 9, pp.485-502, 1986 https://doi.org/10.1137/0909032