DOI QR코드

DOI QR Code

퀀텀 에스프레소와 제온 파이 프로세서의 융합을 이용한 분산컴퓨팅 성능에 대한 연구

A Study of Distribute Computing Performance Using a Convergence of Xeon-Phi Processor and Quantum ESPRESSO

  • 박영수 (공주대학교 컴퓨터공학과) ;
  • 박구락 (공주대학교 컴퓨터공학부) ;
  • 김동현 (우송대학교 IT융합학부)
  • Park, Young-Soo (Dept. of Computer Engineering, Kongju National University) ;
  • Park, Koo-Rack (Dept. of Computer Science & Engineering, Kongju National University) ;
  • Kim, Dong-Hyun (Dept. of IT Convergence, Woosong University)
  • 투고 : 2016.09.02
  • 심사 : 2016.10.20
  • 발행 : 2016.10.31

초록

최근 프로세서의 집적도는 급속도로 발전하고 있으나 클락 스피드는 증가하지 않는 대신에 프로세서 내의 코어 수가 늘어나고 있는 실정으로 프로그래밍 속도 향상을 위한 방법에 대한 연구가 필수적이라 할 수 있다. 이에 본 논문에서는 현재 연산 가속화를 위해 사용되는 매니 코어 프로세서의 대표적인 인텔 제온 파이의 성능 분석을 위하여 퀀텀 에스프레소를 활용하였다. 또한 제온 파이에서 MPI 실행시 랭크의 수를 변화시키면서 성능 벤치마킹을 수행하여 하드웨어적인 성능 특성을 연구하였다. 그 결과 물리 코어가 57개인 제온파이 프로세서의 하나의 코어당 4개의 작업을 처리할 때 가장 좋은 성능을 나타내고 있으며, 물리 코어 하나에 MPI 랭크수를 4개 이상 확장하면 성능향상이 거의 일어나지 않는다. 이러한 융합 기술을 통하여 퀀텀 에스프레소의 성능 향상과 제온 파이의 하드웨어적인 특성을 확인할 수 있다.

Recently the degree of integration of processor and developed rapidly. However, clock speed is not increased, a situation that increases the number of cores in the processor. In this paper, we analyze the performance of a typical Intel Xeon Phi of many core process used for the current operation accelerate. Utilizing the Quantum ESPRESSO, which was calculated using the FFTW library. By varying the number of ranks in MPI when running the benchmarks the performance Xeon Phi. The result shows a good performance in the handling of four job on one physical core. However, four or more to expand the number of MPI Rank is degraded. Through this convergence it was found to improve the performance of Quantum ESPRESSO. It is possible to check the hardware characteristics of the Xeon Phi.

키워드

참고문헌

  1. Asanovic, Krste, et al. "The Landscape of Parallel Computing Research: A View from Berkeley", Technical Report UCB/EECS-2006-183, EECS, Department, University of California, Berkeley, 2006
  2. H. J. Lee, E. J. Im, "SpMV on Xeon-Phi", Proceedings of the KIISE, pp. 42-44, 2014.
  3. Yang, Xiaoling, and Wenhua Yu. "Phi Coprocessor Acceleration Techniques for Computational Electromagnetics Methods", Applied Computational Electromagnetics Society Journal, Vol. 29, Issue 12, 2014.
  4. Heinecke A, Vaidyanathan K, Smelyanskiy M, et al. "Design and implementation of the linpack benchmark or single and multi-node systems based on intel xeon Phi coprocessor", Parallel & Distributed Processing (IPDPS), 2013 IEEE 27th International Symposium on. IEEE, pp. 126-137, 2013.
  5. Liu Y, Maskell DL, Schmidt B. "CUDASW++: optimizing Smith-Waterman sequence database searches for CUDA-enabled graphics processing units", BMC Research Notes, 2, 73, 2009. https://doi.org/10.1186/1756-0500-2-73
  6. Lan H, Liu W, Schmidt B, et al. "Accelerating large-scale biological database search on Xeon Phi-based neo-heterogeneous architectures", Bioinformatics and Biomedicine (BIBM), 2015 IEEE International Conference on. IEEE, pp. 503-510, 2015.
  7. Lu M, Zhang L, Huynh HP, et al. "Optimizing the mapreduce framework on intel xeon phi coprocessor", Big Data, 2013 IEEE International Conference on. IEEE, pp. 125-130, 2013.
  8. M. Bernaschi, M. Bisson, and F. Salvadore, "Multi-Kepler GPU vs. multi-Intel MIC for spin systems simulations", Computer Physics Communications, vol. 185, no. 10, pp. 2495-503, 2014. https://doi.org/10.1016/j.cpc.2014.05.026
  9. A. Taflove and S. Hagness, "Computational electromagnetics: the finite-difference timedomain method", 3rd ed., Artech House, Norwood, MA, 2005.
  10. W. Yu, X. Yang, Y. Liu, et al., "Parallel finite difference time-domain method", Artech House, Norwood, MA, 2006.
  11. W. Yu, X. Yang, and W. Li, "VALU, AVX, GPU acceleration techniques for parallel finite difference time domain methods", SciTech Publisher Inc., Raleigh, NC, 2013.
  12. A. Elsherbeni and V. Demir, "The finite difference time domain method for electromagnetics: with MATLAB simulations", SciTech Publisher Inc., Raleigh, NC, 2009.
  13. J. M. Jin, "The finite element method in electromagnetics", (2nd edition), New York: John Wiley & Sons, 2002.
  14. M. Frigo, S. G. Johnson, "The Design and Implementation of FFTW3", Proceedings of the IEEE 93(2), pp. 216-231, 2005. https://doi.org/10.1109/JPROC.2004.840301
  15. Lan, Haidong, et al., "Parallel algorithms for large-scale biological sequence alignment on Xeon-Phi based clusters", IEEE International Conference on Bioinformatics and Biomedicine 2015 Washington, DC, USA. pp. 9-12, 2015.