DOI QR코드

DOI QR Code

Design 5Q MPI Hardware Unit Supporting Standard Mode

표준 모드를 지원하는 5Q MPI 하드웨어 유닛 설계

  • 박재원 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 정원영 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 이승우 (한국전자통신연구원 OmniFlow 프로세서 팀) ;
  • 이용석 (연세대학교 전기전자공학과 프로세서 연구실)
  • Received : 2011.07.25
  • Accepted : 2011.12.28
  • Published : 2012.01.31

Abstract

The use of MPSoC has been increasing because of a rise of use of mobile devices and complex applications. For improving the performance of MPSoC, number of processor has been increasing. Standard MPI is used for efficiently sending data in distributed memory architecture that has advantage in multi processor. Standard In this paper, we propose a scalable distributed memory system with a low cost hardware message passing interface(MPI). The proposed architecture improves transfer rate with buffered send for small size packet. Three queues, Ready Queue, Request Queue, and Reservation Queue, work as previous architecture, and two queues, Small Ready Queue and Small Request Queue, are added to send small size packet. When the critical point is set 8 bytes, the proposed architecture takes more than 2 times the performance improvement in the data that below the critical point.

최근 모바일 장치의 사용의 증가와 복잡한 응용 프로그램의 사용이 증가하면서 MPSoC의 사용이 증가하고 있다. 이러한 MPSoC의 성능을 향상시키기 위해 프로세서의 수가 늘어나고 있는 추세이다. 다수의 프로세서 구조에서 장점이 있는 분산 메모리 구조의 효율적인 데이터 전달하기 위해서 표준 MPI를 이용한다. 표준 MPI는 소프트웨어로 제공되지만, 하드웨어로 구현하면 보다 높은 성능을 얻을 수 있다. 하드웨어로 구현된 MPI의 메시지 전송 방식으로 기존의 동기 방식(Synchronous Mode), 준비 방식(Ready Mode), 버퍼 방식(Buffered Mode)과 이 방식들을 혼합한 형태인 표준 방식(Standard Mode)가 있다. 본 논문에는 기존의 MPI 하드웨어 유닛에서 사용되던 구조에 작은 크기의 데이터를 선별하여 버퍼 방식으로 전송함으로써 전송율을 극대화 하였다. 기존의 구조에서 사용된 3개의 큐(Queue)는 그대로 같은 기능을 하고, 본 논문에서 추가된 2개의 큐(작은 준비 큐와 작은 요청 큐)을 추가하여 임계점보다 작은 크기의 데이터에 대한 처리와 저장을 담당하도록 하여 성능을 향상하였다. 제안된 구조에서 임계점을 32byte로 제한하였을 때 임계점 이하의 데이터에서 20%의 성능 개선 효과를 볼 수 있었다.

Keywords

References

  1. A. C. Klaiber, H. M. Levy, "A comparison of message passing and shared memory architectures for data parallel programs," Proceedings of the 21st annual international symposium on Computer architecture, Vol 22, pp 94-105, April 1994
  2. P. Stenstrom, "A Survey of Cache Coherence Schemes for Multiprocessors," Computer, Vol. 23, pp. 12-24, June 1990.
  3. L. Benini and G.de Micheli, "Networks On Chip: A New SoC Paradigm," IEEE Computer, Vol 35, No. 1, pp. 70-78, Jan. 2002
  4. F. Poletti, A. Poggiali, D. Bertozzi, L. Benini, P. Marchal, M. Loghi, and M. Poncino, "Energy-Efficient Multiprocessor Systems-on-Chip for Embedded Computing: Exploring Programming Models and Their Architectural Support," IEEE Transactions on Computers, Vol 56, May 2007
  5. F. Dumitrascu, I. Bacivarov, L. Pieralisi, M. Bonaciu, and A. Jerraya, "Flexible MPSoC platform with fast interconnect exploration for optimal system performance for a specific application," Design, automation and test in Europe: Designers' forum, pp. 166-171, 2006
  6. S. Han, A. Baghdadi, M. Bonaciu, S. Chae, and A. A. Jerraya, "An efficient scalable and flexible data transfer architecture for multiprocessor SoC with massive distributed memory," Proceedings of the 41st annual Design Automation Conference, San Diego, CA, USA, pp. 250-255, June 2004.
  7. 정하영, 정원영, 이용석, "MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계", 한국통신학회논문지, Vol. 36, No. 1, pp86-92, Jan, 2011
  8. AMBA AXI Specification, ARM Limited 2003.
  9. S. Mahadevan, F. Angiolini, M. Storgaard, R. G. Olsen, J. Sparso, and J. Madsen, "A Network Traffic Generator Model for Fast Network-on-Chip Simulation," Proceedings of the conference on Design, Automation and Test in Europe, Munich, Germany, vol.2, pp. 780-785, March 2005.