DOI QR코드

DOI QR Code

The Design of Hardware MPI Units for MPSoC

MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계

  • 정하영 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 정원영 (연세대학교 전기전자공학과 프로세서 연구실) ;
  • 이용석 (연세대학교 전기전자공학과 프로세서 연구실)
  • Received : 2010.09.16
  • Accepted : 1010.12.30
  • Published : 2011.01.31

Abstract

In this paper, we propose a novel hardware MPI(Message Passing Interface) unit which supports message passing in multiprocessor system which use distributed memory architecture. MPI Hardware unit processes data synchronization, transmission and completion, and it supports processor non-blocking operation so it reduces overhead according to synchronization. Additionally, MPI hardware unit combines ready entry, request entry, reserve entry which save and manage the synchronized messages and performs the multiple outstanding issue and out of order completion. According to BFM(Bus Functional Model) simulation result, the performance is increased by 25% on many to many communication. After we designed MPI unit using HDL, with synopsys design compiler we synthesized, and for synthesis library we used MagnaChip $0.18{\mu}m$. And then we making prototype chip. The proposed message transmission interface hardware shows high performance for its increase in size. Thus, as we consider low-cost design and scalability, MPI hardware unit is useful in increasing overall performance of embedded MPSoC(Multi-Processor System-on-Chip).

본 논문에선 분산 메모리 아키텍처를 사용하는 멀티프로세서 시스템에서 메시지 전달을 지원하는 하드웨어 MPI(Message Passing Interface) 유닛을 설계하였다 데이터 전송 동기화 및 데이터 전송, 완료까지의 과정을 하드웨어 MPI 유닛이 담당하여 동기화에 따른 오버헤드를 경감시켰다. 또한 동기화 메시지를 저장 관리하는 요청 큐(Request Queue), 준비 큐(Ready Queue), 예약 큐(Reserve Queue)를 내장하여 병렬적으로 입력받은 동기화 메시지를 관리하고 비순차적 종료(out of order completion)을 지원한다. BMF(Bus Functional Medel)을 제작해 제안한 구조에서의 전송 대역폭 성능을 확인한 결과 다대다 통신에서 25% 이상의 성능 향상이었음을 확인할 수 있었다. 그 후 HDL로 기술된 하드웨어를 Magnachip 0.18 공정 라이브러리에서 합성하였으며 프로토 타입 chip으로 제작하였다. 제안한 MPI 유닛은 전체 칩 사이즈의 1% 이하의 크기로 높은 성능 향상을 기대할 수 있어, 저비용 설계와 확장성 측면에서 임베디드 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

Keywords

References

  1. A. C. Klaiber, H. M. Levy, "A comparison of message passing and shared memory architectures for data parallel programs," Proceedings of the 21st annual international symposium on Computer architecture, Vol.22, pp.94-105, April 1994 https://doi.org/10.1145/192007.192020
  2. P. Stenstrom, "A Survey of Cache Coherence Schemes for Multiprocessors," Computer, Vol. 23, pp.12-24, June 1990.
  3. L. Benini and G.de Micheli, " Networks On Chip: A New SoC Paradigm," IEEE Computer, Vol.35, No.1, pp.70-78, Jan. 2002 https://doi.org/10.1109/2.976921
  4. S. Han, A. Baghdadi, M. Bonaciu, S. Chae, and A. A. Jerraya, "An efficient scalable and flexible data transfer architecture for multiprocessor SoC with massive distributed memory," Proceedings of the 41st annual Design Automation Conference, San Diego, CA, USA, pp.250-255, June 2004.
  5. P. Francesco, P. Marchal, D. Atienza, L. Benini, and F. Catthoor, "An integrated hardware/software approach for run-time scratchpad management," Proceedings of the 41st annual Design Automation Conference, San Diego, CA, USA, pp. 238-243, June 2004
  6. AMBA AXI Specification, ARM Limited 2003.