Implementation of a Scoreboard Array and a Port Arbiter for In-order SMT Processors

순차적 SMT Processor를 위한 Scoreboard Array와 포트 중재 모듈의 구현

  • Heo, Chang-Yong (Digital Media Business, Samsung Electronics) ;
  • Hong, In-Pyo (Processor Laboratory, Dept. of Electrical and Electronic Engineering, Yonsei University) ;
  • Lee, Yong-Surk (Processor Laboratory, Dept. of Electrical and Electronic Engineering, Yonsei University)
  • 허창용 (삼성전자 DM 총괄) ;
  • 홍인표 (연세대학교 전기전자공학과 프로세서연구실) ;
  • 이용석 (연세대학교 전기전자공학과 프로세서연구실)
  • Published : 2004.06.30

Abstract

SMT(Simultaneous Multi Threading) architecture uses TLP(Thread Level Parallelism) and increases processor throughput, such that issue slots can be filled with instructions from multiple independent threads. Having multiple ready threads reduces the probability that a functional unit is left idle, which increases processor efficiency. To utilize those advantages for the SMT processors, the issue unit must control the flow of instructions from different threads and not create conflicts among those instructions, which make the SMT issue logic extremely complex. Therefore, our SMT architecture, which is modeled in this paper, uses an in-order-issue and completion scheme, and therefore, can use a simple issue mechanism with a scoreboard already instead of using register renaming or a reorder buffer. However, an SMT scoreboarding mechanism is still more complex and costlier than that of a single threaded conventional processor. This paper proposes an optimal implementation of a scoreboarding mechanism for an ARM-based SMT architecture.

SMT(Simultaneous Multi Threading)구조는 여러 개의 독립적인 쓰레드들로부터의 명령어들을 이용하여, 이슈 슬롯을 채울 수 있도록 하는 쓰레드 레벨 병렬 성을 사용함으로서, 결국 프로세서의 성능을 향상시킨다. 독립적인 여러 개의 준비된 쓰레드들을 갖는다는 것은 실행 유닛들이 무용의 상태로 남아 있는 가능성을 줄일 수 있다는 의미이며, 이러한 사항은 결국 프로세서의 효율성을 증가 시키게 된다. SMT 프로세서에서 그러한 이점을 이용하기 위해서는, 이슈 유닛은 서로 다른 쓰레드들로부터의 여러 명령어들 간의 흐름을 제어해서, 그러한 명령어들 사이에서 충돌이 일어나지 않도록 해야 하지만, 이러한 사실로 인해 SMT 프로세서의 이슈 로직은 매우 복잡해지게 된다. 따라서, 본 논문에서 제안된 SMT 구조는 순차적 이슈와 완료 방식을 채택하여, 복잡한 레지스터 리네이밍이나 재순차 버퍼 등을 사용할 필요가 없이 비교적 간단한 스코어보드 어레이만을 사용하는 이슈 구조를 사용할 수 있게 하였다, 그러나, 여전히 SMT용 스코어보드 구조는 일반적인 단일 쓰레드의 범용 프로세서의 경우보다는 훨씬 더 복잡하고 많은 비용이 소요된다. 본 논문은 ARM 기본의 순차적 SMT 아키텍처 상에서의 최적의 스코어보드메커니즘에 대한 구현을 제안한다.

Keywords

References

  1. Gurindar S. Sohi, Scott E. Breach, T.N. Vijaykumar, 'Multiscalar processors', in Proc. of 22nd annual international symposium on Computer architecture, pp. 414-425, S. Margherita Ligure, Italy 1995
  2. Dezso Sima, Terence Fountain, Peter Kacsuk, 'Advanced computer architectures', Addison-Wesley, 1998
  3. 문병인, '순차적 SMT 구조 및 그룹화 방안에 관한 연구', 연세대학교 대학원 전기전자공학과, 공학박사 학위논문, 2002년 12월
  4. Roger Espasa, Mateo Valero, James E. Smith, 'Out-of-order vector architectures', in Proc. of 30th annual ACM/IEEE international symposium on Microarchitecture, pp. 160-170, 1997
  5. Sorin Cotofana, Stamatis Vassiliadis, 'On the Design Complexity of the Issue Logic of Super scalar Machines', in Proc. of 24th Euro- micro Conference, pp. 277-284, 25-27, Aug. 1998
  6. Dean M.Tullsen, Susan J. Eggers, Henry M. Levy, 'Simultaneous Multithreading Maximizing On-Chip Parallelism', in Proc. of 22nd Annual International Symposium on Computer Architecture, pp. 392-403, 22-24, Jun 1995
  7. R. Balasubramonian, S. Dwarkadas, D.H. Albonesi, 'Reducing the Complexity of the Register File in Dynamic Superscalar Processors', in Proc. of 34th annual ACM/ IEEE international symposium on Micro- architecture, pp. 237-248, Texas, 2001
  8. ARM Architecture Reference Manual, Part A. CPU Architecture, 1996
  9. John L. Hennessy, David A. Patterson, 'Computer Organization and Design', Morgan Kaufmann, Publishers, Inc. 1998
  10. Toyohiko Yoshida, Masahito Matsuo, Tatsuya Ueda and Yuichi Saito, 'A Strategy for Avoiding Pipeline Interlock Delays in a Microprocessor', in Proc. of Computer Design:VLSI in Computers and Processors, ICCD '90., pp.14_19, 17-19 Sep 1990 https://doi.org/10.1109/ICCD.1990.130148
  11. Hily, S., Seznec, A., 'Out-of-order execution may not be cost-effective on processors featuring simultaneous multi-threading', in Proc. of High-performance computer architecture, fifth international symposium, pp64-67, 9-13 jan 1999
  12. Robert J. Baron, Lee Higbie, 'Computer Architecture', Addison-wesley publishing company, 1992