• 제목/요약/키워드: embedded chip-multiprocessor

검색결과 6건 처리시간 0.017초

A System Level Network-on-chip Model with MLDesigner

  • Agarwal, Ankur;Shankar, Rabi;Pandya, A.S.;Lho, Young-Uhg
    • Journal of information and communication convergence engineering
    • /
    • 제6권2호
    • /
    • pp.122-128
    • /
    • 2008
  • Multiprocessor architectures and platforms, such as, a multiprocessor system on chip (MPSoC) recently introduced to extend the applicability of the Moore's law, depend upon concurrency and synchronization in both software and hardware to enhance design productivity and system performance. With the rapidly approaching billion transistors era, some of the main problem in deep sub-micron technologies characterized by gate lengths in the range of 60-90 nm will arise from non scalable wire delays, errors in signal integrity and non-synchronized communication. These problems may be addressed by the use of Network on Chip (NOC) architecture for future System-on-Chip (SoC). We have modeled a concurrent architecture for a customizable and scalable NOC in a system level modeling environment using MLDesigner (from MLD Inc.). Varying network loads under various traffic scenarios were applied to obtain realistic performance metrics. We provide the simulation results for latency as a function of the buffer size. We have abstracted the area results for NOC components from its FPGA implementation. Modeled NOC architecture supports three different levels of quality-of-service (QoS).

Low-power heterogeneous uncore architecture for future 3D chip-multiprocessors

  • Dorostkar, Aniseh;Asad, Arghavan;Fathy, Mahmood;Jahed-Motlagh, Mohammad Reza;Mohammadi, Farah
    • ETRI Journal
    • /
    • 제40권6호
    • /
    • pp.759-773
    • /
    • 2018
  • Uncore components such as on-chip memory systems and on-chip interconnects consume a large amount of energy in emerging embedded applications. Few studies have focused on next-generation analytical models for future chip-multiprocessors (CMPs) that simultaneously consider the impacts of the power consumption of core and uncore components. In this paper, we propose a convex-optimization approach to design heterogeneous uncore architectures for embedded CMPs. Our convex approach optimizes the number and placement of memory banks with different technologies on the memory layer. In parallel with hybrid memory architecting, optimizing the number and placement of through silicon vias as a viable solution in building three-dimensional (3D) CMPs is another important target of the proposed approach. Experimental results show that the proposed method outperforms 3D CMP designs with hybrid and traditional memory architectures in terms of both energy delay products (EDPs) and performance parameters. The proposed method improves the EDPs by an average of about 43% compared with SRAM design. In addition, it improves the throughput by about 7% compared with dynamic RAM (DRAM) design.

Exploiting Thread-Level Parallelism in Lockstep Execution by Partially Duplicating a Single Pipeline

  • Oh, Jaeg-Eun;Hwang, Seok-Joong;Nguyen, Huong Giang;Kim, A-Reum;Kim, Seon-Wook;Kim, Chul-Woo;Kim, Jong-Kook
    • ETRI Journal
    • /
    • 제30권4호
    • /
    • pp.576-586
    • /
    • 2008
  • In most parallel loops of embedded applications, every iteration executes the exact same sequence of instructions while manipulating different data. This fact motivates a new compiler-hardware orchestrated execution framework in which all parallel threads share one fetch unit and one decode unit but have their own execution, memory, and write-back units. This resource sharing enables parallel threads to execute in lockstep with minimal hardware extension and compiler support. Our proposed architecture, called multithreaded lockstep execution processor (MLEP), is a compromise between the single-instruction multiple-data (SIMD) and symmetric multithreading/chip multiprocessor (SMT/CMP) solutions. The proposed approach is more favorable than a typical SIMD execution in terms of degree of parallelism, range of applicability, and code generation, and can save more power and chip area than the SMT/CMP approach without significant performance degradation. For the architecture verification, we extend a commercial 32-bit embedded core AE32000C and synthesize it on Xilinx FPGA. Compared to the original architecture, our approach is 13.5% faster with a 2-way MLEP and 33.7% faster with a 4-way MLEP in EEMBC benchmarks which are automatically parallelized by the Intel compiler.

  • PDF

MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계 (The Design of Hardware MPI Units for MPSoC)

  • 정하영;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권1B호
    • /
    • pp.86-92
    • /
    • 2011
  • 본 논문에선 분산 메모리 아키텍처를 사용하는 멀티프로세서 시스템에서 메시지 전달을 지원하는 하드웨어 MPI(Message Passing Interface) 유닛을 설계하였다 데이터 전송 동기화 및 데이터 전송, 완료까지의 과정을 하드웨어 MPI 유닛이 담당하여 동기화에 따른 오버헤드를 경감시켰다. 또한 동기화 메시지를 저장 관리하는 요청 큐(Request Queue), 준비 큐(Ready Queue), 예약 큐(Reserve Queue)를 내장하여 병렬적으로 입력받은 동기화 메시지를 관리하고 비순차적 종료(out of order completion)을 지원한다. BMF(Bus Functional Medel)을 제작해 제안한 구조에서의 전송 대역폭 성능을 확인한 결과 다대다 통신에서 25% 이상의 성능 향상이었음을 확인할 수 있었다. 그 후 HDL로 기술된 하드웨어를 Magnachip 0.18 공정 라이브러리에서 합성하였으며 프로토 타입 chip으로 제작하였다. 제안한 MPI 유닛은 전체 칩 사이즈의 1% 이하의 크기로 높은 성능 향상을 기대할 수 있어, 저비용 설계와 확장성 측면에서 임베디드 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

고성능 클러스터 시스템을 위한 인피니밴드 시스템 연결망의 설계 및 구현 (Design and Implementation of an InfiniBand System Interconnect for High-Performance Cluster Systems)

  • 모상만;박경;김성남;김명준;임기욱
    • 정보처리학회논문지A
    • /
    • 제10A권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 인피니밴드(InfiniBand) 기술은 클러스터 컴퓨팅용 고성능 시스템 연결망으로의 활용을 목적으로 컴퓨터 업계를 중심으로 활발히 개발되고 있는 차세대 시스템 연결망 기술이다. 본 논문에서는 고성능 클러스터 시스템을 위한 인피니밴드 시스템 연결망의 설계와 구현을 다루며, 특히 이중(dual) ARM9 프로세서를 기반으로 한 인피니밴드 호스트 채널 어댑터(host channel adapter HCA) 개발에 초점을 맞추어 기술한다. KinCA라는 코드명이 부여된 HCA는 클러스터 시스템의 각 호스트 노드(host node)를 하드웨어 및 소프트웨어적으로 인피니밴드 연결망에 연결한다. ARM9 프로세서 코어는 다중 처리기 구성을 위해 필요한 기능을 지원하지 않으므로, 두 개의 프로세서간 통신 및 인터럽트 메커니즘을 설계하여 Kinch 칩에 내장하였다. 일종의 SoC인 KinCA 칩은 0.18$\mu\textrm{m}$ CMOS 기술을 사용하여 564핀 BGA(Ball Grid Array) 소자로 제작되었다. KinCA는 호스트 노드에 장착되어 송신과 수신 각각에 대하여 10Gbps의 고속 대역폭을 제공함으로써 고성능 클러스터 시스템의 구현을 가능하게 해준다.

가상 동기화 기법을 이용한 SystemC 통합시뮬레이션의 병렬 수행 (Parallel SystemC Cosimulation using Virtual Synchronization)

  • 이영민;권성남;하순회
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권12호
    • /
    • pp.867-879
    • /
    • 2006
  • 이 논문에서는 여러 개의 소프트웨어 혹은 하드웨어 컴포넌트가 존재하는 MPSoC(Multiprocessor-System-on-a-chip) 아키텍처를 빠르면서도 정확하게 통합시뮬레이션 하는 내용을 다룬다. 복잡한 시스템을 설계하기 위해서 MPSoC 아키텍처가 점점 일반화되고 있는데, 이러한 아키텍처를 통합시뮬레이션 할 때는 시뮬레이터의 개수가 증가하고 그에 따라 시뮬레이터들 간의 시간 동기화 비용도 증가하므로 전체적인 통합시뮬레이션 성능이 감소된다. 최근의 통합시뮬레이션 연구들에 의해서 등장한 SystemC 통합시뮬레이션 환경이 빠른 성능을 보이고 있으나, 시뮬레이터의 개수가 증가할수록 성능은 반비례한다. 본 논문에서는 효율적인 시간동기를 통해 통합시뮬레이션의 성능을 증가시키는 기법인 가상동기화 기법을 확장하여, (1) SystemC 커널을 수정하지 않고도 가상 동기화 기법을 적용한 SystemC 통합시뮬레이션을 수행할 수 있고, (2) 병렬적으로 가상동기화 기법을 수행할 수 있게 하였다. 이를 통해 SystemC 통합시뮬레이션의 병렬적인 수행이 가능해졌는데, 널리 알려진 상용 SystemC 통합시뮬레이션 도구인 MaxSim과 비교하였을 때, H.263 디코더 예제의 경우 11배 이상의 성능 증가를 얻었고 정확도는 5% 이내로 유지되었다.