• 제목/요약/키워드: On-Chip Multiprocessor

검색결과 40건 처리시간 0.033초

Parsec 기반 시뮬레이터를 이용한 다중처리시스템의 성능 분석 (Performance Analysis of a Multiprocessor System Using Simulator Based on Parsec)

  • 이원주;김선욱;김형래
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.35-42
    • /
    • 2006
  • 본 논문에서는 Parsec을 이용하여 병렬디지털신호처리용 분산공유메모리 다중처리시스템의 성능 분석을 위한 시뮬레이터를 구현한다. 이 시뮬레이터의 특징은 TMS320C6701 DSP 칩의 DMA 기능과 빠른 접근시간을 가진 지역메모리를 사용하는 시스템의 시뮬레이션에 적합하다는 것이다. 또한 시스템의 성능 매개변수 수정과 하드웨어 구성요소들에 대한 재구성이 쉽기 때문에 다양한 실행 환경에서 시스템의 성능을 분석할 수 있다. 시뮬레이션에서는 DSP 알고리즘에서 널리 사용하는 FET, 2D FET, Matrix Multiplication, Fir Filter를 사용하여 프로세서의 수 데이터 크기, 하드웨어 요소의 변화에 따른 실행 시간을 측정한다. 그리고 그 결과를 비교함으로써 본 논문에서 구현한 시뮬레이터의 성능을 검증한다.

  • PDF

MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계 (The Design of Hardware MPI Units for MPSoC)

  • 정하영;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권1B호
    • /
    • pp.86-92
    • /
    • 2011
  • 본 논문에선 분산 메모리 아키텍처를 사용하는 멀티프로세서 시스템에서 메시지 전달을 지원하는 하드웨어 MPI(Message Passing Interface) 유닛을 설계하였다 데이터 전송 동기화 및 데이터 전송, 완료까지의 과정을 하드웨어 MPI 유닛이 담당하여 동기화에 따른 오버헤드를 경감시켰다. 또한 동기화 메시지를 저장 관리하는 요청 큐(Request Queue), 준비 큐(Ready Queue), 예약 큐(Reserve Queue)를 내장하여 병렬적으로 입력받은 동기화 메시지를 관리하고 비순차적 종료(out of order completion)을 지원한다. BMF(Bus Functional Medel)을 제작해 제안한 구조에서의 전송 대역폭 성능을 확인한 결과 다대다 통신에서 25% 이상의 성능 향상이었음을 확인할 수 있었다. 그 후 HDL로 기술된 하드웨어를 Magnachip 0.18 공정 라이브러리에서 합성하였으며 프로토 타입 chip으로 제작하였다. 제안한 MPI 유닛은 전체 칩 사이즈의 1% 이하의 크기로 높은 성능 향상을 기대할 수 있어, 저비용 설계와 확장성 측면에서 임베디드 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

버스 프로토콜 호환 가능한 네트워크-온-칩에서의 분리된 주소/데이터 네트워크 설계 (Separated Address/Data Network Design for Bus Protocol compatible Network-on-Chip)

  • 정승아;이재훈;김상헌;이재성;한태희
    • 전자공학회논문지
    • /
    • 제53권4호
    • /
    • pp.68-75
    • /
    • 2016
  • 다중 프로세서 시스템-온-칩(Multi-Processor SoC, MPSoC)에서의 코어 및 IP 개수 증가 추세에 따라 병렬처리와 확장성에 유리한 인터커넥션 구조인 네트워크-온-칩(Network-on-Chip, NoC)이 등장하였다. 하지만 기존 IP를 재활용하기 위해서는 버스 프로토콜과 호환가능한 NoC에서의 지연시간을 최적화하기 위한 연구가 필요하다. 본 논문에서는 버스 프로토콜 호환 가능한 NoC 설계 시, 버스 프로토콜에서 특성이 다른 다수의 트랜잭션 단계에서 유발되는 홉 수와 경로 충돌의 대립관계로 인해 지연시간이 증가하는 문제를 주소 및 데이터 네트워크로 분리 설계함으로써 해결하였다. 모의실험으로 벤치마크 어플리케이션과 무작위 생성한 어플리케이션에서의 실험 결과를 통해 Mesh구조와 TopGen의 비정형 토폴로지와 비교했을 때, 평균 지연시간은 19.46% 및 실행시간은 10.55% 감소하였다.

동적 전압 주파수 스케일링 오버헤드 최소화를 위한 전압 선택 방법론 (Voltage Selection Methodology for DVFS Overhead Minimization)

  • 장진규;한태희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.854-857
    • /
    • 2015
  • 반도체 기술의 발전으로 시스템-온-칩(SoC : System-on-Chip) 내에 집적되는 소자의 수가 기하급수적으로 증가함에 따라 에너지 감소 기술은 매우 중요한 과제가 되었다. 다양한 저전력 기술 중에서도 동적 전압 주파수 스케일링(Dynamic Voltage and Frequency Scaling)은 가장 대표적인 저전력 기술 중 하나이다. 올바른 DVFS의 구현을 위해서는 복잡한 DC-DC 변환기와 PLL이 필요로 하게 되며, 이런 특성을 정확하게 이해하고 그로 인해 발생하는 오버헤드(overhead)를 반드시 고려해야 한다. 본 논문에서는 MPSoC에서 변환 오버헤드를 최소화하는 전압 선택 알고리즘을 제안한다. 실험을 통해 제안하는 방법은 성능을 유지한 채 에너지 소모 및 변환 오버헤드 감소를 보여준다.

  • PDF

MF-VLD에 대한 효율적인 하드웨어 구조 (An Efficient Architecture of The MF-VLD)

  • 서기범
    • 대한전자공학회논문지SD
    • /
    • 제48권11호
    • /
    • pp.57-62
    • /
    • 2011
  • 본 논문에서는 H.264, MPEG-2, MPEG-4, AVS, VC-1 코덱 표준의 가변 길이 복호화와 역 영자화가 가능한 MF-VLD(Multi-Format Variable Length Decoder)의 효율적인 구조에 대한 설계 방법을 제안 한다. 제안하는 MF-VLD는 MPSOC(Multiprocessor System on Chip)에 적합한 구조로 설계되었으며, 역 양자화된 데이터에 대해서 bit-plane알고리즘을 적용하여 AHB 버스의 폭을 줄였고, 내부 메모리의 사용량을 최소화 하기 위해 외부 SDRAM을 사용하였다. 또한, 코덱의 가변길이 복호화 모듈을 분리 가능한 구조로 설계하여 상황에 따라 가변길이 복호화 모듈에 대한 추가 및 제거가 용이 하도록 하였다. 설계된 MF-VLD는 0.18 ${\mu}m$ 공정에서 200 MHz의 속도로 동작하며, 사이즈는 약 657 K 게이트 이고, 사용되는 메모리는 약 27K 바이트 이다.

Exploiting Thread-Level Parallelism in Lockstep Execution by Partially Duplicating a Single Pipeline

  • Oh, Jaeg-Eun;Hwang, Seok-Joong;Nguyen, Huong Giang;Kim, A-Reum;Kim, Seon-Wook;Kim, Chul-Woo;Kim, Jong-Kook
    • ETRI Journal
    • /
    • 제30권4호
    • /
    • pp.576-586
    • /
    • 2008
  • In most parallel loops of embedded applications, every iteration executes the exact same sequence of instructions while manipulating different data. This fact motivates a new compiler-hardware orchestrated execution framework in which all parallel threads share one fetch unit and one decode unit but have their own execution, memory, and write-back units. This resource sharing enables parallel threads to execute in lockstep with minimal hardware extension and compiler support. Our proposed architecture, called multithreaded lockstep execution processor (MLEP), is a compromise between the single-instruction multiple-data (SIMD) and symmetric multithreading/chip multiprocessor (SMT/CMP) solutions. The proposed approach is more favorable than a typical SIMD execution in terms of degree of parallelism, range of applicability, and code generation, and can save more power and chip area than the SMT/CMP approach without significant performance degradation. For the architecture verification, we extend a commercial 32-bit embedded core AE32000C and synthesize it on Xilinx FPGA. Compared to the original architecture, our approach is 13.5% faster with a 2-way MLEP and 33.7% faster with a 4-way MLEP in EEMBC benchmarks which are automatically parallelized by the Intel compiler.

  • PDF

다중 프로세서를 갖는 SoC 를 위한 CDMA 기술에 기반한 통신망 설계 (A CDMA-Based Communication Network for a Multiprocessor SoC)

  • 천익재;김보관
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2005년도 추계종합학술대회
    • /
    • pp.707-710
    • /
    • 2005
  • In this paper, we propose a new communication network for on-chip communication. The network is based on a direct sequence code division multiple access (DS-CDMA) technique. The new communication network is suitable for a parallel processing system and also drastically reduces the I/O pin count. Our network architecture is mainly divided into a CDMA-based network interface (CNI), a communication channel, a synchronizer. The network includes a reverse communication channel for reducing latency. The network decouples computation task from communication task by the CNI. An extreme truncation is considered to simplify the communication link. For the scalability of the network, we use a PN-code reuse method and a hierarchical structure. The network elements have a modular architecture. The communication network is done using fully synthesizable Verilog HDL to enhance the portability between process technologies.

  • PDF

NOC 구조 설계 방법론 (NOC Architecture Design Methodology)

  • ;;;노영욱
    • 한국정보통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.57-64
    • /
    • 2006
  • 다중처리기 SoC(System on Chip) 플랫폼은 SoC 설계를 위한 새로운 혁신적인 경향들을 가지고 있다. QoS 인수와 성능 매트릭스는 SoC을 위한 새로운 설계 방법론을 채택하도록 하였다. 이것은 NOC의 하부 통신 백본뿐만 아니라 전체 시스템 구조가 고도로 확장가능하고, 재사용가능하고, 예측가능하면서 가격과 에너지 측면에서 효율적인 플랫폼이 되도록 구체화할 것이다. 우리는 NOC의 통신 백본 구조가 계층화된 것처럼 NOC의 전체 시스템 구조가 자체적으로 7 계층이 되도록 제안한다. 이런 플랫폼은 동기화 문제를 가지는 병행성을 보다 효과적으로 모델화하는 영역에 특수한 문제들을 분리할 수 있다. 그러한 계층 구조에서 계산 모델은 어떤 응용에 자연스러운 병행성과 동기화 문제를 모형 할 수 있는 뼈대를 제공할 것이다. 그러므로 특정 NOC 영역에서 올바른 계산 모델을 사용하는 것은 아주 중요하다.

고성능 클러스터 시스템을 위한 인피니밴드 시스템 연결망의 설계 및 구현 (Design and Implementation of an InfiniBand System Interconnect for High-Performance Cluster Systems)

  • 모상만;박경;김성남;김명준;임기욱
    • 정보처리학회논문지A
    • /
    • 제10A권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 인피니밴드(InfiniBand) 기술은 클러스터 컴퓨팅용 고성능 시스템 연결망으로의 활용을 목적으로 컴퓨터 업계를 중심으로 활발히 개발되고 있는 차세대 시스템 연결망 기술이다. 본 논문에서는 고성능 클러스터 시스템을 위한 인피니밴드 시스템 연결망의 설계와 구현을 다루며, 특히 이중(dual) ARM9 프로세서를 기반으로 한 인피니밴드 호스트 채널 어댑터(host channel adapter HCA) 개발에 초점을 맞추어 기술한다. KinCA라는 코드명이 부여된 HCA는 클러스터 시스템의 각 호스트 노드(host node)를 하드웨어 및 소프트웨어적으로 인피니밴드 연결망에 연결한다. ARM9 프로세서 코어는 다중 처리기 구성을 위해 필요한 기능을 지원하지 않으므로, 두 개의 프로세서간 통신 및 인터럽트 메커니즘을 설계하여 Kinch 칩에 내장하였다. 일종의 SoC인 KinCA 칩은 0.18$\mu\textrm{m}$ CMOS 기술을 사용하여 564핀 BGA(Ball Grid Array) 소자로 제작되었다. KinCA는 호스트 노드에 장착되어 송신과 수신 각각에 대하여 10Gbps의 고속 대역폭을 제공함으로써 고성능 클러스터 시스템의 구현을 가능하게 해준다.

하이브리드 광학 네트워크-온-칩에서 병렬 라우팅에 관한 연구 (A Study on the Parallel Routing in Hybrid Optical Networks-on-Chip)

  • 서정택;황용중;한태희
    • 대한전자공학회논문지SD
    • /
    • 제48권8호
    • /
    • pp.25-32
    • /
    • 2011
  • 네트워크-온-칩(Networks-on-Chip, NoC)은 고도로 복잡해지고 있는 다중 프로세서 시스템-온-칩(Multi-Processor System-on-chip, MPSoC)에서의 버스 트래픽 문제를 해결할 핵심기술이나 전통적인 전기적 상호 연결 구조로는 머지않아 대역폭 및 전력소비 등의 한계에 직면할 것으로 예상된다. 이러한 문제를 해결하기 위해 광학적 상호연결과 전기적 상호연결을 같이 사용하는 하이브리드 광학 NoC기술이 최근 활발히 연구되고 있다. 대부분의 하이브리드 광학 NoC에서 전기적인 연결은 웜홀 스위칭(Wormhole switching)과 deterministic 알고리즘인 X-Y 라우팅 알고리즘을 사용하며, 광학적 버스 기반 데이터 전송을 위한 경로 설정 및 광학 라우터 설정을 한다. 광학적 연결에서는 서킷 스위칭(Circuit switching) 방식을 사용하며, 미리 설정된 경로 및 라우터를 이용하여 payload 데이터만 전송을 하게 된다. 그러나 기존에 발표된 하이브리드 광학 NoC같은 경우에는 한 번에 하나의 경로에서만 데이터를 전송 할 수 있다는 단점을 가지고 있어 성능 향상에 한계가 있다. 본 논문에서는 하이브리드 광학 NoC에서 동시에 여러 경로를 이용하여 데이터를 전송하기 위해 전기적인 연결에서 서킷 스위칭 방식과 적응적(adaptive) 알고리즘을 이용하는 새로운 라우팅 알고리즘을 제안하며, 적응적 알고리즘의 문제점인 livelock을 제거할 수 있는 방법 또한 제안한다. 모의실험은 전기적인 NoC, 그리고 웜홀 스위칭 방식의 기존 하이브리드 광학 NoC와 비교 수행 하였다. 그 결과 제안된 방식은 기존 하이브리드 광학 NoC에 비해 60%의 throughput 증가, 그리고 전기적 NoC와 비교했을 때 65%의 전력 감소를 보였다.