• 제목/요약/키워드: MPSoC

검색결과 41건 처리시간 0.023초

효율적인 브로드캐스트 통신을 지원하는 MPI 하드웨어 유닛 설계 (The Design of MPI Hardware Unit for Enhanced Broadcast Communication)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권11B호
    • /
    • pp.1329-1338
    • /
    • 2011
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템에서 집합통신은 프로세싱 노드의 통신포트 상태가 busy 혹은 free 인지를 고려하지 않고 MPI libray cell 에 의해서 점대점 통신으로 변환되어 진다. 만약 브로드캐스트 통신을 하는 동안에 간섭하는 점대점 통신이 있다면, 브로드캐스트 통신의 전송 속도는 저하된다. 따라서 본 논문에서는 각각의 프로세싱 노드의 상태를 고려하여 통신 순서를 결정하는 브로드캐스트 통신 알고리즘을 제안하였다. 제안하는 구조의 알고리즘은 각 프로세싱 노드의 상태에 따라, free 상태의 통신 포트를 가진 프로세싱 노드의 통신 포트에게 우선적으로 메시지를 송신하여 전체적인 집합통신 시간을 단축하였다. 본 연구에서 제안하는 브로드캐스트 통신을 위한 MPI 유닛은 SystemC로 모델링하여 평가하였다. 또한 본 구조는 16노드에서 브로드캐스트 통신의 성능을 최대 78% 향상시켰고, 이는 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.795-805
    • /
    • 2012
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.

이진 에드워즈 곡선 공개키 암호를 위한 257-비트 점 스칼라 곱셈의 효율적인 하드웨어 구현 (An Efficient Hardware Implementation of 257-bit Point Scalar Multiplication for Binary Edwards Curves Cryptography)

  • 김민주;정영수;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.246-248
    • /
    • 2022
  • Bernstein이 제안한 새로운 타원곡선 형태인 이진 에드워즈 곡선 (binary Edwards curves; BEdC)는 예외점이 없어 완전한 덧셈 법칙이 만족한다. 본 논문에서는 투영 좌표계를 적용한 BEdC 상의 점 스칼라 곱셈의 효율적인 하드웨어 구현에 대해 기술한다. 점 스칼라 곱셈을 위해 modified Montgomery ladder 알고리듬을 적용하였으며, 257-비트 이진 덧셈기와 이진 제곱기, 32-비트 이진 곱셈기를 사용하여 하위 이진체 연산을 구현했다. Zynq UltraScale+ MPSoC 디바이스에 구현하여 설계된 BEdC 크립토 코어를 검증하였으며, 점 스칼라 곱셈 연산에 521,535 클록 사이클이 소요된다.

  • PDF

동적 전압 주파수 스케일링 오버헤드 최소화를 위한 전압 선택 방법론 (Voltage Selection Methodology for DVFS Overhead Minimization)

  • 장진규;한태희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.854-857
    • /
    • 2015
  • 반도체 기술의 발전으로 시스템-온-칩(SoC : System-on-Chip) 내에 집적되는 소자의 수가 기하급수적으로 증가함에 따라 에너지 감소 기술은 매우 중요한 과제가 되었다. 다양한 저전력 기술 중에서도 동적 전압 주파수 스케일링(Dynamic Voltage and Frequency Scaling)은 가장 대표적인 저전력 기술 중 하나이다. 올바른 DVFS의 구현을 위해서는 복잡한 DC-DC 변환기와 PLL이 필요로 하게 되며, 이런 특성을 정확하게 이해하고 그로 인해 발생하는 오버헤드(overhead)를 반드시 고려해야 한다. 본 논문에서는 MPSoC에서 변환 오버헤드를 최소화하는 전압 선택 알고리즘을 제안한다. 실험을 통해 제안하는 방법은 성능을 유지한 채 에너지 소모 및 변환 오버헤드 감소를 보여준다.

  • PDF

Software Pipeline-Based Partitioning Method with Trade-Off between Workload Balance and Communication Optimization

  • Huang, Kai;Xiu, Siwen;Yu, Min;Zhang, Xiaomeng;Yan, Rongjie;Yan, Xiaolang;Liu, Zhili
    • ETRI Journal
    • /
    • 제37권3호
    • /
    • pp.562-572
    • /
    • 2015
  • For a multiprocessor System-on-Chip (MPSoC) to achieve high performance via parallelism, we must consider how to partition a given application into different components and map the components onto multiple processors. In this paper, we propose a software pipeline-based partitioning method with cyclic dependent task management and communication optimization. During task partitioning, simultaneously considering computation load balance and communication optimization can cause interference, which leads to performance loss. To address this issue, we formulate their constraints and apply an integer linear programming approach to find an optimal partitioning result - one that requires a trade-off between these two factors. Experimental results on a reconfigurable MPSoC platform demonstrate the effectiveness of the proposed method, with 20% to 40% performance improvements compared to a traditional software pipeline-based partitioning method.

3-way Toom-Cook 곱셈 알고리듬과 고속 축약 알고리듬을 이용한 256-비트 모듈러 곱셈기 설계 (A Design of 256-bit Modular Multiplier using 3-way Toom-Cook Multiplication Algorithm and Fast Reduction Algorithm)

  • 양현준;신경욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.223-225
    • /
    • 2021
  • 모듈러 곱셈은 ECC의 점 스칼라 곱셈을 위한 핵심 연산이며, ECC 프로세서의 성능에 영향을 미치는 가장 중요한 요소이다. 본 논문에서는 3-way Toom-Cook 곱셈 알고리듬과 수정된 고속 축약 알고리듬을 적용한 256-비트 모듈러 곱셈기 설계에 대해 기술한다. 90-비트 곱셈기 1개와 264-비트 가산기 3개가 사용되었으며, 하드웨어 크기와 소요 클록 사이클 수 사이의 최적화를 이루었다. Zynq UltraScale+ MPSoC 디바이스에 구현하여 모듈러 곱셈기를 검증하였으며, 모듈러 곱셈 연산에 15 클록 사이클이 소요된다.

  • PDF

MPI 집합통신을 위한 프로세싱 노드 상태 기반의 메시지 전달 엔진 설계 (Design of Message Passing Engine Based on Processing Node Status for MPI Collective Communication)

  • 정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37권8B호
    • /
    • pp.668-676
    • /
    • 2012
  • 본 논문은 MPI 집합 통신 함수가 처리 레벨 (transaction level) 에서 변환된다는 가정 하에 MPI 집합 통신 중 방송 (Broadcast), 확산 (Scatter), 취합 (Gather) 함수를 최적화한 알고리즘을 제안하였다. 또한 제안하는 알고리즘이 구동되는 MPI 전용 하드웨어 엔진을 설계하였으며, 이를 OCC-MPE (Optimized Collective Communication - Message Passing Engine) 라 명명하였다. OCC-MPE는 표준 송신 모드 (standard send mode)로 점대점 통신 (point-to-point communication) 을 하며, 집합 통신 중 가장 빈번하게 사용되는 방송, 취합, 확산을 제안하는 알고리즘에 의해 전송 순서를 결정한 후 통신하여 전체 통신 완료 시간을 단축시켰다. 제안한 알고리즘들의 성능을 측정하기 위하여 OCC-MPE를 SystemC 기반의 BFM(Bus Functional Model)을 제작하였다. SystemC 기반의 시뮬레이터를 통한 성능 평가 후에 VerilogHDL을 사용하여 제안하는 OCC-MPE를 포함한 MPSoC (Multi-Processor System on a Chip)를 설계하였다. TSMC 0.18 공정으로 합성한 결과 프로세싱 노드가 4개일 때 각 OCC-MPE가 차지하는 면적은 약 1978.95 이었다. 이는 전체 시스템에서 약 4.15%를 차지하므로 비교적 작은 면적을 차지함을 확인하였다. 본 논문에서 제안하는 OCC-MPE를 MPSoC에 내장하면, 비교적 작은 하드웨어 자원의 추가로 높은 성능향상을 얻을 수 있다.

버스 프로토콜 호환 가능한 네트워크-온-칩에서의 분리된 주소/데이터 네트워크 설계 (Separated Address/Data Network Design for Bus Protocol compatible Network-on-Chip)

  • 정승아;이재훈;김상헌;이재성;한태희
    • 전자공학회논문지
    • /
    • 제53권4호
    • /
    • pp.68-75
    • /
    • 2016
  • 다중 프로세서 시스템-온-칩(Multi-Processor SoC, MPSoC)에서의 코어 및 IP 개수 증가 추세에 따라 병렬처리와 확장성에 유리한 인터커넥션 구조인 네트워크-온-칩(Network-on-Chip, NoC)이 등장하였다. 하지만 기존 IP를 재활용하기 위해서는 버스 프로토콜과 호환가능한 NoC에서의 지연시간을 최적화하기 위한 연구가 필요하다. 본 논문에서는 버스 프로토콜 호환 가능한 NoC 설계 시, 버스 프로토콜에서 특성이 다른 다수의 트랜잭션 단계에서 유발되는 홉 수와 경로 충돌의 대립관계로 인해 지연시간이 증가하는 문제를 주소 및 데이터 네트워크로 분리 설계함으로써 해결하였다. 모의실험으로 벤치마크 어플리케이션과 무작위 생성한 어플리케이션에서의 실험 결과를 통해 Mesh구조와 TopGen의 비정형 토폴로지와 비교했을 때, 평균 지연시간은 19.46% 및 실행시간은 10.55% 감소하였다.

NOC 구조용 교착상태 없는 라우터 설계 (A Deadlock Free Router Design for Network-on-Chip Architecture)

  • ;;;;노영욱
    • 한국정보통신학회논문지
    • /
    • 제11권4호
    • /
    • pp.696-706
    • /
    • 2007
  • 다중처리기 SoC(MPSoC) 플랫폼은 SoC 설계 분야에 새로운 여러가지 혁신적인 트랜드를 가지고 있다. 급격히 십억 단위의 트랜지스터 집적이 가능한 시대에 게이트 길이가 $60{\sim}90nm$ 범위를 갖는 서브 마스크로 기술에서 주요문제점들은 확장되지 않는 선 지연, 신호 무결성과 비동기화 통신에서의 오류로 인해 발생한다. 이러한 문제점들은 미래의 SoC을 위한 NOC 구조의 사용에 의해 해결될 수 있다. 대부분의 미래 SoC들은 칩 상에서 통신을 위해 네트워크 구조와 패킷 기반 통신 프로토콜을 사용할 것이다. 이 논문은 NOC 구조를 위한 칩 통신에서 교착상태가 발생되지 않는 것을 보장하기 위해 적극적 turn prohibition을 갖는 적응적 wormhole 라우팅에 대해 기술한다. 또한 5개의 전이중, flit-wide 통신 채널을 갖는 간단한 라우팅 구조를 제시한다. 메시지 지연에 대한 시뮬레이션 결과를 나타내고 같은 연결비율에서 운영되는 다른 기술들의 결과와 비교한다.

하이브리드 광학 네트워크-온-칩에서 병렬 라우팅에 관한 연구 (A Study on the Parallel Routing in Hybrid Optical Networks-on-Chip)

  • 서정택;황용중;한태희
    • 대한전자공학회논문지SD
    • /
    • 제48권8호
    • /
    • pp.25-32
    • /
    • 2011
  • 네트워크-온-칩(Networks-on-Chip, NoC)은 고도로 복잡해지고 있는 다중 프로세서 시스템-온-칩(Multi-Processor System-on-chip, MPSoC)에서의 버스 트래픽 문제를 해결할 핵심기술이나 전통적인 전기적 상호 연결 구조로는 머지않아 대역폭 및 전력소비 등의 한계에 직면할 것으로 예상된다. 이러한 문제를 해결하기 위해 광학적 상호연결과 전기적 상호연결을 같이 사용하는 하이브리드 광학 NoC기술이 최근 활발히 연구되고 있다. 대부분의 하이브리드 광학 NoC에서 전기적인 연결은 웜홀 스위칭(Wormhole switching)과 deterministic 알고리즘인 X-Y 라우팅 알고리즘을 사용하며, 광학적 버스 기반 데이터 전송을 위한 경로 설정 및 광학 라우터 설정을 한다. 광학적 연결에서는 서킷 스위칭(Circuit switching) 방식을 사용하며, 미리 설정된 경로 및 라우터를 이용하여 payload 데이터만 전송을 하게 된다. 그러나 기존에 발표된 하이브리드 광학 NoC같은 경우에는 한 번에 하나의 경로에서만 데이터를 전송 할 수 있다는 단점을 가지고 있어 성능 향상에 한계가 있다. 본 논문에서는 하이브리드 광학 NoC에서 동시에 여러 경로를 이용하여 데이터를 전송하기 위해 전기적인 연결에서 서킷 스위칭 방식과 적응적(adaptive) 알고리즘을 이용하는 새로운 라우팅 알고리즘을 제안하며, 적응적 알고리즘의 문제점인 livelock을 제거할 수 있는 방법 또한 제안한다. 모의실험은 전기적인 NoC, 그리고 웜홀 스위칭 방식의 기존 하이브리드 광학 NoC와 비교 수행 하였다. 그 결과 제안된 방식은 기존 하이브리드 광학 NoC에 비해 60%의 throughput 증가, 그리고 전기적 NoC와 비교했을 때 65%의 전력 감소를 보였다.