• 제목/요약/키워드: MPI Unit

검색결과 17건 처리시간 0.023초

MPSoC를 위한 저비용 하드웨어 MPI 유닛 설계 (The Design of Hardware MPI Units for MPSoC)

  • 정하영;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권1B호
    • /
    • pp.86-92
    • /
    • 2011
  • 본 논문에선 분산 메모리 아키텍처를 사용하는 멀티프로세서 시스템에서 메시지 전달을 지원하는 하드웨어 MPI(Message Passing Interface) 유닛을 설계하였다 데이터 전송 동기화 및 데이터 전송, 완료까지의 과정을 하드웨어 MPI 유닛이 담당하여 동기화에 따른 오버헤드를 경감시켰다. 또한 동기화 메시지를 저장 관리하는 요청 큐(Request Queue), 준비 큐(Ready Queue), 예약 큐(Reserve Queue)를 내장하여 병렬적으로 입력받은 동기화 메시지를 관리하고 비순차적 종료(out of order completion)을 지원한다. BMF(Bus Functional Medel)을 제작해 제안한 구조에서의 전송 대역폭 성능을 확인한 결과 다대다 통신에서 25% 이상의 성능 향상이었음을 확인할 수 있었다. 그 후 HDL로 기술된 하드웨어를 Magnachip 0.18 공정 라이브러리에서 합성하였으며 프로토 타입 chip으로 제작하였다. 제안한 MPI 유닛은 전체 칩 사이즈의 1% 이하의 크기로 높은 성능 향상을 기대할 수 있어, 저비용 설계와 확장성 측면에서 임베디드 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

표준 모드를 지원하는 5Q MPI 하드웨어 유닛 설계 (Design 5Q MPI Hardware Unit Supporting Standard Mode)

  • 박재원;정원영;이승우;이용석
    • 한국통신학회논문지
    • /
    • 제37권1B호
    • /
    • pp.59-66
    • /
    • 2012
  • 최근 모바일 장치의 사용의 증가와 복잡한 응용 프로그램의 사용이 증가하면서 MPSoC의 사용이 증가하고 있다. 이러한 MPSoC의 성능을 향상시키기 위해 프로세서의 수가 늘어나고 있는 추세이다. 다수의 프로세서 구조에서 장점이 있는 분산 메모리 구조의 효율적인 데이터 전달하기 위해서 표준 MPI를 이용한다. 표준 MPI는 소프트웨어로 제공되지만, 하드웨어로 구현하면 보다 높은 성능을 얻을 수 있다. 하드웨어로 구현된 MPI의 메시지 전송 방식으로 기존의 동기 방식(Synchronous Mode), 준비 방식(Ready Mode), 버퍼 방식(Buffered Mode)과 이 방식들을 혼합한 형태인 표준 방식(Standard Mode)가 있다. 본 논문에는 기존의 MPI 하드웨어 유닛에서 사용되던 구조에 작은 크기의 데이터를 선별하여 버퍼 방식으로 전송함으로써 전송율을 극대화 하였다. 기존의 구조에서 사용된 3개의 큐(Queue)는 그대로 같은 기능을 하고, 본 논문에서 추가된 2개의 큐(작은 준비 큐와 작은 요청 큐)을 추가하여 임계점보다 작은 크기의 데이터에 대한 처리와 저장을 담당하도록 하여 성능을 향상하였다. 제안된 구조에서 임계점을 32byte로 제한하였을 때 임계점 이하의 데이터에서 20%의 성능 개선 효과를 볼 수 있었다.

효율적인 브로드캐스트 통신을 지원하는 MPI 하드웨어 유닛 설계 (The Design of MPI Hardware Unit for Enhanced Broadcast Communication)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제36권11B호
    • /
    • pp.1329-1338
    • /
    • 2011
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템에서 집합통신은 프로세싱 노드의 통신포트 상태가 busy 혹은 free 인지를 고려하지 않고 MPI libray cell 에 의해서 점대점 통신으로 변환되어 진다. 만약 브로드캐스트 통신을 하는 동안에 간섭하는 점대점 통신이 있다면, 브로드캐스트 통신의 전송 속도는 저하된다. 따라서 본 논문에서는 각각의 프로세싱 노드의 상태를 고려하여 통신 순서를 결정하는 브로드캐스트 통신 알고리즘을 제안하였다. 제안하는 구조의 알고리즘은 각 프로세싱 노드의 상태에 따라, free 상태의 통신 포트를 가진 프로세싱 노드의 통신 포트에게 우선적으로 메시지를 송신하여 전체적인 집합통신 시간을 단축하였다. 본 연구에서 제안하는 브로드캐스트 통신을 위한 MPI 유닛은 SystemC로 모델링하여 평가하였다. 또한 본 구조는 16노드에서 브로드캐스트 통신의 성능을 최대 78% 향상시켰고, 이는 MPSoC(Multi-Processor System-on-Chip)의 전체적인 성능을 높이는데 유용하다.

MPI 가솔린 엔진용 슬라이딩 모드 연료분사 제어기 설계 및 컴퓨터 제어 (Design and Computer Control of a Sliding Mode Fuel-Injection Controller for MPI Gasoline Engines)

  • 김종식;고용서;강건용;황이철
    • 대한기계학회논문집
    • /
    • 제15권3호
    • /
    • pp.1030-1043
    • /
    • 1991
  • 본 연구에서는 모델링오차나 외란 등의 불확실성에도 강인한 슬라이딩 모드 제어방법을 이용하여 새로운 연료분사 제어기를 설계하였다. 그리고 8253 타이머와 A/D 변환기, 인터페이스회로 등으로 MPI가솔린 엔진용 전자 제어장치를 실제 엔진에 적용시킴으로써 새로이 설계된 연료분사 제어시스템의 성능을 파악하였다.엔진의 운전상태를 여러가지 제어 모드로 분류할 수 있으나 엔진회전수가 2000rpm, 부하가 20N의 일정한 부하 조건에서 엔진회전수를 1500rpm에서 2000rpm으로 변화시켰을 때의 과도상태 응답을 파악하였다. 이와 같이 새로운 슬라이딩 모드 연료분사 제어시스템 을 개발하여 3원촉매 변환기의 변환효율을 극대화함으로써 배기가스의 유해물질을 최 소화하는 것을 본 연구의 목적으로 하였다.

Processing-Node Status-based Message Scattering and Gathering for Multi-processor Systems on Chip

  • Park, Jongsu
    • Journal of information and communication convergence engineering
    • /
    • 제17권4호
    • /
    • pp.279-284
    • /
    • 2019
  • This paper presents processing-node status-based message scattering and gathering algorithms for multi-processor systems on chip to reduce the communication time between processors. In the message-scattering part of the message-passing interface (MPI) scatter function, data transmissions are ordered according to the proposed linear algorithm, based on the processor status. The MPI hardware unit in the root processing node checks whether each processing node's status is 'free' or 'busy' when an MPI scatter message is received. Then, it first transfers the data to a 'free' processing node, thereby reducing the scattering completion time. In the message-gathering part of the MPI gather function, the data transmissions are ordered according to the proposed linear algorithm, and the gathering is performed. The root node receives data from the processing node that wants to transfer first, and reduces the completion time during the gathering. The experimental results show that the performance of the proposed algorithm increases at a greater rate as the number of processing nodes increases.

Conjugated Oligomers Combining Fluorene and Thiophene Units : Towards Supramolecular Electronics

  • Leclere, Ph.;Surin, M.;Sonar, P.;Grimsdale, A.C.;Mllen, K.;Cavallini, M.;Biscarini, F.;Lazzaroni, R.
    • 한국고분자학회:학술대회논문집
    • /
    • 한국고분자학회 2006년도 IUPAC International Symposium on Advanced Polymers for Emerging Technologies
    • /
    • pp.228-228
    • /
    • 2006
  • Conjugated oligomers, used as models for fluorene-thiophene copolymers, are compared in terms of the microscopic morphology of thin deposits and the optical properties. The AFM images and the solid-state absorption and emission spectra are interpreted in line with the structural data, in terms of the assembly of the conjugated molecules. The compound with a terthiophene central unit and fluorene end-groups shows well-defined monolayer-by-monolayer assembly into micrometer-long strip-like structures, with a crystalline herringbone-type organization within the monolayers. Polarized confocal microscopy indicates a strong orientation of the crystalline domains within the stripes. In contrast, the compound with a terfluorene central unit and thiophene end groups forms no textured aggregates. The difference in behavior between the two compounds most probably originates from their different capability of forming densely-packed assemblies of ${\pi-pi}$ interacting molecules. These assemblies are used as active elements in organic field effect transistors designed by using soft lithography technique.

  • PDF

지방의료원의 효율성 및 생산성변화 분석 (Analyzing Regional Public Hospitals' Efficiency and Productivity Change)

  • 전진환;김종기
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.303-313
    • /
    • 2010
  • 본 연구의 목적은 DEA(자료포락분석)의 CCR, BCC 모형과 MPI(맘퀴스트 생산성 지수)에 대한 분석을 통해 지방의료원의 효율성과 생산성 변화를 평가하는데 있다. 이는 DEA 모형이 DMU(의사결정단위)의 효율성을 평가할 수 있는 비모수적 기법이며, 또한 MPI가 특정 조직의 생산성 변화를 평가하는데 유용한 기법이기 때문이다. 이를 위해 본 연구는 2003년부터 2008년까지 34개 지방의료원의 6년간 시계열 데이터를 효율성 분석에 활용하였다. 본 연구의 결과는 다음과 같이 요약된다. 먼저, 지방의료원은 평균 3.6%의 경영 비효율성을 포함하고 있는 것으로 나타났으며, 이는 DMU의 기술 비효율성에 비해 규모 비효율성에 더 큰 원인이 있는 것으로 분석되었다. 두 번째, MPI 분석을 통해 지방의료원은 기술효율성을 증대시킴으로써 총생산성 증가를 도모해야 함을 알 수 있었으며, 이를 위해 지방의료원의 내부혁신과 정부차원의 정책지원이 필요하였다.

A PRICING METHOD OF HYBRID DLS WITH GPGPU

  • YOON, YEOCHANG;KIM, YONSIK;BAE, HYEONG-OHK
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제20권4호
    • /
    • pp.277-293
    • /
    • 2016
  • We develop an efficient numerical method for pricing the Derivative Linked Securities (DLS). The payoff structure of the hybrid DLS consists with a standard 2-Star step-down type ELS and the range accrual product which depends on the number of days in the coupon period that the index stay within the pre-determined range. We assume that the 2-dimensional Geometric Brownian Motion (GBM) as the model of two equities and a no-arbitrage interest model (One-factor Hull and White interest rate model) as a model for the interest rate. In this study, we employ the Monte Carlo simulation method with the Compute Unified Device Architecture (CUDA) parallel computing as the General Purpose computing on Graphic Processing Unit (GPGPU) technology for fast and efficient numerical valuation of DLS. Comparing the Monte Carlo method with single CPU computation or MPI implementation, the result of Monte Carlo simulation with CUDA parallel computing produces higher performance.

MPI 브로드캐스트 통신을 위한 서킷 스위칭 기반의 파이프라인 체인 알고리즘 설계 (A Design of Pipeline Chain Algorithm Based on Circuit Switching for MPI Broadcast Communication System)

  • 윤희준;정원영;이용석
    • 한국통신학회논문지
    • /
    • 제37B권9호
    • /
    • pp.795-805
    • /
    • 2012
  • 본 논문에서는 분산 메모리 아키텍처를 사용하는 멀티프로세서에서 가장 병목 현상이 심한 집합통신 중 브로드캐스트를 위한 알고리즘 및 하드웨어 구조를 제안한다. 기존 시스템의 파이프라인 브로드캐스트 알고리즘은 전송 대역폭을 최대로 활용하는 알고리즘 이다. 하지만 파이프라인 브로드캐스트는 데이터를 여러 조각으로 나누어서 전송하기 때문에, 불필요한 동기화 과정이 반복된다. 본 논문에서는 동기화 과정의 중복이 없는 서킷 스위칭 기반의 파이프라인 체인 알고리즘을 위한 MPI 유닛을 설계하였고, 이를 systemC를 통하여 모델링하여 평가하였다. 그 결과 파이프라인 브로드캐스트 알고리즘과 비교하여 브로드캐스트 통신의 성능을 최대 3.3배 향상 시켰고, 이는 통신 버스의 전송대역폭을 거의 최대로 사용하였다. 그 후 verilogHDL로 하드웨어를 설계하였고, Synopsys사의 Design Compiler를 사용하여 TSMC 0.18 공정 라이브러리에서 합성하였으며 칩으로 제작하였다. 합성결과 제안하는 구조를 위한 하드웨어는 4,700 게이트(2-input NAND gate) 면적으로, 전체 면적에서 2.4%을 차지하였다. 이는 제안하는 구조가 작은 면적으로 MPSoC의 전체적인 성능을 높이는데 유용하다.

GPU를 이용한 이방성 탄성 거꿀 참반사 보정의 계산가속 (Acceleration of Anisotropic Elastic Reverse-time Migration with GPUs)

  • 최형욱;설순지;변중무
    • 지구물리와물리탐사
    • /
    • 제18권2호
    • /
    • pp.74-84
    • /
    • 2015
  • 탄성 거꿀 참반사 보정(elastic reverse-time migration)을 통해 물리적으로 의미가 있는 영상을 얻기 위해서는 탄성 파동방정식(elastic wave equation)을 통해 재구성된 벡터 파동장(reconstructed vector wavefield)으로부터 P파와 S파를 분리하는 파분리 알고리듬이 필요하다. 그리고 이방성을 고려한 탄성 거꿀 참반사 보정으로의 확장을 위해서는 이방성을 고려한 탄성 모델링 알고리듬 뿐만 아니라 이방성을 고려한 파분리가 필요하다. 이방성 탄성매질에서의 파분리는 등방성 탄성매질에서 주로 이용하는 Helmholtz decomposition과는 달리 탄성매질의 수직 속도 및 이방성 계수에 따라 계산된 유사미분필터(pseudo-derivative filter)를 이용한다. 이 필터는 적용에 많은 계산이 필요하기 때문에 이 연구를 통해 많은 양의 병렬계산을 효율적으로 수행할 수 있는 GPU (Graphic Processing Unit)를 이용하여 이방성 파분리를 수행하는 알고리듬을 개발하였다. 또한 GPU를 이용해 파분리를 수행하는 알고리듬을 포함하고 MPI (Message-Passing Interface)를 이용하는 효율성 높은 이방성 탄성 거꿀 참반사 보정 알고리듬을 개발하였다. 개발된 알고리듬의 검증을 위해 Marmousi-II 탄성모델을 기초로 수직 횡등방성(vertically transversely isotropy; VTI) 탄성모델을 구축하여 수치모형 실험을 수행해 다성분 합성탄성파탐사자료를 생성하였다. 이 합성탄성파 자료에 개발된 이방성 탄성 거꿀 참반사 보정 알고리듬을 적용하여 GPU와 MPI를 효과적으로 이용한 계산속도 향상과 이방성 파분리에 의한 영상결과의 정확도 향상을 보여주었다.