• 제목/요약/키워드: PE(Processing Element

검색결과 72건 처리시간 0.051초

휴대용 초음파 영상처리를 위한 멀티미디어 확장 명령어 및 최적의 매니코어 프로세서 구조 탐색 (Multimedia Extension Instructions and Optimal Many-core Processor Architecture Exploration for Portable Ultrasonic Image Processing)

  • 강성모;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권8호
    • /
    • pp.1-10
    • /
    • 2012
  • 본 논문에서는 휴대용 초음파 영상의 고성능 및 저전력 처리를 위해 멀티미디어 전용 명령어를 내장한 매니코어의 디자인 공간 탐색 방법론을 제안한다. 이를 위해서 멀티미디어 확장 명령어로 인한 서브워드 병렬처리 방식을 적용한 프로그램과 적용하지 않은 프로그램의 성능을 비교하여 에너지 효율 및 면적효율을 측정하였다. 모의실험 결과, MMX 형태 명령어를 사용한 프로그램은 베이스라인 프로그램 보다 $256{\times}256$ 해상도에서 실행시간은 평균 3.16배, 에너지 효율은 평균 8.13배, 면적 효율은 평균 3.16배의 향상을 보였다. $240{\times}320$ 해상도와 $240{\times}400$ 해상도에서는 각각 실행시간 평균 2.16배, 2.25배, 에너지 효율은 4.04배 4.34배, 면적 효율은 2.16배, 2.25배 향상되었다. 더불어 이러한 MMX 형태 명령어를 포함한 매니코어의 프로세싱 엘리먼트 (Processing Element: PE) 개수 및 메모리 사이즈를 변화시키면서 각 초음파 영상의 해상도별로 최적의 시스템 면적 및 에너지 효율을 보이는 PE 구조를 탐색하였다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.

향상된 재구성능력을 가진 고속 어레이 구조 (Fast Array Architecture with Improved Reconfigurability)

  • 이재익;김진상;조원경;김영수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 하계종합학술대회 논문집(2)
    • /
    • pp.451-454
    • /
    • 2004
  • The reconfigurable architecture is increasingly important for design of multi-mode communication systems and computation-intensive DSP systems. The proposed coarse-grain architecture is based on a reconfigurable processing element consisting of a MAC unit, a register file, a context data register, and PE interconnect control blocks. The main feature of the Proposed architecture is the loop context which enables faster configuration. Also, we propose another area-efficient reconfigurable architecture with improved reconfigurability. The SystemC modeling results show that the proposed architecture can reduce 9 clock cycles of 2D DCT compared to existing architectures.

  • PDF

서브어레이 접근을 위한 충돌회피 기억장치 (Conflict-Free Memory System for Subarray Access)

  • 박춘자;박종원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.43-45
    • /
    • 2002
  • 이 논문에서는 pq개의 PE(Processing Element)를 가진 SIMD처리기에서 기억 장치 접근시간을 감소시키기 위한 충돌회피 기억장치를 제안했다. 이 기억장치는 MxN 배열내 자료들의 임의의 위치에서 일정 간격인 블록형태와 8방향 선형태인 pd개의 자료들의 동시 접근을 지원한다. 기억모듈 수는 pq보다 큰 소수이고, 간격은 기억모듈 수의 배수가 아닌 양수이다. 간단하고 빠른 주소계산회로와 이동회로를 위해, 요구된 자료들에서 첫번째 자료의 기준 주소와 pq개의 주소간의 차들로 구분한 후, 주소간의 차들은 첫번째 자료 요소의 기억모듈번호로부터 번호에 따라 오름차순 정렬되고 빠른 기억모듈에 저장된다. 그래서 m개의 주소간의 차이들에 첫번째 자료의 기준주소 더해진 후, 첫 번째 요소의 기억모듈 번호에 의한 오른쪽 회전이 간격을 가진 9가지 서브어레이 모두이게 요구된다. 9가지 자료 이동 형태를 멀티플렉싱과 회전에 의해 1가지로 감소시킨 효율적인 자료 이동 회로를 제안하였다. 제안된 충돌회피기억 장치는 이전기억 장치와 비교하여 자료 접근형태, 간격, 자료 배열의 크기에 제한, 하드웨어 비용, 속도, 복잡도면에서 개선하였다.

  • PDF

완전탐색 블럭정합 알고리듬을 이용한 움직임 추정기의 VLSI 설계 및 구현 (Design and Implementation of Motion Estimation VLSI Processor using Block Matching Algorithm)

  • 이용훈;권용무;박호근;류근장;김형곤;이문기
    • 전자공학회논문지B
    • /
    • 제31B권9호
    • /
    • pp.76-84
    • /
    • 1994
  • This paper presents a new high-performance VLSI architecture and VLSI implementation for full-search block matching algorithm. The proposed VLSI architecture has the feature of two directional parallel and pipeline processing, thereby reducing the PE idle time at which the direction of block matching operation within the search area is changed. Therfore, the proposed architecture is faster than the existing architectures under the same clock frequency. Based on HSPICE circuit simulation, it is verified that the implemented procesing element is operated successfully within 13 ns for 75 MHz operation.

  • PDF

DCT/DST/DHT 하드웨어 구현을 위한 2차원 시스톨릭 어레이 (Two-dimentsional systolic arrays for DCT/DST/DHT hardware implementation)

  • 판성범;박래홍
    • 전자공학회논문지B
    • /
    • 제31B권10호
    • /
    • pp.11-20
    • /
    • 1994
  • We propose two architectures using two dimensional systolic arrays for the DCT/DST/DHT. One decomposes the N-point DCT/DST/DHT into even-and odd-numbered frequency samples, and then computes them independently at the same time. In addition, the proposed architecture can be used for the IDCT/IDST/IDHT. Anogher is the modified version for the DHT/IDHT. Two proposed architectures generate outputs sequentially using real multiplications and additions. As compared to the conventional methods the proposed systolic arrays exhibit many advantages in terms of simplicity of the processing element (PE), latency, and throughput. Teh simulation results using VHDL, international standard language for hardware description, show the effectiveness of the proposed architecture.

  • PDF

고밀도 성능향상을 위한 다중연산구조기반의 움직임추정 프로세서 (An Improving Motion Estimator based on multi arithmetic Architecture)

  • 이강환
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.631-632
    • /
    • 2006
  • In this paper, acquiring the more desirable to adopt design SoC for the fast hierarchical motion estimation, we exploit foreground and background search algorithm (FBSA) base on the dual arithmetic processor element(DAPE). It is possible to estimate the large search area motion displacement using a half of number PE in general operation methods. And the proposed architecture of MHME improve the VLSI design hardware through the proposed FBSA structure with DAPE to remove the local memory. The proposed FBSA which use bit array processing in search area can improve structure as like multiple processor array unit(MPAU).

  • PDF

AN ARTIFICIAL NEURAL NETWORK BASED SENSOR SYSTEMS FOR GAS LEAKAGE MONITORING

  • Ahn, Hyung-Il;Kim, Eung-Sik;Lee, June-Ho
    • 한국화재소방학회:학술대회논문집
    • /
    • 한국화재소방학회 1997년도 International Symposium on Fire Science and Technology
    • /
    • pp.282-288
    • /
    • 1997
  • The purpose of this paper is to predict the situation of leak in closed space using an Artificial Neural Network (ANN). The existing system can't monitor the whole He situations with on/off signals. Especially the first stage of data determines the leak spot and intensity is disregarded in gas accidents. To complement these faults, a new prototype of monitoring system is proposed. Ihe system is composed of'sensing systenL data acquisition system computer, and ANN implemented in software and is capable of identifying the leak spot and intensity in closed space. The concentration of gas is measured at the 4 different places. The network has 3 layers that are composed of 4 input Processing Element (PE),24 hidden PEs, md 4 output PEs. The ANN has optimum condition through several experiments and as a consequence the recognition rate of93.75% is achieved finally

  • PDF

효율적인 영상데이터 처리를 위한 SIMD기반 매니코어 프로세서 구현 (Implementation of SIMD-based Many-Core Processor for Efficient Image Data Processing)

  • 최병국;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-9
    • /
    • 2011
  • 최근 모바일 멀티미디어 기기들의 사용이 증가하면서 고성능, 저전력 멀티미디어 프로세서에 대한 필요성이 높아지고 있는 추세이다. 주문형반도체 (ASIC)는 모바일 멀티미디어에서 요구되는 고성능을 만족시키지만 다양한 형태의 멀티미디어 애플리케이션에서 요구되는 범용성을 만족시키지 못한다. 반면 DSP기반의 시스템은 범용성에 기인하여 다양한 형태의 애플리케이션에서 사용될 수 있으나, 주문형반도체 보다 높은 가격, 전력소모 및 낮은 성능을 가진다. 이러한 문제점을 해결하기 위해 본 논문에서는 범용성을 유지하면서 고성능, 저전력으로 영상데이터 처리가 가능한 단일 명령어 다중 데이터(Single Instruction Multiple Data, SIMD)처리 방식의 매니코어 프로세서를 제안한다. 제안한 SIMD기반 매니코어 프로세서는 16개의 프로세싱 엘리먼트(processing element, PE)로 구성되어 영상데이터 처리에 내재한 무수한 데이터 레벨 병렬성을 높인다. 모의 실험한 결과, 제안한 SIMD기반 매니코어 프로세서는 현재 상용 고성능 프로세서보다 평균 22배의 성능, 7배의 에너지 효율 및 3배의 시스템 면적 효율을 보였다.

파장 라우팅 광학 네트워크-온-칩에서의 최소 개수 파장 할당 기법 (A Minimum Wavelength Assignment Technique for Wavelength-routed Optical Network-on-Chip)

  • 김영석;이재훈;최적;한태희
    • 전자공학회논문지
    • /
    • 제50권10호
    • /
    • pp.82-90
    • /
    • 2013
  • 실리콘 포토닉스 기반의 광학 네트워크-온-칩(Optical NoC, ONoC)은 차세대 엑사스케일 컴퓨팅(Exascale computing)을 위한 유망 아키텍처 기술 중 하나이다. 최근 들어 활발해지고 있는 ONoC의 연구들은 파장 분할 다중화(Wavelength Division Multiplexing, WDM)를 이용하여 대역폭을 더욱 향상시키고 광신호의 경로 충돌을 방지하는데 초점을 두고 있다. 하지만 기존 ONoC 연구에서는 중앙 집중형 라우터 구조 위주로 Processing Element(PE)의 수가 증가함에 따라 WDM을 위해 사용되는 파장 수가 선형적으로 증가한다. 이러한 파장 수의 증가는 다중 파장을 위한 광원 및 광학 스위치 등 광학 장치를 구성하기 위한 비용을 증가시키고 광신호의 상호 간섭에 의한 감쇄 효과 등으로 ONoC의 확장성을 제한한다. 본 논문에서는 WDM 기반 2D-mesh 구조의 ONoC를 위한 분산형 광학 라우팅 아키텍처를 제안하고 커뮤니케이션의 연결정도에 따라 필요한 파장 수를 최소화하는 방법을 제시하였다. 기존 중앙 집중형 라우팅 아키텍처와 비교하여 $8{\times}8$ 네트워크에서 평균 56% 파장 수와, 21%의 광학 스위치 수를 감소시켰다.