• 제목/요약/키워드: PE(Processing Element

검색결과 72건 처리시간 0.033초

매니코어 프로세서 상에서 이산 웨이블릿 변환을 위한 성능 평가 및 분석 (Performance Evaluation and Analysis for Discrete Wavelet Transform on Many-Core Processors)

  • 박용훈;김종면
    • 대한임베디드공학회논문지
    • /
    • 제7권5호
    • /
    • pp.277-284
    • /
    • 2012
  • To meet the usage of discrete wavelet transform (DWT) on potable devices, this paper implements 2-level DWT using a reference many-core processor architecture and determine the optimal many-core processor. To explore the optimal many-core processor, we evaluate the impacts of a data-per-processing element ratio that is defined as the amount of data mapped directly to each processing element (PE) on system performance, energy efficiency, and area efficiency, respectively. This paper utilized five PE configurations (PEs=16, 64, 256, 1,024, and 4,096) that were implemented in 130nm CMOS technology with a 720MHz clock frequency. Experimental results indicated that maximum energy and area efficiencies were achieved at PEs=1,024. However, the system area must be limited 140mm2 and the power should not exceed 3 watts in order to implement 2-level DWT on portable devices. When we consider these restrictions, the most reasonable energy and area efficiencies were achieved at PEs=256.

A Fuzzy Microprocessor for Real-time Control Applications

  • Katashiro, Takeshi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.1394-1397
    • /
    • 1993
  • A Fuzzy Microprocessor(FMP) is presented, which is suitable for real-time control applications. The features include high speed inference of maximum 114K FLIPS at 20MHz system clocks, capability of up to 128-rule construction, and handing of 8 input variables with 8-bit resolution. In order to realize these features, the fuzzifier circuit and the processing element(PE) are well optimized for LSI implementation. The chip fabricated in 1.2$\mu\textrm{m}$ CMOS technology contains 71K transistors in 82.8 $\textrm{mm}^2$ die size and is packaged in 100-pin plastic QFP.

  • PDF

1차원 및 2차원 이산 웨이브렛 변환 계산을 위한 새로운 시스톨릭 어레이 (New systolic arrays for computation of the 1-D and 2-D discrete wavelet transform)

  • 반성범;박래홍
    • 전자공학회논문지S
    • /
    • 제34S권10호
    • /
    • pp.132-140
    • /
    • 1997
  • This paper proposes systolic array architectures for compuataion of the 1-D and 2-D discrete wavelet transform (DWT). The proposed systolic array for compuataion of the 1-D DWT consists of L processing element (PE) arrays, where the PE array denotes the systolic array for computation of the one level DWT. The proposed PE array computes only the product terms that are required for further computation and the outputs of low and high frequency filters are computed in alternate clock cycles. Therefore, the proposed architecuter can compute the low and high frequency outputs using a single architecture. The proposed systolic array for computation of the 2-D DWT consists of two systolic array architectures for comutation of the 1-D DWT and memory unit. The required time and hardware cost of the proposed systolic arrays are comparable to those of the conventional architectures. However, the conventional architectures need extra processing units whereas the proposed architectures fo not. The proposed architectures can be applied to subband decomposition by simply changing the filter coefficients.

  • PDF

고속의 클러스터 추정을 위한 매니코어 프로세서의 디자인 공간 탐색 (Design Space Exploration of Many-Core Processor for High-Speed Cluster Estimation)

  • 서준상;김철홍;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권10호
    • /
    • pp.1-12
    • /
    • 2014
  • 본 논문에서는 단일 명령어, 다중 데이터 처리 기반의 매니코어 프로세서를 이용하여 높은 계산량이 요구되는 차감 클러스터링 알고리즘을 병렬 구현하고 성능을 향상시킨다. 또한 차감 클러스터링 알고리즘을 위한 최적의 매니코어 프로서서 구조를 선택하기 위해 다섯 가지의 프로세싱 엘리먼트 (processing element, PE) 구조 (PEs=16, 64, 256, 1,024, 4,096)를 모델링하고, 각 PE구조에 대해 실행시간 및 에너지 효율을 측정한다. 두 가지 의료 영상 및 각 영상의 세 가지 해상도(($128{\times}128$, $256{\times}256$, $512{\times}512$)를 이용하여 모의 실험한 결과, 모든 경우에 대해 PEs=4,096구조에서 최고의 성능 및 에너지 효율을 보였다.

현악기의 물리적 모델링을 위한 최적의 멀티코어 프로세서 아키텍처 탐색 (Exploration of Optimal Multi-Core Processor Architecture for Physical Modeling of Plucked-String Instruments)

  • 강명수;최지원;김용민;김종면
    • 한국음향학회지
    • /
    • 제30권5호
    • /
    • pp.281-294
    • /
    • 2011
  • 물리적 모델링 기반 음 합성 알고리즘은 음 합성 시 많은 연산량을 요구하며 이는 실시간 음 합성을 저해한다. 이러한 문제를 해결하기 위해 본 논문에서는 물리적 모델링 기반 현악기 사운드 엔진을 멀티코어 프로세서에 구현하고, 사운드 엔진을 위한 최적의 멀티코어 프로세서 구조를 제안한다. 대상 현악기의 단위음을 합성하기 위해 각 프로세싱 엘리먼트 (processing element, PE)당 합성하는 샘플 (sample-per-processing element, SPE) 수를 변화시키는 실험을 통해 시스템의 성능 (system performance), 시스템 면적 효율 (area efficiency), 에너지 효율 (energy efficiency)을 각각 측정하고, 측정된 결과를 바탕으로 최적의 멀티코어 프로세서 구조를 선택하였다. 모의실험 결과, 어쿠스틱 기타는 SPE가 5,513과 2,756일 때 가장 높은 시스템 면적 효율과 에너지 효율을 보였으며, 클래식 기타는 SPE가 22,050과 5,513일 때 시스템 면적 효율과 에너지 효율이 가장 높았다. 또한 이를 이용하여 44.1 kHz의 샘플링율을 갖도록 대상 악기의 단위음을 합성한 결과 원음과 스펙트럼에서 매우 유사함을 확인할 수 있었고, 울산대학교 대학원생 및 교수 10명을 대상으로 실시한 MUSHRA 주관 청취 테스트에서도 좋은 결과를 얻었다.

음성인식용 DTW PE의 IC화를 위한 MIN회로의 설계 (An Integrated MIN Circuit Design of DTW PE for Speech Recognition)

  • 정광재;문홍진;최규훈;김종교
    • 한국통신학회논문지
    • /
    • 제15권8호
    • /
    • pp.639-647
    • /
    • 1990
  • 음성 인식에서의 dynamic time warp(DTW)은 반복적 계산을 필요로 하며, 이 계산을 수행하기에 합당한 PE cell의 설계는 매우 중요하다. 따라서 이 연구에서는 실제에 가까운 실시간 어휘 인식을 가능하게 하는 large dictionary 의 DTW 알고리즘을 hardware로 구현하기 위한 PE(Processing Element) cell의 설계에 주안점을 두었다. 이 DTW 용 PE cell은 크게 세가지의 블록으로 대별된다. 즉 MIN block, ADD block 그리고 ABS block인데, "MIN"은 accumulated minimum distance를 계산하기 위한 블록이고 "ADD"는 이들 minimum distance들의 합을 계산하는 블록, 그리고"ABS"는 이러한 합에 의한 local distance의 절대값을 구하기 위한 블록이다. 본 연구에서는 이들 세가지 블록중 MIN 회로의 설계 및 검증을 행하였으며, 3um CMOS N-well 설계 규칙에 따라 MIN 블록에 대한 레이아웃을 행한 후 설계 규칙 검사(DRC)를 마쳤다.레이아웃을 행한 후 설계 규칙 검사(DRC)를 마쳤다.

  • PDF

휴대 장치용 기타 음 합성을 위한 매니코어 아키텍처의 디자인 공간 탐색 (Design Space Exploration of Many-Core Architecture for Sound Synthesis of Guitar on Portable Device)

  • 강명수;김종면
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.1-4
    • /
    • 2014
  • Although physical modeling synthesis is becoming more and more efficient in rich and natural high-quality sound synthesis, its high computational complexity limits its use in portable devices. This constraint motivated research of single-instruction multiple-data many-core architectures that support the tremendous amount of computations by exploiting massive parallelism inherent in physical modeling synthesis. Since no general consensus has been reached which grain sizes of many-core processors and memories provide the most efficient operation for sound synthesis, design space exploration is conducted for seven processing element (PE) configurations. To find an optimal PE configuration, each PE configuration is evaluated in terms of execution time, area and energy efficiencies. Experimental results show that all PE configurations are satisfied with the system requirements to be implemented in portable devices.

  • PDF

병렬 처리 구조를 이용한 최적 정합 방식 CAM 설계에 관한 연구 (A Study on the CAM Designed by Adopting Best-Match Method using Parallel Processing Architecture)

  • 김상복;박노경;차균현
    • 한국통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1056-1063
    • /
    • 1994
  • 본 논문에서는 연상 메모리 소자에 대한 데이터와의 병렬 처리 최적 정합 방식을 적용하여 계산 효율과 처리율을 높인 단일 PE 아키텍쳐를 이용하여 CAM을 설계하였다. 설계한 CAM은 크게 3개의 기능 블록(입력 MUX, 최적 정합 CAM, 제어부)으로 구성되어 있다. 데이터 처리는 병렬 입력 및 병렬 비교를 하여 고속으로 데이터를 처리하는 전.병렬 방식을 채택하였다. 이러한 특성을 갖는 CAM은 회로 및 논리 시뮬레이션을 통하여 ETRI 3 m-well 공정 설계 규칙을 사용하여 설계하였다. 본 논문에서 설계된 CAM의 최대 동작 주파수는 20MHz이다.

  • PDF

모바일 초음파 영상신호처리를 위한 매니코어 프로세서 디자인 공간 탐색 (Design Space Exploration of Many-Core Processors for Mobile Ultrasound Image Signal Processing)

  • 최병국;김종면
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.183-186
    • /
    • 2011
  • 본 논문에서는 모바일 초음파(mobile ultrasound) 영상신호의 빔포밍 알고리즘에서 요구되는 고성능 및 저전력을 만족시키는 매니코어 프로세서에 대한 디자인 공간 탐색 방법을 소개한다. 매니코어 프로세서의 디자인 공간 탐색을 위해 매니코어의 각 프로세싱 엘리먼트(Processing Element, PE)당 초음파 영상신호 데이터의 수를 변화시키는 실험을 통해 실행시간, 에너지 효율 및 시스템 면적 효율을 측정하고, 측정된 결과를 바탕으로 최적의 매니코어 프로세서 구조를 선택하였다.

래스터화 알고리즘을 위한 최적의 매니코어 프로세서 구조 탐색 (Architecture Exploration of Optimal Many-Core Processors for a Vector-based Rasterization Algorithm)

  • 손동구;김철홍;김종면
    • 대한임베디드공학회논문지
    • /
    • 제9권1호
    • /
    • pp.17-24
    • /
    • 2014
  • In this paper, we implement and evaluate the performance of a vector-based rasterization algorithm for 3D graphics by using a SIMD (single instruction multiple data) many-core processor architecture. In addition, we evaluate the impact of a data-per-processing elements (DPE) ratio that is defined as the amount of data directly mapped to each processing element (PE) within many-core in terms of performance, energy efficiency, and area efficiency. For the experiment, we utilize seven different PE configurations by varying the DPE ratio (or the number PEs), which are implemented in the same 130 nm CMOS technology with a 500 MHz clock frequency. Experimental results indicate that the optimal PE configuration is achieved as the DPE ratio is in the range from 16,384 to 256 (or the number of PEs is in the range from 16 and 1,024), which meets the requirements of mobile devices in terms of the optimal performance and efficiency.