• 제목/요약/키워드: PE(Processing Element

검색결과 72건 처리시간 0.042초

깊이별 분리 합성곱을 위한 다중 스레드 오버랩 시스톨릭 어레이 (Multithreaded and Overlapped Systolic Array for Depthwise Separable Convolution)

  • 윤종호;이승규;강석형
    • 반도체공학회 논문지
    • /
    • 제2권1호
    • /
    • pp.1-8
    • /
    • 2024
  • 깊이별 분리 합성곱 (Depthwise Separable Convolution)을 처리할 때, processing element (PE)의 저활용성은 시스톨릭 어레이 (SA)의 한계점 중 하나이다. 본 연구에서는 깊이별 합성곱의 처리량을 극대화하기 위한 새로운 SA 아키텍처를 제안한다. 더불어, 제안된 SA 는 깊이별 합성곱 계산 중에 유휴 PE 에서 후속 점별 합성곱 (pointwise convolution)을 수행하여 활용도를 증가시킨다. 모든 깊이별 합성곱 연산 후에는 모든 PE 를 활용하여 나머지 점별 합성곱 연산의 속도를 향상시킨다. 결과적으로, 제안된 128×128 SA 는 MobileNetV3 연산 시, 기본 SA 및 RiSA 와 비교하여 속도가 4.05 배, 1.75 배 향상되고, 에너지 소비량을 각각 66.7 %, 25.4 % 감소한다.

다항식 표현을 이용한 DCME 알고리즘 설계 (Design of Degree-Computationless Modified Euclidean Algorithm using Polynomial Expression)

  • 강성진;김남용
    • 한국통신학회논문지
    • /
    • 제36권10A호
    • /
    • pp.809-815
    • /
    • 2011
  • 본 논문에서는 고속 RS(Reed-Solomon) 복호기의 KES(Key Equation Solver) 블록 구현에 ME(Modified Euclidean) 알고리즘을 효율적으로 설계할 수 있는 구조를 제안하고 구현하였다. 제안된 구조에서는 각 PE(Processing Element) 블록을 제어하기 위해 새로운 상대변수를 정의하고 다항식으로 표현함으로써, 입출력 신호가 간단해지고, 차수계산회로가 필요 없기 때문에 회로의 복잡도를 줄일 수 있다. 또한, PE 회로가 오류 정정 능력 t와 무관하기 때문에, t가 증가함에 따라 KES 블록의 하드웨어 복잡도가 선형적으로 증가하는 장점을 가진다. 제안된 구조와 기존의 구조를 비교하기 위해, RS(255,239,8) 복호기에 대한 KES 블록을 구현하고, 0.13um CMOS cell library를 이용하여 합성하였다. 실험 결과로부터, 제안된 구조를 이용하여 적은 gate count로 고속 RS 복호기 구현이 가능함을 알 수 있다.

고 처리율 병렬 터보 복호기 설계 (Design of a High Throughput Parallel Turbo Decoder)

  • 이원호;박희민;임종석
    • 전자공학회논문지
    • /
    • 제50권11호
    • /
    • pp.50-57
    • /
    • 2013
  • 본 논문은 하나 이상의 다양한 길이의 패킷을 동시에 복호할 수 있는 고 처리율 병렬 터보 복호기의 설계를 보인다. 터보 복호기의 병렬 구조는 반복 복호로 인한 긴 디코딩 시간을 절감시키며, 입/출력의 이중 버퍼 구조 설계는 패킷들의 연속적인 복호를 가능하게 함으로써 복호기의 처리율을 향상시킨다. 병렬 터보 복호기는 가장 긴 길이의 패킷을 복호할 수 있도록 설계되기 때문에, 이보다 짧은 길이의 패킷의 복호 시에는 사용하지 않는 PE(Processing Element)가 존재한다. 본 논문의 아이디어는 이 유휴 PE들을 연속적으로 이어지는 다음 패킷의 복호에 즉시 이용함으로써, 복호기 내의 PE 사용 효율을 높이고 처리율을 향상시키는 데 있다. 이를 위하여 여러 패킷의 복호를 동시에 가능하게 하는 제어가 필요하며, 본 논문에서는 이러한 제어 방법을 기술한다. 제안한 방법을 적용하여, 32개의 PE를 사용하면서 최대 6144비트 길이의 패킷을 복호 할 수 있는 병렬 터보 복호기를 구현하였으며, 기존 터보 복호기와 비교하여 약 16% 의 면적 증가가 있었으나, 짧은 패킷의 경우 기존 복호기에 비해 최대 28배의 높은 처리율 향상 효과를 보였다.

MPI를 이용한 PSC 프레임 비선형해석 프로그램의 병렬화 (Parallel Implementation of Nonlinear Analysis Program of PSC Frame Using MPI)

  • 이재석;최규천
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2001년도 봄 학술발표회 논문집
    • /
    • pp.61-68
    • /
    • 2001
  • A parallel nonlinear analysis program of prestressed concrete frame is migrated on a PC cluster system and a massively parallel processing system, CRAY T3E system, using MPI. The PC cluster system is configured with Pentium Ⅲ class PCs and fast ethernet. The CRAY T3E system is composed of a set of nodes each containing one Processing Element (PE), a memory subsystem and its distributed memory interconnect network. Parallel computing algorithms are implemented on element-wise processing parts including the calculation of stiffness matrix, element stresses and determination of material states, check of material failure and calculation of unbalanced loads. Parallel performance of the migrated program is evaluated through typical numerical examples.

  • PDF

초음파 영상선호의 크기 변화에 따른 최적의 매니코어 프로세서 구조 (Optimal Many-core Processor Architecture for Different Ultrasonic Image Resolutions)

  • 강성모;김종면
    • 융합신호처리학회논문지
    • /
    • 제13권1호
    • /
    • pp.50-55
    • /
    • 2012
  • 본 논문은 휴대용 초음파 진단기기에서 초음파 영상 크기 변화에 따라 요구되어지는 저전력 및 고성능을 만족시키기 위한 최적의 매니코어 프로세서 구조를 제안한다. 이를 위해 본 논문에서는 매니코어 프로세서 코어의 구조를 데이터의 크기에 따라 최대 일곱 가지의 프로세싱 엘리먼트(Processing Element, PE) 모델에서 성능 변화 및 전력 소모를 측정하였다. 모의실험 결과, 에너지 효율은 $256{\times}256$, $320{\times}240$, $800{\times}480$ 해상도를 갖는 영상에서 PE 수가 각각 1,024개, 64개, 256개 일 때 가장 높았다. 또한 $256{\times}256$$800{\times}480$ 해상도의 영상에서는 PE 수가 256개, $320{\times}240$ 해상도의 영상에서는 64개에서 가장 높은 면적 효율을 보였다.

확장 가능형 몽고메리 모듈러 곱셈기 (A Scalable Montgomery Modular Multiplier)

  • 최준백;신경욱
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.625-633
    • /
    • 2021
  • 몽고메리 모듈러 곱셈의 유연한 하드웨어 구현을 위한 확장 가능형 아키텍처를 기술한다. 처리요소 (processing element; PE)의 1차원 배열을 기반으로 하는 확장 가능형 모듈러 곱셈기 구조는 워드 병렬 연산을 수행하며, 사용되는 PE 개수 NPE에 따라 연산 성능과 하드웨어 복잡도를 조정하여 구현할 수 있다. 제안된 아키텍처를 기반으로 SEC2에 정의된 8가지 필드 크기를 지원하는 확장 가능형 몽고메리 모듈러 곱셈기(scalable Montgomery modular multiplier; sMM) 코어를 설계했다. 180-nm CMOS 셀 라이브러리로 합성한 결과, sMM 코어는 NPE=1 및 NPE=8인 경우에 각각 38,317 등가게이트 (GEs) 및 139,390 GEs로 구현되었으며, 100 MHz 클록으로 동작할 때, NPE=1인 경우에 57만회/초 및 NPE=8인 경우에 350만회/초의 256-비트 모듈러 곱셈을 연산할 수 있는 것으로 평가되었다. sMM 코어는 응용분야에서 요구되는 연산성능과 하드웨어 리소스를 고려하여 사용할 PE 수를 결정함으로써 최적화된 구현이 가능하다는 장점을 가지며, ECC의 확장 가능한 하드웨어 설계에 IP (intellectual property)로 사용될 수 있다.

전탐색 블럭정합 움직임추정 VLSI 에서 클럭사이클수를 줄이는 효율적 구조 (An Efficient Clock Cycle Reducing Architecture in Full-Search Block Matching Motion Estimation VLSI)

  • 윤종성;장순화
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.259-262
    • /
    • 2000
  • 본 논문은 전탐색 블럭매칭 움직임추정 VLSI 구조에서 클럭당 두연산(하나는 클럭의 상향에지, 하나는 하향에지에서 동작)을 수행하는 PE(Processing Element)를 교번적으로 결선, 클럭의 상향에지는 물론 하향에지에서도 동작하도록 하는 방식으로 클럭 사이클수를 줄이는 VLSI 구조를 제안한다 기존 구조에 그대로 적용되는 본 방법은 공급 데이타폭이 2 배, PE 의 HW 복잡도가 1.5 배 절대차 합 연산의 복잡도가 2 배로 늘어나 전체 하드웨어가 복잡해지나, PE수를 2배로 하여 클럭사이클수를 줄이는 방법에 비해서는 매우 효율적이다. 본 제안 구조는 계층적 움직임 추정 알고리듬을 사용한 MPEG-2 움직임 추정기 개발의 설계에 적용하여 기능과 HW 복잡도를 확인하였다.

  • PDF

의사결함처리요소를 이용한 단일트랙 이차원 시스토릭 어레이에서 재구성율의 향상 (Improvement of reconfiguration rate using pseudo faulty processing elements on the single track 2-D systolic array)

  • 신동석;우종호
    • 전자공학회논문지A
    • /
    • 제33A권2호
    • /
    • pp.163-172
    • /
    • 1996
  • In reconfiguration of systolic arrays, a potential disadvantage is that in the PRESENCE of consective faulty PE's logically connected PE's may be far apart, requiring the reduction of clock speed and thus reducing throughput of the array. Thus it is fundamental tokeep locality of interconnections as high as possible even after reconfiguration and to make reconfiguration implemented in the simple routing devices. However requirements of locality and simplicity mean that reconfiguring capability is limited. This paper deals iwth the issue of developing efficient method for reconfiguration of 2-D systolic arrays which can be achieved high reconfiguration rate, with the two conditions satisfying using concept of pseudo faulty processing element. Applying this concept to reconfiguration of systolic array, we have found similar condition. The simulation shows that recomfiguration rates are 97%, 84% when N faults ocurs on the N$\times$N array n case of N=5, 8 respectively.

  • PDF

타원곡선 기반 공개키 암호 시스템 구현을 위한 Scalable ECC 프로세서 (A Scalable ECC Processor for Elliptic Curve based Public-Key Cryptosystem)

  • 최준백;신경욱
    • 한국정보통신학회논문지
    • /
    • 제25권8호
    • /
    • pp.1095-1102
    • /
    • 2021
  • 성능과 하드웨어 복잡도 사이에 높은 확장성과 유연성을 갖는 확장 가능형 ECC 구조를 제안한다. 구조적 확장성을 위해 유한체 연산을 32 비트 워드 단위로 병렬 처리하는 처리요소의 1차원 배열을 기반으로 모듈러 연산회로를 구현하였으며, 사용되는 처리요소의 개수를 1~8개 범위에서 결정하여 회로를 합성할 수 있도록 설계되었다. 이를 위해 워드 기반 몽고메리 곱셈과 몽고메리 역원 연산의 확장 가능형 알고리듬을 적용하였다. 180-nm CMOS 공정으로 확장 가능형 ECC 프로세서 (sECCP)를 구현한 결과, NPE=1인 경우에 100 kGE와 8.8 kbit의 RAM으로 구현되었고, NPE=8인 경우에는 203 kGE와 12.8 kbit의 RAM으로 구현되었다. sECCP가 100 MHz 클록으로 동작하는 경우, NPE=1인 경우와 NPE=8인 경우의 P256R 타원곡선 상의 점 스칼라 곱셈을 각각 초당 110회, 610회 연산할 수 있는 것으로 분석되었다.

기타 음 합성을 위한 최적의 SIMD기반 매니코어 프로세서 구현 (Implementation of an Optimal SIMD-based Many-core Processor for Sound Synthesis of Guitar)

  • 최지원;강명수;김종면
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권1호
    • /
    • pp.1-10
    • /
    • 2012
  • 프로세서는 더 이상 동작 주파수를 높이는 방법이 아닌 다수의 프로세서를 집적하는 멀티프로세서로 기술 발전이 이루어지고 있다. 최근 2, 4, 8개의 프로세서 코어를 넘어 64, 128개 이상의 프로세서를 집적한 대규모 데이터 처리용 고성능 프로세서들이 개발되고 있다. 본 논문에서는 기타의 음 합성을 위한 최적의 매니코어 프로세서 구조를 제안한다. 기존의 연구에서는 하나의 기타 현에 하나의 프로세싱 엘리먼트(processing element, PE)를 할당하여 음을 합성하였으나, 본 논문은 하나의 기타 현에 여러 개의 PE를 할당하고 각각의 경우에 대해 시스템 성능, 시스템 면적 효율 및 에너지 효율을 평가하였다. 샘플링율이 44.1kHz, 양자화 비트 16인 기타 음을 사용하여 모의 실험한 결과, 시스템 면적 효율은 PE 수가 24개, 에너지 효율은 PE 수가 96개일 때 각각 최적의 효율을 보였다. 또한, 최적의 매니코어 프로세서를 이용하여 합성한 결과 합성음은 원음과 스펙트럼에서 매우 유사하였다. 더불어, 음 합성에 가장 많이 사용되는 TI TMS320C6416보다 시스템 면적에서 1,235배, 에너지 효율에서 22배의 향상을 보였다.