• 제목/요약/키워드: systolic array architecture

검색결과 62건 처리시간 0.027초

셀룰러 오토마타를 이용한 LSB 곱셈기 설계 (Design of LSB Multiplier using Cellular Automata)

  • 하경주;구교민
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.1-8
    • /
    • 2002
  • GF(2$^{m}$ )상에서 모듈러 곱셈은 공개키 암호 시스템과 같은 응용에서의 기본 연산으로 사용된다. 본 논문에서는 이와 같은 모듈러 곱셈 연산을 셀룰러 오토마타를 이용하여, GF(2$^{m}$ )상에서 m클럭 사이클만에 처리할 수 있는 연산기를 설계하였다. 이 곱셈기는 LSB 우선 방식으로 설계되었으며, 기존의 시스톨릭 구조를 이용한 곱셈기 보다 하드웨어 복잡도가 낮고 처리 시간이 빠른 장점이 있다. 그리고 설계된 곱셈기는 지수연산을 위한 하드웨어 설계에 효율적으로 이용될 수 있을 것이다.

  • PDF

재구성 가능한 신경망 프로세서의 설계 (A Design of Reconfigurable Neural Network Processor)

  • 장영진;이현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.368-371
    • /
    • 1999
  • In this paper, we propose a neural network processor architecture with on-chip learning and with reconfigurability according to the data dependencies of the algorithm applied. For the neural network model applied, the proposed architecture can be configured into either SIMD or SRA(Systolic Ring Array) without my changing of on-chip configuration so as to obtain a high throughput. However, changing of system configuration can be controlled by user program. To process activation function, which needs amount of cycles to get its value, we design it by using PWL(Piece-Wise Linear) function approximation method. This unit has only single latency and the processing ability of non-linear function such as sigmoid gaussian function etc. And we verified the processing mechanism with EBP(Error Back-Propagation) model.

  • PDF

실시간 SAR 영상 생성을 위한 Range Doppler 알고리즘의 FPGA 기반 가속화 (FPGA-Based Acceleration of Range Doppler Algorithm for Real-Time Synthetic Aperture Radar Imaging)

  • 정동민;이우경;정윤호
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.634-643
    • /
    • 2021
  • 본 논문에서는 실시간 SAR (synthetic aperture radar) 영상 생성을 위한 RDA (range Doppler algorithm)의 FPGA 기반 가속화 기법을 제안한다. RDA의 연산 과정인 거리 및 방위 압축 연산을 가속하기 위한 시스토릭 어레이 구조 기반 정합 필터와 RCM (range cell migration)을 보상해 주기 위한 고속의 sinc 보간 연산기의 하드웨어 구조를 제시하고, Xilinx Alveo FPGA에 다채널 커널 형태로 구현하여 가속을 진행하였다. 제안된 구조의 하드웨어를 사용하여 4096×4096 크기의 영상 생성시간을 측정한 결과, Nvidia RTX3090 GPU를 사용하여 SAR 영상을 생성하는 시간보다 약 2배 가속이 가능함을 확인하였다. 또한, 제안된 가속 하드웨어는 60,247개의 CLB LUT, 103,728개의 CLB register, 20개의 block RAM tile과 592개의 DPS로 구현 가능하며, 최대 동작속도는 312 MHz임을 확인하였다.

메모리 호출과 연산횟수 감소기법을 이용한 저전력 움직임추정 VLSI 구현 (VLSI Implementation of Low-Power Motion Estimation Using Reduced Memory Accesses and Computations)

  • 문지경;김남섭;김진상;조원경
    • 한국통신학회논문지
    • /
    • 제32권5A호
    • /
    • pp.503-509
    • /
    • 2007
  • 저전력 움직임추정은 휴대용 정보단말의 실시간 비디오 코딩에 필수적이다. 본 논문에서는 전역탐색 블록정합 방식을 적용한 저전력 움직임추정 알고리즘과 이를 1차원 배열의 VLSI로 구현한 하드웨어 구조를 제안한다. 전역 탐색 블럭정합 방법의 전력소비의 주원인은 많은 연산량과 탐색영역의 프레임 데이터를 호출하는 횟수가 많다는 점이다. 본 논문에서는 두 개의 인접한 참조블럭의 움직임추정 연산을 동시에 병렬로 수행하여 탐색영역의 메모리 호출횟수를 감소시켰으며, 움직임추정시 결과에 영향을 미치지 않는 불필요한 연산을 제거하였다. 제안된 움직임추정 알고리즘을 1차원 PE (processing element) 배열구조의 VLSI로 구현하여 실험한 결과, 제안된 움직임추정기는 기존의 저전력 움직임추정기에 비해 9.3%의 소비전력 감소와 2배 정도의 속도향상이 있음을 확인하였다.

시스톨릭 어레이에 기반한 SADCT의 효율적 VLSI 구조 설계 (Design of an efficient VLSI architecture of SADCT based on systolic array)

  • 강태준;정의윤;하영호
    • 대한전자공학회논문지SP
    • /
    • 제38권3호
    • /
    • pp.46-46
    • /
    • 2001
  • 본 논문에서는 시스톨릭 어레이에 기반한 모양 적응적 이산 여현 변환(SADCT)의 효율적 VLSI 구조를 제안한다. 모양 적응적 이산 여현 변환은 이산 여현 변환과 달리 변환 크기가 각 블록에서의 객체의 모양에 따라 가변적이므로 기존의 시간 순환구조에서는 각 처리소자의 이용도와 처리속도가 모두 저하된다. 본 논문에서는 이러한 단점을 극복하기 위해 메모리를 필요로 하지 않는 시스톨릭 어레이에 기반한 구조를 제안한다. 제안된 구조에서는 1차원 SADCT를 연속적으로 수행함으로 처리속도를 향상시키고 첫 번째 열의 처리소자들을 마지막 열의 처리소자들과 연결하고, 입력 데이터는 각각의 재배열된 블록에서의 최대 데이터 크기에 따라 각 열에 병렬로 입력하여 처리소자의 이용도를 향상시켰다. 제안된 구조는 VHDL로 기술하고 MentorTM를 이용하여 기능검증을 수행하였다. 검증결과, 하드웨어 복잡도가 다소 증가하나, 처리속도는 기존의 방법에 비해 두 배정도 향상되었다.

희소 행렬 곱셈을 효율적으로 수행하기 위한 유동적 시스톨릭 어레이 구조 설계 (Design of the Adaptive Systolic Array Architecture for Efficient Sparse Matrix Multiplication)

  • 서주원;공준호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.24-26
    • /
    • 2022
  • 시스톨릭 어레이는 DNN training 등 인공지능 연산의 대부분을 차지하는 행렬 곱셈을 수행하기 위한 하드웨어 구조로 많이 사용되지만, sparsity 가 높은 행렬을 연산할 때 불필요한 동작으로 인해 효율성이 크게 떨어진다. 본 논문에서 제안된 유동적 시스톨릭 어레이는 matrix condensing, weight switching, 그리고 direct output path 의 방법과 구조를 통해 sparsity 가 높은 행렬 곱셈의 수행 사이클을 줄일 수 있다. 시뮬레이션을 통해 기존 시스톨릭 어레이와 유동적 시스톨릭 어레이의 성능을 비교하였으며 8×8, 16×16, 32×32 의 크기를 가진 행렬을 동일 크기의 시스톨릭 어레이로 연산하였을 때 필요 사이클 수를 최대 12 사이클 절감할 수 있는 것을 확인하였다.

GF(2m) 상의 여분 표현을 이용한 낮은 지연시간의 몽고메리 AB2 곱셈기 (Low-latency Montgomery AB2 Multiplier Using Redundant Representation Over GF(2m)))

  • 김태완;김기원
    • 대한임베디드공학회논문지
    • /
    • 제12권1호
    • /
    • pp.11-18
    • /
    • 2017
  • Finite field arithmetic has been extensively used in error correcting codes and cryptography. Low-complexity and high-speed designs for finite field arithmetic are needed to meet the demands of wider bandwidth, better security and higher portability for personal communication device. In particular, cryptosystems in GF($2^m$) usually require computing exponentiation, division, and multiplicative inverse, which are very costly operations. These operations can be performed by computing modular AB multiplications or modular $AB^2$ multiplications. To compute these time-consuming operations, using $AB^2$ multiplications is more efficient than AB multiplications. Thus, there are needs for an efficient $AB^2$ multiplier architecture. In this paper, we propose a low latency Montgomery $AB^2$ multiplier using redundant representation over GF($2^m$). The proposed $AB^2$ multiplier has less space and time complexities compared to related multipliers. As compared to the corresponding existing structures, the proposed $AB^2$ multiplier saves at least 18% area, 50% time, and 59% area-time (AT) complexity. Accordingly, it is well suited for VLSI implementation and can be easily applied as a basic component for computing complex operations over finite field, such as exponentiation, division, and multiplicative inverse.

경량화 시스템에 적합한 유한체 $GF(2^m)$에서의 고속 역원기 (A Fast Inversion for Low-Complexity System over GF(2 $^{m}$))

  • 김소선;장남수;김창한
    • 대한전자공학회논문지SD
    • /
    • 제42권9호
    • /
    • pp.51-60
    • /
    • 2005
  • 효율적인 암호 시스템의 설계는 환경에 적합한 유한체 연산이 뒷받침되어야 한다 특히 유한체에서의 역원 연산은 다른 연산에 비해 가장 많은 수행시간을 소비하므로, 개선에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 다항식 기저를 기반으로 Extended binary god algorithm (EBGA)를 이용한 유한체 $GF(2^m)$에서의 고속 역원 알고리즘을 제안한다. 제안된 역원 알고리즘은 EBGA보다 $18.8\%$, Montgomery inverse algorithm (MIA)보다 $45.9\%$ 적은 수행횟수를 가진다. 또한 기존에 제안된 시스톨릭 어레이 구조 (Systolic array structure)는 유한체 차수 m이 증가하는 경우 많은 하드웨어 리소스가 요구된다. 따라서 스마트 카드나 모바일 폰 등과 같은 경량화와 저전력이 요구되는 환경에는 적용하기 힘들다. 본 논문에서는 경량화된 암호 시스템 환경을 바탕으로 공간복잡도가 적으면서 동기화된 연산을 수행하는 새로운 하드웨어 구조를 제시한다. 본 논문에서 제안된 하드웨어 구조는 유한체 $GF(2^m)$에서의 역원을 계산하기 위해 기존의 알고리즘보다 적은 덧셈 연산과 모듈러 감산 연산을 포함하고 있으며, 유한체 $GF(2^m)$와 GF(p)에 적용이 가능한 통합된 역원기이다.

타원곡선 암호시스템을 위한 GF(2$^{m}$ )상의 비트-시리얼 나눗셈기 설계 (Design of a Bit-Serial Divider in GF(2$^{m}$ ) for Elliptic Curve Cryptosystem)

  • 김창훈;홍춘표;김남식;권순학
    • 한국통신학회논문지
    • /
    • 제27권12C호
    • /
    • pp.1288-1298
    • /
    • 2002
  • 타원곡선 암호시스템을 GF(2$^{m}$ )상에서 고속으로 구현하기 위해서는 빠른 나눗셈기가 필요하다. 빠른 나눗셈 연산을 위해선 비트-패러럴 구조가 적합하나 타원곡선 암호시스템이 충분한 안전도를 가지기 위해서는 m의 크기가 최소한 163보다 커야 한다. 즉 비트-패러럴 구조는 0(m$^2$)의 면적 복잡도를 가지기 때문에 이러한 응용에는 적합하지 않다. 따라서, 본 논문에서는 CF(2$^{m}$ )상에서 표준기저 표기법을 사용하여 모듈러 나눗셈 A(x)/B(x) mod G(x)를 고속으로 수행하는 새로운 비트-시리얼 시스톨릭 나눗셈기를 제안한다. 효율적인 나눗셈기 구조를 얻기 위해, 새로운 바이너리 최대공약수(GCD) 알고리즘을 유도하고, 이로부터 자료의존 그래프를 얻은 후, 비트-시리얼 시스톨릭 나눗셈기를 설계한다. 본 논문에서 제안한 나눗셈기는 0(m)의 시간 및 면적 복잡도를 가지며, 연속된 입력 데이터에 대하여, 초기 5m-2 사이클의 지연 후, m 사이클 마다 나눗셈의 결과를 출력한다. 제안된 나눗셈기를 동일한 입출력 구조를 가지는 기존의 연구 결과들과 비교 분석한 결과 칩 면적 및 계산 지연시간 모두에 있어 상당한 개선을 보인다. 따라서 제안된 나눗셈기는 적은 하드웨어를 사용하면서 고속으로 나눗셈 연산을 수행할 수 있기 때문에 타원곡선 암호화시스템의 나눗셈 연산기로 매우 적합하다. 또한 제안한 구조는 기약 다항식(irreducible polynomial) 선택에 있어 어떤 제약도 두지 않고, 단 방향의 신호흐름을 가지면서, 매우 규칙적이기 때문에 필드 크기 m에 대해 높은 유연성 및 확장성을 제공한다.였다. an extraction system, a new optical nonlinear joint transform correlator(NJTC) is introduced to extract the hidden data from a stego image in real-time, in which optical correlation between the stego image and each of the stego keys is performed and from these correlation outputs the hidden data can be asily exacted in real-time. Especially, it is found that the SNRs of the correlation outputs in the proposed optical NJTC-based extraction system has been improved to 7㏈ on average by comparison with those of the conventional JTC system under the condition of having a nonlinear parameter less than k=0.4. This good experimental results might suggest a possibility of implementation of an opto-digital multiple information hiding and real-time extracting system. 촉각에 있는 지각신경세포가 뇌의 촉각엽으로 뻗어 들어가 위의 5가지 신경연접중 어느 형을 형성하는지를 관찰하기 위하여 좌측 촉각의

순서적 역방향 상태천이 제어에 의한 역추적 비터비 디코더 (Trace-Back Viterbi Decoder with Sequential State Transition Control)

  • 정차근
    • 대한전자공학회논문지TC
    • /
    • 제40권11호
    • /
    • pp.51-62
    • /
    • 2003
  • 본 논문에서는 역추적 비터비 디코더의 순서적 역방향 상태천이 제어에 의한 새로운 생존 메모리 제어와 복호기법을 제안한다. 비터비 알고리즘은 채널오류의 검출과 정정을 위한 부호기의 상태를 추정해서 복호하는 최우추정 복호기법이다. 이 알고리즘은 심볼간 간섭의 제거나 채널등화 등 디지털 통신의 광범위한 분야에 응용되고 있다. 반복연산의 과정을 내포하고 있는 비터비 디코더에서 처리속도의 향상과 함께 VLSI 칩 설계시 점유면적의 삭감을 통한 칩 사이즈의 축소 및 소비전력의 저감 등을 달성하기 위해서는 새로운 구조의 ACS 및 생존 메모리 제어에 관한 연구가 요구되고 있다. 이를 해결하기 위한 하나의 방안으로, 본 논문에서는 역추적 기법에 의한 복호과정에서 역방향 상태천이의 연속적인 제어에 의한 자동 복호 알고리즘을 제안한다. 제안방식은 기존의 방법에 비해 전체 메모리 사용량이 적을 뿐만 아니라 구조가 간단하다. 또한, 메모리 억세스 제어를 위한 주변 회로구성이 필요 없고, 메모리 억세스를 위한 대역폭을 줄일 수 있어 칩 설계시 area-efficiency가 높고 소비전력이 적어지는 특성이 있다 시스톨릭 어레이 구조 형태를 갖는 병렬처리 구성과, 채널잡음을 포함한 수신 데이터로부터의 복호와 구체적인 응용 시스템에 적용한 결과를 제시한다.