• 제목/요약/키워드: Systolic array

검색결과 144건 처리시간 0.025초

실시간 SAR 영상 생성을 위한 Range Doppler 알고리즘의 FPGA 기반 가속화 (FPGA-Based Acceleration of Range Doppler Algorithm for Real-Time Synthetic Aperture Radar Imaging)

  • 정동민;이우경;정윤호
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.634-643
    • /
    • 2021
  • 본 논문에서는 실시간 SAR (synthetic aperture radar) 영상 생성을 위한 RDA (range Doppler algorithm)의 FPGA 기반 가속화 기법을 제안한다. RDA의 연산 과정인 거리 및 방위 압축 연산을 가속하기 위한 시스토릭 어레이 구조 기반 정합 필터와 RCM (range cell migration)을 보상해 주기 위한 고속의 sinc 보간 연산기의 하드웨어 구조를 제시하고, Xilinx Alveo FPGA에 다채널 커널 형태로 구현하여 가속을 진행하였다. 제안된 구조의 하드웨어를 사용하여 4096×4096 크기의 영상 생성시간을 측정한 결과, Nvidia RTX3090 GPU를 사용하여 SAR 영상을 생성하는 시간보다 약 2배 가속이 가능함을 확인하였다. 또한, 제안된 가속 하드웨어는 60,247개의 CLB LUT, 103,728개의 CLB register, 20개의 block RAM tile과 592개의 DPS로 구현 가능하며, 최대 동작속도는 312 MHz임을 확인하였다.

트랜스포머 알고리즘의 멀티 헤드 어텐션과 피드포워드 네트워크에서 활용 가능한 효율적인 행렬 곱셈기 (An Efficient Matrix Multiplier Available in Multi-Head Attention and Feed-Forward Network of Transformer Algorithms)

  • 장석우;김동순
    • 전기전자학회논문지
    • /
    • 제28권1호
    • /
    • pp.53-64
    • /
    • 2024
  • 자연어 처리 모델이 발전함에 따라 챗 GPT와 같은 대화형 언어 생성 AI 모델이 널리 사용되고 있다. 따라서 자연어 처리 최신 모델의 기반이 되는 트랜스포머 알고리즘을 하드웨어로 구현하여 연산 속도와 전력 소비량을 개선하는 것은 중요하다고 할 수 있다. 특히, 행렬 곱셈을 통해 문장에서 서로 다른 단어 간의 관계를 분석하는 멀티 헤드 어텐션과 피드 포워드 네트워크는 트랜스포머에서 연산량이 가장 큰 핵심적인 알고리즘이다. 본 논문에서는 기존의 시스톨릭 어레이를 변형하여 행렬 곱 연산 속도를 개선하고, 입력 단어 개수 변동에 따라 지연시간도 변동되는 유동적인 구조를 제안한다. 또한, 트랜스포머 알고리즘의 정확도를 유지하는 형태로 양자화를 하여 메모리 효율성과 연산 속도를 높였다. 본 논문은 평가를 위해 멀티헤드어텐션과 피드포워드 네트워크에서 소요되는 클럭사이클을 검증하고 다른 곱셈기와 성능을 비교하였다.

여분 기저를 이용한 멀티플렉서 기반의 유한체 곱셈기 (Multiplexer-Based Finite Field Multiplier Using Redundant Basis)

  • 김기원
    • 대한임베디드공학회논문지
    • /
    • 제14권6호
    • /
    • pp.313-319
    • /
    • 2019
  • Finite field operations have played an important role in error correcting codes and cryptosystems. Recently, the necessity of efficient computation processing is increasing for security in cyber physics systems. Therefore, efficient implementation of finite field arithmetics is more urgently needed. These operations include addition, multiplication, division and inversion. Addition is very simple and can be implemented with XOR operation. The others are somewhat more complicated than addition. Among these operations, multiplication is the most important, since time-consuming operations, such as exponentiation, division, and computing multiplicative inverse, can be performed through iterative multiplications. In this paper, we propose a multiplexer based parallel computation algorithm that performs Montgomery multiplication over finite field using redundant basis. Then we propose an efficient multiplexer based semi-systolic multiplier over finite field using redundant basis. The proposed multiplier has less area-time (AT) complexity than related multipliers. In detail, the AT complexity of the proposed multiplier is improved by approximately 19% and 65% compared to the multipliers of Kim-Han and Choi-Lee, respectively. Therefore, our multiplier is suitable for VLSI implementation and can be easily applied as the basic building block for various applications.

RS 코드를 이용한 복호기 설계 (A Decoder Design for High-Speed RS code)

  • 박화세;김은원
    • 전자공학회논문지T
    • /
    • 제35T권1호
    • /
    • pp.59-66
    • /
    • 1998
  • 본 논문은 에러 정정 코드로서 가장 많이 사용하는 RS(Reed-Solomom)코드를 이용한 고속 복호기 설계에 관한 논문이며 VHDL을 사용하여 실행을 하였으며, 이 RS 복호기는 시간 영역 대신 변환 영역에서 설계하였다. 변환 복호기는 구조의 단순성 때문에 VLSI칩 설계가 용이하며, 모든 설계에 대하여 systolic 배열을 적용하기 쉬운 파이프라인 아키텍춰를 사용하였다. 변환 RS 복호기는 고속 데이타 전송율을 갖는 복호기에 적합하여 FPGA 기술로 합성 한 후 복호율은 43MByte/s 보다 더 크고 범위는 1853 LCs(Logic Cell)을 갖는다. 파이프라인을 갖는 다른 아키텍춰와 비교하여 볼 때 이러한 결과는 다른 기술과 비교하여 우수한 기술이며, 에러 정정 능력과 파이프라인 성능은 컴퓨터 시뮬레이션을 통하여 검증하였다.

  • PDF

An Efficient Multiplexer-based AB2 Multiplier Using Redundant Basis over Finite Fields

  • Kim, Keewon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.13-19
    • /
    • 2020
  • 본 논문에서는 유한체상의 여분 기저(redundant basis)를 사용한 모듈러 AB2 곱셈을 수행하는 멀티플렉서(multiplexer) 기반의 기법을 제안한다. 그리고 제안한 기법을 사용하여 효율적인 멀티플렉서 기반의 세미-시스톨릭(semi-systolic) AB2 곱셈기를 제안한다. 모듈러 AB2 곱셈기의 셀 내부의 연산을 멀티플렉서로 처리할 수 있는 수식을 유도한다. 멀티플렉서를 이용하여 셀을 구현하여, 셀의 지연시간을 감소시킨다. 기존의 구조들과 비교하면, 제안한 AB2 곱셈기는 Liu 등, Lee 등, Ting 등, 및 Kim-Kim의 곱셈기들의 AT 복잡도보다 약 80.9%, 61.8%, 61.8%, 및 9.5% 가량이 감소되었다. 따라서, 제안한 곱셈기는 VLSI(very large scale integration) 구현에 적합하며 다양한 응용에 쉽게 적용할 수 있다.

유한 필드 GF(2m)상에서의 LSB 우선 디지트 시리얼 곱셈기 구현 (Implementation of a LSB-First Digit-Serial Multiplier for Finite Fields GF(2m))

  • 김창훈;홍춘표;우종정
    • 정보처리학회논문지A
    • /
    • 제9A권3호
    • /
    • pp.281-286
    • /
    • 2002
  • 본 논문에서는 유한 필드 GF$(2^m)$상에서 모듈러 곱셈 $A({\times})B$ mod G,({\times})를 수행하는 LSB 우선 디지트 시리얼 시스톨릭 곱셈기를 구현하였다. 구현된 곱셈기는 디지트의 크기를 L로 설정했을 경우 연속적인 입력 데이터에 대해 [m/L] 클럭 사이클 비율로 곱셈의 결과를 출력한다. 본 연구에서 구현된 곱셈기를 기존의 곱셈기와 비교 분석한 결과, 더 간단한 하드웨어 구조를 가지고, 데이터 처리 지연 시간이 감소되었다. 또한 본 연구에서 제안한 구조는 단방향의 신호 흐름 특성을 가지고 있으며, 매우 규칙적이기 때문에 m과 L에 대해 높은 확장성을 가진다.

유한 필드 $GF(2^m)$상에서의 MSB 우선 디지트 시리얼 곱셈기 설계 (Design of MSB-First Digit-Serial Multiplier for Finite Fields GF(2″))

  • 김창훈;한상덕;홍춘표
    • 한국통신학회논문지
    • /
    • 제27권6C호
    • /
    • pp.625-631
    • /
    • 2002
  • 본 논문에서는 유한 필드 GF(2")상에서 모듈러 곱셈 A(x)B(x) mod G(x)를 수행하는 MSB 우선 디지트 시리얼곱셈기를 설계하였다. 이를 위하여 GF(2")상에서 MSB 우선 곱셈 알고리즘으로부터 자료 의존 그래프를 구하고, 이를 이용하여 효율적인 디지트 시리얼 시스톨릭 곱셈기를 설계한다. 설계된 곱셈기에 대한 VHDL 코드를 구하고 시뮬레이션을 거친 후 FPGA 로 구현한다. 구현된 곱셈기는 디지트의 크기를 L로 설정했을 경우 연속적인 입력 데이터에 대해 [m/L) 클럭 사이클 비율로 곱셈의 결과를 출력한다. 본 연구에서 구현된 곱셈기를 기존의 곱셈기와 비교 분석한 결과 시간 및 공간 복잡도가 감소되었으며, 간단한 구조로서 데이터 처리 지연시간을 줄일 수 있다. 또한 본 연구에서 제안한 구조는 단 방향의 신호 흐름 특성을 가지고 있으며, 매우 규칙적이기 때문에 m과 L에 대해 높은 확장성을 가진다.

$GF(2^{m})$ 상에서 새로운 디지트 시리얼 $AB^{2}$ 시스톨릭 어레이 설계 및 분석 (Design and Analysis of a Digit-Serial $AB^{2}$ Systolic Arrays in $GF(2^{m})$)

  • 김남연;유기영
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권4호
    • /
    • pp.160-167
    • /
    • 2005
  • $GF(2^{m})$ 상의 공개키 암호 시스템에서 나눗셈/역원은 기본이 되는 연산으로 내부적으로 $AB^{2}$ 연산을 반복적으로 수행함으로써 계산이 된다. 본 논문에서는 유한 필드 $GF(2^{m})$상에서 $AB^{2}$ 연산을 수행하는 디지트 시리얼(digit-serial) 시스톨릭 구조를 제안하였다. L(디지트 크기)×L 크기의 디지트 시리얼 구조로 유도하기 위하여 새로운 $AB^{2}$ 알고리즘을 제안하고, 그 알고리즘에서 유도된 구조의 각 셀을 분리, 인덱스 변환시킨 후 병합하는 방법을 사용하였다. 제안된 구조는 공간-시간 복잡도를 비교할 때, 디지트 크기가 m보다 적을 때 비트 패러럴 구조에 비해 효율적이고, $(1/5)log_{2}(m+1)$ 보다 적을 때 비트 시리얼(bit-serial) 구조에 비해 효율적이다. 또한, 제안된 디지트 시리얼 구조에 파이프라인 기법을 적용하면 그렇지 않은 구조에 비해 m=160, L=8 일 때 공간-시간 복잡도가 $10.9\%$ 적다. 제안된 구조는 암호 프로세서 칩 디자인의 기본 구조로 이용될 수 있고, 또한 단순성, 규칙성과 병렬성으로 인해 VLSI 구현에 적합하다.

인공지능프로세서 기술 동향 (Trends in AI Processor Technology)

  • 이미영;정재훈;이주현;한진호;권영수
    • 전자통신동향분석
    • /
    • 제35권3호
    • /
    • pp.66-75
    • /
    • 2020
  • As the increasing expectations of a practical AI (Artificial Intelligence) service makes AI algorithms more complicated, an efficient processor to process AI algorithms is required. To meet this requirement, processors optimized for parallel processing, such as GPUs (Graphics Processing Units), have been widely employed. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted. This paper briefly introduces an AI processor especially for inference acceleration, developed by the Electronics and Telecommunications Research Institute, South Korea., and other global vendors for mobile and server platforms. However, the GPU has a generalized structure for various applications, so it is not optimized for the AI algorithm. Therefore, research on the development of AI processors optimized for AI algorithm processing has been actively conducted.

셀룰러 오토마타를 이용한 LSB 곱셈기 설계 (Design of LSB Multiplier using Cellular Automata)

  • 하경주;구교민
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.1-8
    • /
    • 2002
  • GF(2$^{m}$ )상에서 모듈러 곱셈은 공개키 암호 시스템과 같은 응용에서의 기본 연산으로 사용된다. 본 논문에서는 이와 같은 모듈러 곱셈 연산을 셀룰러 오토마타를 이용하여, GF(2$^{m}$ )상에서 m클럭 사이클만에 처리할 수 있는 연산기를 설계하였다. 이 곱셈기는 LSB 우선 방식으로 설계되었으며, 기존의 시스톨릭 구조를 이용한 곱셈기 보다 하드웨어 복잡도가 낮고 처리 시간이 빠른 장점이 있다. 그리고 설계된 곱셈기는 지수연산을 위한 하드웨어 설계에 효율적으로 이용될 수 있을 것이다.

  • PDF