• 제목/요약/키워드: FPGA 가속기

검색결과 60건 처리시간 0.023초

구조적 압축을 통한 FPGA 기반 GRU 추론 가속기 설계 (Implementation of FPGA-based Accelerator for GRU Inference with Structured Compression)

  • 채병철
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.850-858
    • /
    • 2022
  • 리소스가 제한된 임베디드 장치에 GRU를 배포하기 위해 이 논문은 구조적 압축을 가능하게 하는 재구성 가능한 FPGA 기반 GRU 가속기를 설계한다. 첫째, 조밀한 GRU 모델은 하이브리드 양자화 방식과 구조화된 top-k 프루닝에 의해 크기가 대폭 감소한다. 둘째, 본 연구에서 제시하는 재사용 컴퓨팅 패턴에 의해 외부 메모리 액세스에 대한 에너지 소비가 크게 감소한다. 마지막으로 가속기는 알고리즘-하드웨어 공동 설계 워크플로의 이점을 얻는 구조화된 희소 GRU 모델을 처리할 수 있다. 또한 모든 차원, 시퀀스 길이 및 레이어 수를 사용하여 GRU 모델에 대한 추론 작업을 유연하게 수행할 수 있다. Intel DE1-SoC FPGA 플랫폼에 구현된 제안된 가속기는 일괄 처리가 없는 구조화된 희소 GRU 네트워크에서 45.01 GOPs를 달성하였다. CPU 및 GPU의 구현과 비교할 때 저비용 FPGA 가속기는 대기 시간에서 각각 57배 및 30배, 에너지 효율성에서 300배 및 23.44배 향상을 달성한다. 따라서 제안된 가속기는 실시간 임베디드 애플리케이션에 대한 초기 연구로서 활용, 향후 더 발전될 수 있는 잠재력을 보여준다.

HLS 를 이용한 FPGA 기반 양자내성암호 하드웨어 가속기 설계 (FPGA-Based Post-Quantum Cryptography Hardware Accelerator Design using High Level Synthesis)

  • 정해성;이한영;이한호
    • 반도체공학회 논문지
    • /
    • 제1권1호
    • /
    • pp.1-8
    • /
    • 2023
  • 본 논문에서는 High-Level Synthesis(HLS)을 이용하여, 차세대 양자내성암호인 Crystals-Kyber를 하드웨어 가속기로 설계하여 FPGA에 구현하였으며, 성능 분석결과 우수성을 제시한다. Crystals-Kyber 알고리즘을 Vitis HLS 에서 제공하는 여러 Directive 를 활용해서 최적화 설계를 진행하고, AXI Interface 를 구성하여 FPGA-기반 양자내성암호 하드웨어 가속기를 설계하였다. Vivado 툴을 이용해서 IP Block Design 를수행하고 ZYNQ ZCU106 FPGA 에 구현하였다. 최종적으로 PYNQ 프레임워크에서 Python 코드로 동영상 촬영 및 H.264 압축을 진행한 후, FPGA 에 구현한 Crystals-Kyber 하드웨어 가속기를 사용해서 동영상 암호화 및 복호화 처리를 가속화하였다.

HLS 를 이용한 FPGA 기반 ML-DSA 양자내성암호 하드웨어 가속기 설계 (FPGA-based ML-DSA Post-Quantum Cryptography Hardware Accelerator Design using High Level Synthesis)

  • 이한호;장윤성
    • 반도체공학회 논문지
    • /
    • 제2권4호
    • /
    • pp.21-28
    • /
    • 2024
  • 본 논문에서는 High-Level Synthesis(HLS)을 이용하여 차세대 양자내성암호인 ML-DSA 를 하드웨어 가속기로 설계하고 FPGA 에 구현하였으며, 성능 분석 결과 그 우수성을 제시한다. Vitis HLS 에서 제공하는 다양한 Directive 를 활용하여 ML-DSA 알고리즘의 최적화 설계를 수행하고, AXI Interface 를 구성하여 FPGA-기반 양자내성암호 하드웨어 가속기를 설계하였다. Vivado 툴을 이용해서 IP Block Design 을 수행하고 ZYNQ ZCU104 FPGA 에 구현하였다. 최종적으로 PYNQ 프레임워크에서 Python 코드를 사용하여 저장된 동영상 및 문서를 FPGA 에 구현된 ML-DSA 하드웨어 가속기로 처리하여 영상 데이터의 전자서명 생성 및 검증 속도를 가속화하였다.

SLH-DSA 기반 디지털 서명 및 검증 FPGA 시스템 구현 (SLH-DSA-based Digital Signature and Verification FPGA System)

  • 곽재현;장윤성;박지원;이한호
    • 반도체공학회 논문지
    • /
    • 제2권4호
    • /
    • pp.69-77
    • /
    • 2024
  • 본 논문에서는 High-Level Synthesis(HLS)를 이용하여 미국 NIST 에서 차세대 양자내성암호로 표준화된 SLH-DSA 알고리즘을 하드웨어 가속기로 설계하고 FPGA 에 구현하였으며, 성능 분석 결과 그 우수성을 제시한다. HLS(High-Level Synthesis) 기술을 활용하여 SLH-DSA 알고리즘의 최적화 설계를 수행하고, 전자 서명 및 검증 시스템의 하드웨어 가속기를 설계하였다. ZYNQ UltraScale+ MPSoC ZCU104 FPGA 를 사용하여 구현 및 검증을 진행하였다. 최종적으로 FPGA 에 구현된 SLH-DSA 하드웨어 가속기의 성능을 CPU 기반 구현과 비교한 결과, 알고리즘의 수행 시간이 약 596% 향상되어 하드웨어 가속의 효과성을 입증하였다.

Approximate computing 기법을 이용한 FPGA 기반 인공 신경망 가속기 최적화 (FPGA-based Artificial Neural Network Accelerator Optimization Using Approximate Computing)

  • 박상우;김한이;서태원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.479-481
    • /
    • 2019
  • 본 연구에서는 이미지를 분류하는 인공 신경망 가속기를 최적화했고, 이를 구현하여 기존 인공 신경망 가속기와 성능을 비교 분석했다. FPGA(Field Programmable Fate Array) 보드를 이용하여 가속기를 구현했으며, 해당 보드의 내부 메모리인 BRAM 을 FIFO(First In First Out)구조로 설계하여 메모리 시스템을 구현했다. Approximate computing 기법을 효율적으로 적용하기 위해 FWL(Fractional Word Length)최적점을 분석했고, 이를 기반으로 인공 신경망 가속기의 부동 소수점 연산을 고정 소수점 연산으로 변환했다. 구현된 인공 신경망 가속기는 기존의 인공 신경망에 비해, 약 7.4%더 효율적인 전력소모량을 보였다.

선택적 정밀도를 활용한 FPGA 기반 온라인 심층 강화학습 가속기 (Energy Efficient Mixed Precision FPGA Design for Online Adaptation in Deep Reinforcement Learning)

  • 오정준;조우영;유회준
    • 반도체공학회 논문지
    • /
    • 제2권4호
    • /
    • pp.46-51
    • /
    • 2024
  • 심층 강화학습(Deep Reinforcement Learning, DRL)은 순차적 의사결정 문제에서 인간 수준의 성능을 발휘하며, 엣지 디바이스가 알 수 없는 환경에 스스로 적응할 수 있는 능력을 제공한다. 그러나 대규모 데이터 처리와 방대한 DNN 연산량 요구로 인해 DRL 의 적응 구현은 여전히 어려운 과제다. 기존의 FPGA 기반 DRL 가속기는 계산 가속화에만 초점을 맞춘 탓에 적응 시간이 길어지는 한계를 가진다. 본 논문에서는 빠른 온라인 DRL 적용을 실현하기 위해 에너지 효율적인 FPGA 가속기를 제안한다. 제안된 가속기는 다음과 같은 핵심 기술을 통해 기존 한계를 극복한다: 1) 학습 반복 횟수를 최대 90%까지 줄이는 이기종 리플레이 버퍼(HRB), 2) 계산량을 12% 줄이고, 32 비트 부동소수점 연산의 27.2%를 16 비트 고정소수점 연산으로 대체하는 혼합 정밀도를 적용한 선택적 재학습(MP-SELRET), 3)FPGA 자원의 활용도를 극대화하며 처리량을 39.8% 향상시키는 혼합 정밀도 이기종 아키텍처(MPHA).

에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼 (Hardware and Software Co-Design Platform for Energy-Efficient FPGA Accelerator Design)

  • 이동규;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.20-26
    • /
    • 2021
  • 오늘날의 시스템들은 더 빠른 실행 속도와 더 적은 전력 소모를 위해 하드웨어와 소프트웨어 요소를 함께 포함하고 있다. 기존 하드웨어 및 소프트웨어 공동 설계에서 소프트웨어와 하드웨어의 비율은 설계자의 경험적 지식에 의해 나뉘었다. 설계자들은 반복적으로 가속기와 응용 프로그램을 재구성하고 시뮬레이션하며 최적의 결과를 찾는다. 설계를 변경하며 반복적으로 시뮬레이션하는 것은 시간이 많이 소모되는 일이다. 본 논문에서는 에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼을 제안한다. 제안하는 플랫폼은 가속기를 구성하는 주요 성분을 변수화해 응용 프로그램 코드와 하드웨어 코드를 자동으로 생성하여 설계자가 적절한 하드웨어 비율을 쉽게 찾을 수 있도록 한다. 공동 설계 플랫폼은 Xilinx Alveo U200 FPGA가 탑재된 서버에서 Vitis 플랫폼을 기반으로 동작한다. 공동 설계 플랫폼을 통해 1000개의 행을 가지는 두 행렬의 곱셈 연산 가속기를 최적화한 결과 응용프로그램보다 실행 시간이 90.7%, 전력 소모가 56.3% 감소하였다.

비정상 ECG 진단의 에너지 효율적인 재구성 가능한 가속을 위한 OpenCL 기반 FPGA-GPU 혼합 계층 적응 처리 알고리즘 할당 (Adaptive Processing Algorithm Allocation on OpenCL-based FPGA-GPU Hybrid Layer for Energy-Efficient Reconfigurable Acceleration of Abnormal ECG Diagnosis)

  • 이동규;이승민;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1279-1286
    • /
    • 2021
  • Electrocardiogram (ECG) 신호는 심장의 이상을 조기에 진단하기 위한 좋은 지표이다. ECG 신호는 사람마다 기준이 되는 정상 신호의 형태가 다르고, 진단에 많은 데이터가 필요하다. 본 논문에서는 ECG 신호 진단을 효율적으로 가속하기 위한 OpenCL을 기반 FPGA-GPU 혼합 계층 적응형 플랫폼을 제안한다. 플랫폼에서 MIT-BIH 부정맥 신호데이터의 19870개 ECG 신호를 진단한 결과 FPGA 가속기는 진단 시간이 1.15s로 소프트웨어로 실행했을 때보다 89.94% 감소하였고, 전력 소모는 84.0% 감소하였다. GPU 가속기는 실행 시간이 소프트웨어 대비 83.56% 감소한 1.87s였으며, 전력 소모는 62.3% 감소하였다. 제안하는 FPGA-GPU 혼합 플랫폼은 FPGA 가속기보다 진단 속도가 느리지만 GPU를 이용하여 상황에 따라 유연한 알고리즘을 동작할 수 있다.

동형암호를 위한 FPGA 기반의 하드웨어 가속기에 관한 연구 동향 (Research Trend on FPGA-based Hardware Accelerator for Homomorphic Encryption)

  • 이용석;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.313-314
    • /
    • 2021
  • 최근 개인 정보 보호를 위해 주목 받고 있는 동형암호 알고리즘은 암호화된 상태로 덧셈과 곱셈 연산이 가능하여, 연산을 위한 복호화 과정 없이 데이터에 대한 가공이 가능하다. 따라서 이러한 동형암호 알고리즘이 개인 정보 보호를 위한 방법으로 떠오르고 있으며, 특히 완전동형암호 알고리즘의 경우 덧셈과 곱셈 연산을 모두 지원하며, 유효 연산 횟수에도 제한이 없어 응용 분야에서 널리 활용될 것으로 예상된다. 그러나, 완전동형암호 알고리즘의 경우 암호문의 크기가 평문대비 크게 증가하고, 다항식으로 구성된 암호문의 덧셈 및 곱셈 연산도 복잡하여 이에 대한 가속이 필요한 실정이다. 이에 FPGA 기반의 동형암호 가속기 개발이 많이 연구되고 있으며, 이를 통해 동형암호 연산의 특징을 이해하고 가속기 연구 동향을 알아보려 한다.

Xilinx FPGA용 PCI express 구현 및 성능 분석 (Implementation and Performance Evaluation of PCI express on Xilinx FPGA)

  • 이진
    • 한국정보통신학회논문지
    • /
    • 제22권12호
    • /
    • pp.1667-1674
    • /
    • 2018
  • 하드웨어 가속기를 사용하여 다양한 실시간 계산을 하는 여러 공학/과학 분야에서 많은 경우에 FPGA와 호스트 컴퓨터를 PCI express(PCIe)로 연결하는 시스템 구성이 요구된다. 하지만, 초당 수 기가바이트의 데이터를 주고 받는 고속 인터페이스인 PCIe의 구현은 하드웨어 가속기 개발의 가장 큰 어려움 중에 하나이다. 상용 제품과 논문을 통해서 여러 PCIe IP 솔루션을 찾을 수 있지만, 고가의 비용을 지불해서 구매하거나, 별도의 시간과 노력을 투자해서 PCIe를 구현해야 한다. 따라서, Xilinx사의 FPGA를 기반의 하드웨어 가속기를 구현할 때는 Xilinx사에서 무료로 제공 하는 XDMA PCIe IP를 사용하는 것이 개발 기간 및 비용 단축을 위한 최선의 선택이 될 수 있다. 이러한 이유로 본 논문에서는 Xilinx사의 PCIe IP의 성능 평가를 위해 Zynq-7000 FPGA개발보드와 Windows 10 호스트 컴퓨터로 평가 시스템을 구성하고, PCIe IP의 구성 파라미터에 의한 전송 속도 성능 변화에 대해 평가 분석한다.