• Title/Summary/Keyword: 하드웨어 가속기

Search Result 120, Processing Time 0.034 seconds

Design of Hardware Accelerator for Portable Real-time MP3 Audio Encoder (휴대용 실시간 MP 오디오 부호화기를 위한 하드웨어 가속기 설계)

  • 여창훈;방경호;이근섭;박영철;윤대희
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.2132-2135
    • /
    • 2003
  • 본 논문에서는 고정소수점 DSP로 구현한 실시간 MP3 오디오 부호화기에 사용되는 초월함수용 하드웨어 가속기 구조를 제안한다. 구현된 하드웨어 가속기는 MP3 부호화 성능을 저하시키는 초월함수 연산오차에 강인하도록 설계되었다. 제안된 가속기의 연산오차는 Q1.23 고정소수점 출력에서 2비트, 즉 2/sup -21/ 까지의 연산오차를 가진다. LAME 부호화기[5]심리음향 모델의 SMR 오차는 테이블 보간법[4]을 사용할 경우에 비해 4dB이상 향상되었으며, 연산량은 총 4 MIPS 감소하였다. 제안한 하드웨어 가속기는 Verilog HDL로 기술되었으며, SYNOPSYS에서 0.18㎛ CMOS 표준 셀 라이브러리 공정으로 합성되었다. 합성 면적은 7514 게이트이며 초월함수 연산에 대한 동작속도는 3 사이클이다.

  • PDF

Hardware and Software Co-Design Platform for Energy-Efficient FPGA Accelerator Design (에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼)

  • Lee, Dongkyu;Park, Daejin
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.1
    • /
    • pp.20-26
    • /
    • 2021
  • Recent systems contain hardware and software components together for faster execution speed and less power consumption. In conventional hardware and software co-design, the ratio of software and hardware was divided by the designer's empirical knowledge. To find optimal results, designers iteratively reconfigure accelerators and applications and simulate it. Simulating iteratively while making design change is time-consuming. In this paper, we propose a hardware and software co-design platform for energy-efficient FPGA accelerator design. The proposed platform makes it easy for designers to find an appropriate hardware ratio by automatically generating application program code and hardware code by parameterizing the components of the accelerator. The co-design platform based on the Vitis unified software platform runs on a server with Xilinx Alveo U200 FPGA card. As a result of optimizing the multiplication accelerator for two matrices with 1000 rows, execution time was reduced by 90.7% and power consumption was reduced by 56.3%.

IPsec 구현 방법 및 SoC 소개

  • Kim John;Chung Y.C.;Cho In-Hyun;Kim Hyun-Chul
    • Review of KIISC
    • /
    • v.16 no.3
    • /
    • pp.41-48
    • /
    • 2006
  • IP 네트워크의 보안으로 가장 널리 사용되고 있는 표준은 IPsec 방식이다. 일반적으로 IPsec의 구현은 통신 장비 내에 소프트웨어 방법을 사용하거나, 하드웨어 암호가속기를 사용하여 구현한다. 소프트웨어 방식의 구현은 저속의 통신에서 주로 이용되며, 고속의 경우 하드웨어 암호가속기를 사용하고 있다. 하드웨어 암호가속기를 사용하는 경우에도 시스템의 구조에 따라 암호가속기의 성능을 충분히 발휘하지 못하는 경우가 대부분이다. 본 논문에서는 CPU와 IPsec 엔진을 하나로 통합해 최적의 성능 (Wire-speed)을 발휘하도록 구현한 SoC인 FSC2003을 소개한다.

SW-HW Co-design of a High-performance Dehazing System Using OpenCL-based High-level Synthesis Technique (OpenCL 기반의 상위 수준 합성 기술을 이용한 고성능 안개 제거 시스템의 소프트웨어-하드웨어 통합 설계)

  • Park, Yongmin;Kim, Minsang;Kim, Byung-O;Kim, Tae-Hwan
    • Journal of the Institute of Electronics and Information Engineers
    • /
    • v.54 no.8
    • /
    • pp.45-52
    • /
    • 2017
  • This paper presents a high-performance software-hardware dehazing system based on a dedicated hardware accelerator for the haze removal. In the proposed system, the dedicated hardware accelerator performs the dark-channel-prior-based dehazing process, and the software performs the other control processes. For this purpose, the dehazing process is realized as an OpenCL kernel by finding the inherent parallelism in the algorithm and is synthesized into a hardware by employing a high-level-synthesis technique. The proposed system executes the dehazing process much faster than the previous software-only dehazing system: the performance improvement is up to 96.3% in terms of the execution time.

FPGA based Implementation of FAST and BRIEF algorithm for Object Recognition (객체인식을 위한 FAST와 BRIEF 알고리즘 기반 FPGA 설계)

  • Heo, Hoon;Lee, Kwang-Yeob
    • Journal of IKEEE
    • /
    • v.17 no.2
    • /
    • pp.202-207
    • /
    • 2013
  • This paper implemented the conventional FAST and BRIEF algorithm as hardware on Zynq-7000 SoC Platform. Previous feature-based hardware accelerator is mostly implemented using the SIFT or SURF algorithm, but it requires excessive internal memory and hardware cost. The proposed FAST & BRIEF accelerator reduces approximately 57% of internal memory usage and 70% of hardware cost compared to the conventional SIFT or SURF accelerator, and it processes 0.17 pixel per Clock.

Multi-threaded system to support reconfigurable hardware accelerators on Zynq SoC (Zynq SoC에서 재구성 가능한 하드웨어 가속기를 지원하는 멀티쓰레딩 시스템 설계)

  • Shin, Hyeon-Jun;Lee, Joo-Heung
    • Journal of IKEEE
    • /
    • v.24 no.1
    • /
    • pp.186-193
    • /
    • 2020
  • In this paper, we propose a multi-threading system to support reconfigurable hardware accelerators on Zynq SoC. We implement high-performance JPEG decoder with reconfigurable 2D IDCT hardware accelerators to achieve maximum performance available on the platform. In this system, up to four reconfigurable hardware accelerators synchronized with SW threads can be dynamically reconfigured to provide adaptive computing capabilities according to the given image resolution and the compression ratio. JPEG decoding is operated using images with resolutions 480p, 720p, 1080p at the compression ratio of 7:1-109:1. We show that significant performance improvements are achieved as the image resolution or the compression ratio increase. For 1080p resolution, the performance improvement is up to 79.11 times with throughput speed of 99 fps at the compression ratio 17:1.

FPGA-Based Post-Quantum Cryptography Hardware Accelerator Design using High Level Synthesis (HLS 를 이용한 FPGA 기반 양자내성암호 하드웨어 가속기 설계)

  • Haesung Jung;Hanyoung Lee;Hanho Lee
    • Transactions on Semiconductor Engineering
    • /
    • v.1 no.1
    • /
    • pp.1-8
    • /
    • 2023
  • This paper presents the design and implementation of Crystals-Kyber, a next-generation postquantum cryptography, as a hardware accelerator on an FPGA using High-Level Synthesis (HLS). We optimized the Crystals-Kyber algorithm using various directives provided by Vitis HLS, configured the AXI interface, and designed a hardware accelerator that can be implemented on an FPGA. Then, we used Vivado tool to design the IP block and implement it on the ZYNQ ZCU106 FPGA. Finally, the video was recorded and H.264 compressed with Python code in the PYNQ framework, and the video encryption and decryption were accelerated using Crystals-Kyber hardware accelerator implemented on the FPGA.

Design of deep learning based hardware accelerator for digital watermarking (디지털 워터마킹을 위한 딥러닝 기반 하드웨어 가속기의 설계)

  • Lee, Jae-Eun;Seo, Young-Ho;Kim, Dong-Wook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.544-545
    • /
    • 2020
  • 본 논문에서는 영상 콘텐츠의 지적재산권 보호를 위하여 딥 러닝을 기반으로 하는 워터마킹 시스템 및 하드웨어 가속기 구조를 제안한다. 제안하는 워터마킹 시스템은 호스트 영상과 워터마크가 같은 해상도를 갖도록 변화시키는 전처리 네트워크, 전처리 네트워크를 거친 호스트 영상과 워터마크를 정합하여 워터마크를 삽입하는 네트워크, 그리고 워터마크를 추출하는 네트워크로 구성된다. 이 중 호스트 영상의 전처리 네트워크와 삽입 네트워크를 하드웨어로 설계한다.

  • PDF

A Lightweight Hardware Accelerator for Public-Key Cryptography (공개키 암호 구현을 위한 경량 하드웨어 가속기)

  • Sung, Byung-Yoon;Shin, Kyung-Wook
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.23 no.12
    • /
    • pp.1609-1617
    • /
    • 2019
  • Described in this paper is a design of hardware accelerator for implementing public-key cryptographic protocols (PKCPs) based on Elliptic Curve Cryptography (ECC) and RSA. It supports five elliptic curves (ECs) over GF(p) and three key lengths of RSA that are defined by NIST standard. It was designed to support four point operations over ECs and six modular arithmetic operations, making it suitable for hardware implementation of ECC- and RSA-based PKCPs. In order to achieve small-area implementation, a finite field arithmetic circuit was designed with 32-bit data-path, and it adopted word-based Montgomery multiplication algorithm, the Jacobian coordinate system for EC point operations, and the Fermat's little theorem for modular multiplicative inverse. The hardware operation was verified with FPGA device by implementing EC-DH key exchange protocol and RSA operations. It occupied 20,800 gate equivalents and 28 kbits of RAM at 50 MHz clock frequency with 180-nm CMOS cell library, and 1,503 slices and 2 BRAMs in Virtex-5 FPGA device.

Implementation of OpenVG API for Mobile Vector Graphics Accelerator (모바일 벡터 그래픽 가속기 설계를 위한 OpenVG API 구현)

  • Kim, Young-Ouk;Ro, Young-Sup;Oh, Sam-Kwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2008.06a
    • /
    • pp.251-255
    • /
    • 2008
  • 최근 모바일 시스템의 성능이 향상되면서 다양한 형태의 동적인 메뉴 구성과, 메일 및 이차원 지도 등의 표현에 벡터 그래픽을 도입하고 있다. 모바일 기기에서 사용되는 벡터 그래픽 처리 기술은 Flash Lite, SVG(Scalable Vector Graphics)등이 널리 사용되고 있는데 두 가지 모두 소프트웨어 방식으로 사용되고 있다. 매크로미디어사의 Flash Lite는 연산에 많은 메모리를 필요로 하고, SVG는 웹 표준에 맞춘 스크립트 해석 기반으로 구동 속도가 느리다. 모바일 컴퓨팅 환경에서 벡터 그래픽스에 대한 필요성과 사용빈도가 증가함에 따라 메모리를 적게 사용하고 하드웨어 가속기를 지원 할 수 있도록 저 수준의 API(Application Programming Interface)인 OpenVG 1.0을 크로노스 그룹(Khronos Group)에서 제정하였다. 본 논문은 모바일 사용 환경에 맞추어 사용될 수 있도록 OpenVG 1.0에 기반한 API를 구현하고 실험하였다. 구현된 API는 느린 소프트웨어의 한계를 벗어나기 위해 하드웨어 가속기 설계에 적합하도록 각각의 API 블록 및 형태를 하드웨어 파이프라인 형태의 관점에서 설계하였고, 구현된 API를 윈도우즈 환경에서 기능을 검증하였다.

  • PDF