• 제목/요약/키워드: Hardware Accelerator

검색결과 111건 처리시간 0.029초

Energy Efficient and Low-Cost Server Architecture for Hadoop Storage Appliance

  • Choi, Do Young;Oh, Jung Hwan;Kim, Ji Kwang;Lee, Seung Eun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4648-4663
    • /
    • 2020
  • This paper proposes the Lempel-Ziv 4(LZ4) compression accelerator optimized for scale-out servers in data centers. In order to reduce CPU loads caused by compression, we propose an accelerator solution and implement the accelerator on an Field Programmable Gate Array(FPGA) as heterogeneous computing. The LZ4 compression hardware accelerator is a fully pipelined architecture and applies 16 dictionaries to enhance the parallelism for high throughput compressor. Our hardware accelerator is based on the 20-stage pipeline and dictionary architecture, highly customized to LZ4 compression algorithm and parallel hardware implementation. Proposing dictionary architecture allows achieving high throughput by comparing input sequences in multiple dictionaries simultaneously compared to a single dictionary. The experimental results provide the high throughput with intensively optimized in the FPGA. Additionally, we compare our implementation to CPU implementation results of LZ4 to provide insights on FPGA-based data centers. The proposed accelerator achieves the compression throughput of 639MB/s with fine parallelism to be deployed into scale-out servers. This approach enables the low power Intel Atom processor to realize the Hadoop storage along with the compression accelerator.

HLS 를 이용한 FPGA 기반 양자내성암호 하드웨어 가속기 설계 (FPGA-Based Post-Quantum Cryptography Hardware Accelerator Design using High Level Synthesis)

  • 정해성;이한영;이한호
    • 반도체공학회 논문지
    • /
    • 제1권1호
    • /
    • pp.1-8
    • /
    • 2023
  • 본 논문에서는 High-Level Synthesis(HLS)을 이용하여, 차세대 양자내성암호인 Crystals-Kyber를 하드웨어 가속기로 설계하여 FPGA에 구현하였으며, 성능 분석결과 우수성을 제시한다. Crystals-Kyber 알고리즘을 Vitis HLS 에서 제공하는 여러 Directive 를 활용해서 최적화 설계를 진행하고, AXI Interface 를 구성하여 FPGA-기반 양자내성암호 하드웨어 가속기를 설계하였다. Vivado 툴을 이용해서 IP Block Design 를수행하고 ZYNQ ZCU106 FPGA 에 구현하였다. 최종적으로 PYNQ 프레임워크에서 Python 코드로 동영상 촬영 및 H.264 압축을 진행한 후, FPGA 에 구현한 Crystals-Kyber 하드웨어 가속기를 사용해서 동영상 암호화 및 복호화 처리를 가속화하였다.

객체인식을 위한 FAST와 BRIEF 알고리즘 기반 FPGA 설계 (FPGA based Implementation of FAST and BRIEF algorithm for Object Recognition)

  • 허훈;이광엽
    • 전기전자학회논문지
    • /
    • 제17권2호
    • /
    • pp.202-207
    • /
    • 2013
  • 본 논문은 기존의 FAST와 BRIEF 알고리즘을 Zynq-7000 Soc Platform에서 하드웨어로 구현했다. 대표적으로 SIFT 나 SURF 알고리즘을 사용하여 특징점 기반 하드웨어 가속기로 구현 하지만, 하드웨어 비용과 내부 메모리가 많이 필요하다. 제안하는 FAST & BRIEF 가속기는 기존의 SIFT 나 SURF 가속기 보다 내부 메모리 사용량을 약 57%, 하드웨어 비용을 약 70% 정도 감소하고, 수행 시간은 Clock 당 0.17 Pixel를 처리한다.

에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼 (Hardware and Software Co-Design Platform for Energy-Efficient FPGA Accelerator Design)

  • 이동규;박대진
    • 한국정보통신학회논문지
    • /
    • 제25권1호
    • /
    • pp.20-26
    • /
    • 2021
  • 오늘날의 시스템들은 더 빠른 실행 속도와 더 적은 전력 소모를 위해 하드웨어와 소프트웨어 요소를 함께 포함하고 있다. 기존 하드웨어 및 소프트웨어 공동 설계에서 소프트웨어와 하드웨어의 비율은 설계자의 경험적 지식에 의해 나뉘었다. 설계자들은 반복적으로 가속기와 응용 프로그램을 재구성하고 시뮬레이션하며 최적의 결과를 찾는다. 설계를 변경하며 반복적으로 시뮬레이션하는 것은 시간이 많이 소모되는 일이다. 본 논문에서는 에너지 효율적인 FPGA 가속기 설계를 위한 하드웨어 및 소프트웨어 공동 설계 플랫폼을 제안한다. 제안하는 플랫폼은 가속기를 구성하는 주요 성분을 변수화해 응용 프로그램 코드와 하드웨어 코드를 자동으로 생성하여 설계자가 적절한 하드웨어 비율을 쉽게 찾을 수 있도록 한다. 공동 설계 플랫폼은 Xilinx Alveo U200 FPGA가 탑재된 서버에서 Vitis 플랫폼을 기반으로 동작한다. 공동 설계 플랫폼을 통해 1000개의 행을 가지는 두 행렬의 곱셈 연산 가속기를 최적화한 결과 응용프로그램보다 실행 시간이 90.7%, 전력 소모가 56.3% 감소하였다.

모바일 벡터 그래픽을 위한 OpenVG 가속기 설계 (Design of Open Vector Graphics Accelerator for Mobile Vector Graphics)

  • 김영옥;노영섭
    • 한국멀티미디어학회논문지
    • /
    • 제11권10호
    • /
    • pp.1460-1470
    • /
    • 2008
  • 최근 휴대용 기기의 성능이 향상되면서 다양한 형태의 메뉴 구성과, 메일 및 이차원 지도 등의 표현에 벡터 그래픽을 많이 도입하고 있다. 본 논문은 모바일 기기에서 많이 사용되고 여는 이차원 벡터의 처리 기술인 OpenVG (Open Vector Graphics)의 하드웨어 가속기를 제안했다. 제안된 하드웨어 가속기는 그래픽에서 처리가 빈번한 렌더링(rendering)의 각 기능을 분석하여 하드웨어 구현에 적합하도록 나누고, 그 알고리즘을 설계 및 검증하여 HDL (Hardware Description Language)로 FPGA (Field Programmable Gate Array)에 이식하여 구현되었으며, 알렉스 처리기에 비하여 약 4배의 빠른 처리속도를 보였다.

  • PDF

EPICS 를 이용한 BPM시스템 개발 (1) (Development of BPM System using EPICS (1))

  • 이은희;윤종철;이진원;최진혁;황정연;남상훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 D
    • /
    • pp.2325-2327
    • /
    • 2002
  • 포항 가속기연구소(PAL)에서는 포항방사광가속기(PLS)가 가동을 시작한 1994년 이후 현재까지 사용되어 온 기존의 제어 시스템을 새로운 환경인 EPICS(Experimental Physics and Industrial Control System) 시스템으로 개발하고 있다. EPICS 시스템의 구성은 IOC(Input/Ouput Controller) 와 OPI(Operator Interface)의 2-Layer로 구성되며 이는 MIU(Machine Interfaces Unit), SCC(Subsystem Computer Control System) 그리고 HMI(Human Machine Interface)로 이어지는 기존의 3-Layer 단계 중 SCC단계를 줄여 2-Layer로 구성된다. 이들 두 계층간의 통신은 Client(OPI)/Server(IOC) 구조의 Channel Access를 통해서 이루어진다. 개발중인 EPICS 시스템은 Open Architecture 구조로 IOC와 OPI 각 부분에서 개발시에 사용된 운영체제나 Hardware 를 사용하지 않고 다른 운영체제나 Hardware를 사용하더라도 하나의 공통부분 즉, Channel Access만 있으면 이를 통해 서로 다른 Subsystem IOC의 데이터를 Access할 수 있다. 전체 EPICS 제어시스템 중 저장링 운전의 핵심이 되는 BPM(Beam Position Monitoring) 및 MPS(Magnet Power Supply) 시스템은 IOC부분에 MVME5100(Target Machine) 보드와 vxWorks(Operating System)를 이용하고 OPI부분에는 SUN Workstation(Host Machine)와 Solaris(Operating System)을 사용하여 개발하고 있다. 본 논문에서는 IOC 및 OPI의 설치 절차와 설치 방법에 대해 기술하였다.

  • PDF

A programmable Soc for Var ious Image Applications Based on Mobile Devices

  • Lee, Bongkyu
    • 한국멀티미디어학회논문지
    • /
    • 제17권3호
    • /
    • pp.324-332
    • /
    • 2014
  • This paper presents a programmable System-On-a-chip for various embedded applications that need Neural Network computations. The system is fully implemented into Field-Programmable Gate Array (FPGA) based prototyping platform. The SoC consists of an embedded processor core and a reconfigurable hardware accelerator for neural computations. The performance of the SoC is evaluated using real image processing applications, such as optical character recognition (OCR) system.

ECDSA 하드웨어 가속기가 내장된 보안 SoC (A Security SoC embedded with ECDSA Hardware Accelerator)

  • 정영수;김민주;신경욱
    • 한국정보통신학회논문지
    • /
    • 제26권7호
    • /
    • pp.1071-1077
    • /
    • 2022
  • 타원곡선 암호 (elliptic curve cryptography; ECC) 기반의 공개키 기반구조 구현에 사용될 수 있는 보안 SoC(system-on-chip)를 설계하였다. 보안 SoC는 타원곡선 디지털 서명 알고리듬 (elliptic curve digital signature algorithm; ECDSA)용 하드웨어 가속기가 AXI4-Lite 버스를 통해 Cortex-A53 CPU와 인터페이스된 구조를 갖는다. ECDSA 하드웨어 가속기는 고성능 ECC 프로세서, SHA3 (secure hash algorithm 3) 해시 코어, 난수 생성기, 모듈러 곱셈기, BRAM (block random access memory), 그리고 제어 FSM (finite state machine)으로 구성되며, 최소의 CPU 제어로 ECDSA 서명 생성과 서명 검증을 고성능으로 연산할 수 있도록 설계되었다. 보안 SoC를 Zynq UltraScale+ MPSoC 디바이스에 구현하여 하드웨어-소프트웨어 통합 검증을 하였으며, 150 MHz 클록 주파수로 동작하여 초당 약 1,000번의 ECDSA 서명 생성 또는 서명 검증 연산 성능을 갖는 것으로 평가되었다. ECDSA 하드웨어 가속기는 74,630개의 LUT (look-up table)와 23,356개의 플립플롭, 32kb BRAM 그리고 36개의 DSP (digital signal processing) 블록의 하드웨어 자원이 사용되었다.

A 4K-Capable Hardware Accelerator of Haze Removal Algorithm using Haze-relevant Features

  • Lee, Seungmin;Kang, Bongsoon
    • Journal of information and communication convergence engineering
    • /
    • 제20권3호
    • /
    • pp.212-218
    • /
    • 2022
  • The performance of vision-based intelligent systems, such as self-driving cars and unmanned aerial vehicles, is subject to weather conditions, notably the frequently encountered haze or fog. As a result, studies on haze removal have garnered increasing interest from academia and industry. This paper hereby presents a 4K-capable hardware implementation of an efficient haze removal algorithm with the following two improvements. First, the depth-dependent haze distribution is predicted using a linear model of four haze-relevant features, where the model parameters are obtained through maximum likelihood estimates. Second, the approximated quad-decomposition method is adopted to estimate the atmospheric light. Extensive experimental results then follow to verify the efficacy of the proposed algorithm against well-known benchmark methods. For real-time processing, this paper also presents a pipelined architecture comprised of customized macros, such as split multipliers, parallel dividers, and serial dividers. The implementation results demonstrated that the proposed hardware design can handle DCI 4K videos at 30.8 frames per second.

인공 신경망 가속기 온칩 메모리 크기에 따른 주메모리 접근 횟수 추정에 대한 연구 (Research on the Main Memory Access Count According to the On-Chip Memory Size of an Artificial Neural Network)

  • 조석재;박성경;박성정
    • 전기전자학회논문지
    • /
    • 제25권1호
    • /
    • pp.180-192
    • /
    • 2021
  • 이미지 인식 및 패턴 감지를 위해 널리 사용되는 알고리즘 중 하나는 convolution neural network(CNN)이다. CNN에서 대부분의 연산량을 차지하는 convolution 연산을 효율적으로 처리하기 위해 외부 하드웨어 가속기를 사용하여 CNN 어플리케이션의 성능을 향상 시킬 수 있다. 이러한 하드웨어 가속기를 사용함에 있어서 CNN은 막대한 연산량을 처리하기 위해 오프칩 DRAM에서 가속기 내부의 메모리로 데이터를 갖고 와야 한다. 즉 오프칩 DRAM과 가속기 내부의 온칩 메모리 혹은 글로벌 버퍼 사이의 데이터 통신이 CNN 어플리케이션의 성능에 큰 영향을 끼친다. 본 논문에서는 CNN 가속기 내의 온칩 메모리 혹은 글로벌 버퍼의 크기에 따른 주메모리 혹은 DRAM으로의 접근 횟수를 추산할 수 있는 시뮬레이터를 개발하였다. CNN 아키텍처 중 하나인 AlexNet에서, CNN 가속기 내부의 글로벌 버퍼의 크기를 증가시키면서 시뮬레이션 했을 때, 글로벌 버퍼 크기가 100kB 이상인 경우가 100kB 미만인 경우보다 가속기 내부와 오프칩 DRAM 간의 접근 횟수가 0.8배 낮은 것을 확인 했다.