• 제목/요약/키워드: Hardware Accelerator

검색결과 112건 처리시간 0.031초

하이브리드 TCP/IP Offload Engine을 위한 하드웨어 기반 송수신 가속기의 설계 및 구현 (Design and Implementation of a Hardware-based Transmission/Reception Accelerator for a Hybrid TCP/IP Offload Engine)

  • 장한국;정상화;유대현
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권9호
    • /
    • pp.459-466
    • /
    • 2007
  • 최근 Gbps 이상의 고속 네트워크 상에서 호스트 CPU에 많은 오버헤드를 발생시키는 TCP/IP의 문제점을 해결하기 위해 네트워크 어댑터 상에서 TCP/IP를 처리함으로써 호스트 CPU의 작업부하를 줄이는 TCP/IP Offload Engine(TOE) 기술이 연구되고 있다. TOE의 구현 방법에는 범용 임베디드 프로세서에서 소프트웨어로 TCP/IP를 처리하는 방법과 전용 ASIC에서 하드웨어로 TCP/IP를 처리하는 방법이 사용되어 왔으나 소프트웨어 구현은 통신의 성능이 떨어지고 하드웨어 구현은 유연성과 확장성이 떨어지는 문제점들을 가지고 있다. 본 논문에서는 하드웨어적인 접근 방법과 소프트웨어적인 접근 방법을 결합한 하이브리드 TOE 구조를 제안한다. 하이브리드 TOE는 데이타 패킷의 생성과 처리와 같이 통신의 성능에 큰 영향을 끼치는 기능들을 하드웨어로 구현함으로써 하드웨어 기반 TOE 구현에 버금가는 성능을 제공하고, 연결 설정과 같이 통신의 성능에 영향을 크게 끼치지 않는 기능들은 임베디드 프로세서 상에서 소프트웨어로 처리한다. 본 논문에서는 데이타 송수신의 성능을 높이기 위해 데이타 패킷의 생성 및 처리등을 지원하는 하드웨어 송수신 가속기를 설계 및 구현하였다. 실험 결과 송수신 가속기를 사용한 하이브리드 TOE는 약 $19{\mu}s$의 최소 지연시간을 보였다. 그리고 6% 이하의 CPU 점유율에서 약 675 Mbps에 달하는 대역폭을 보였다.

Toward Optimal FPGA Implementation of Deep Convolutional Neural Networks for Handwritten Hangul Character Recognition

  • Park, Hanwool;Yoo, Yechan;Park, Yoonjin;Lee, Changdae;Lee, Hakkyung;Kim, Injung;Yi, Kang
    • Journal of Computing Science and Engineering
    • /
    • 제12권1호
    • /
    • pp.24-35
    • /
    • 2018
  • Deep convolutional neural network (DCNN) is an advanced technology in image recognition. Because of extreme computing resource requirements, DCNN implementation with software alone cannot achieve real-time requirement. Therefore, the need to implement DCNN accelerator hardware is increasing. In this paper, we present a field programmable gate array (FPGA)-based hardware accelerator design of DCNN targeting handwritten Hangul character recognition application. Also, we present design optimization techniques in SDAccel environments for searching the optimal FPGA design space. The techniques we used include memory access optimization and computing unit parallelism, and data conversion. We achieved about 11.19 ms recognition time per character with Xilinx FPGA accelerator. Our design optimization was performed with Xilinx HLS and SDAccel environment targeting Kintex XCKU115 FPGA from Xilinx. Our design outperforms CPU in terms of energy efficiency (the number of samples per unit energy) by 5.88 times, and GPGPU in terms of energy efficiency by 5 times. We expect the research results will be an alternative to GPGPU solution for real-time applications, especially in data centers or server farms where energy consumption is a critical problem.

Resolving Memory Bottlenecks in Hardware Accelerators with Data Prefetch

  • Hyein Lee;Jinoo Joung
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.1-12
    • /
    • 2024
  • 최근 다양한 분야에서 딥러닝이 사용되면서, 더 빠르고 정확한 결과를 내는 딥러닝이 더욱 중요해졌다. 이를 위해서는 많은 양의 저장 공간이 필요하고, 대용량 연산을 진행해야 한다. 이에 따라 여러 연구는 빠르고 정확하게 연산 처리가 가능한 하드웨어 가속기를 이용한다. 하지만 하드웨어 가속기는 CPU와 하드웨어 사이를 이동하면서 병목현상이 발생하게 된다. 따라서 본 논문에서는 하드웨어 가속기의 병목현상을 효율적으로 줄일 수 있는 데이터 프리패치 전략을 제안한다. 데이터 프리패치 전략의 핵심 아이디어는 Matrix Multiplication Unit(MMU)가 연산을 진행하는 동안 다음 연산에 필요한 데이터를 예측하여 로컬 메모리로 올려 병목현상을 줄인다. 또한, 이 전략은 듀얼 버퍼를 이용하여 읽고 쓰는 두 가지 동작을 동시에 진행하여 처리율을 높인다. 이를 통해 데이터 전송의 지연시간 및 실행 시간을 감소시킨다. 시뮬레이션을 통해 듀얼 버퍼를 이용한 병렬 프로세싱과 데이터 프리패치를 이용한 메모리 간 병목현상을 최대한 감소시켜 하드웨어 가속기의 성능이 24% 향상함을 알 수 있다.

Power Operation Accelerator to speed up lighting in 3D graphics

  • Young-Su Kwon;In-
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 추계종합학술대회 논문집
    • /
    • pp.1129-1132
    • /
    • 1998
  • This paper presents a design of special hardware developed for enhancing the floating-point power operations which are actively used at the lighting stage to calculate the specular term in 3D graphics geometry engines. The power operation takes just 4 cycles in our floating-point multiplier while it takes about 100-200 cycles in conventional floating-point units. Although an approximation algorithm is employed in the power operation to reduce the hardware complexity required, the error of power value from the developed floatingpoint multiplier is so minimal that no difference can be found by human eyes.

  • PDF

OpenVG 기반 벡터 그래픽 가속기 (An OpenVG Vector Graphics Accelerator)

  • 최영;홍은경;이권형;심용로;김택규;김현규;오형철
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.761-762
    • /
    • 2008
  • This paper presents a hardware accelerator for accelerating vector graphics applications based on the OpenVG standard. Since our design mainly targets embedded applications, we focus on efficient uses of limited resources, especially the memory bandwidth. The designed accelerator can process the images of $640{\times}240$ pixels with moderate complexity at the rate of 30 frames per second.

  • PDF

TCP/IP Hardware Accelerator를 위한 TCP Engine 설계 (TCP Engine Design for TCP/IP Hardware Accelerator)

  • 이보미;정여진;임혜숙
    • 한국통신학회논문지
    • /
    • 제29권5B호
    • /
    • pp.465-475
    • /
    • 2004
  • Transport Control Protocol (TCP)은 소프트웨어로 구현되어 네트워크로 입출력되는 데이터를 처리하는 역할을 한다. 네트워크 기술의 향상으로 CPU에서 수행되는 TCP의 처리가 새로운 병목점으로 등장하고 있다. 또한 iSCSI와 같은 Storage Area Network (SAN) 에서도 TCP의 고속 처리가 전체 시스템의 성능을 결정하는 주요 관건이 되고 있다. 이러한 TCP를 하드웨어로 구현할 경우, 엔드 시스템에서의 CPU의 부하를 줄이고, 고속의 데이터 처리가 가능하여진다. 본 논문에서는TCP의 고속 처리를 위한 전용 하드웨어 엔진에 관하여 다룬다. TCP 하드웨어 는 TCP Connection을 담당하는 블럭과 Receive flow 를 위한 Rx TCP 블럭, Transmit Flow를 위한 Tx TCP 블럭으로 구성된다. TCP Connection 볼럭은 TCP connection 상태를 관리하는 기능을 수행한다. Rx TCP 블록은 네트워크로부터 패킷을 받아 헤더와 데이터 처리를 담당하는데, 헤더 정보를 parsing 하여 전달하고, 데이터를 순서에 맞게 조립하는 역할도 담당한다. Tx TCP 블럭은 CPU로부터 온 데이터를 패킷을 만들어 네트워크로 전송하는 기능, 신뢰성 있는 데이터 전송을 위한 재전송 기능1 Transmit Window 의 관리와 Sequence Number를 생성, 관리하는 기능을 담당한다. TCP 하드웨어 엔진을 검증하기 위한 여러 가지 Testcase들이 수행되었으며, 구현된 TCP 전용 하드웨어 엔진을 0.18 마이크론 기술을 사용하여 Synthesis 한 결과, 입출력 데이터를 저장하기 위한 버퍼를 제외하곡 51K 게이트가 소요됨을 보았다.

가속기 제어시스템의 성능향상을 위한 연구 (Conceptual Design of PLS-II Control System for PLS)

  • 윤종철;이진원;이은희;하기만;김재명;박성주;김경렬
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2009년도 제40회 하계학술대회
    • /
    • pp.1658_1659
    • /
    • 2009
  • PLS(Pohang Light Source) will begin the PLS-II project that has been funded by the KOREA Government in order to further upgrade the PLS which has operated since 1992. The control system of the PLS-II has distributed control architecture, with two layers of hierarchy; operator interface computer (OIC) layer and machine interface computer (MIC) layer. The OIC layer is based on SUN workstation with UNIX. A number of PC-based consoles allow to remotely operating the machine from the control room. PC-based consoles use the Linux or Windows operation system. Similar consoles in the experimental hall are used to control experiments. The MIC layer is directly interfaced to individual machine devices for low-level data acquisition and control. MIC layer is based on VMEbus standard with vxWorks real-time operating system. Executable application software modules are downloaded from host computers at the system start-up time. The MIC's and host computers are linked through Ethernet network. It should enable the use of hardware and software already developed for specific light source requirements. The core of the EPICS (Experimental Physics and Industrial Control System)[1] has been chosen as the basis for the control system software.

  • PDF

구조적 압축을 통한 FPGA 기반 GRU 추론 가속기 설계 (Implementation of FPGA-based Accelerator for GRU Inference with Structured Compression)

  • 채병철
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.850-858
    • /
    • 2022
  • 리소스가 제한된 임베디드 장치에 GRU를 배포하기 위해 이 논문은 구조적 압축을 가능하게 하는 재구성 가능한 FPGA 기반 GRU 가속기를 설계한다. 첫째, 조밀한 GRU 모델은 하이브리드 양자화 방식과 구조화된 top-k 프루닝에 의해 크기가 대폭 감소한다. 둘째, 본 연구에서 제시하는 재사용 컴퓨팅 패턴에 의해 외부 메모리 액세스에 대한 에너지 소비가 크게 감소한다. 마지막으로 가속기는 알고리즘-하드웨어 공동 설계 워크플로의 이점을 얻는 구조화된 희소 GRU 모델을 처리할 수 있다. 또한 모든 차원, 시퀀스 길이 및 레이어 수를 사용하여 GRU 모델에 대한 추론 작업을 유연하게 수행할 수 있다. Intel DE1-SoC FPGA 플랫폼에 구현된 제안된 가속기는 일괄 처리가 없는 구조화된 희소 GRU 네트워크에서 45.01 GOPs를 달성하였다. CPU 및 GPU의 구현과 비교할 때 저비용 FPGA 가속기는 대기 시간에서 각각 57배 및 30배, 에너지 효율성에서 300배 및 23.44배 향상을 달성한다. 따라서 제안된 가속기는 실시간 임베디드 애플리케이션에 대한 초기 연구로서 활용, 향후 더 발전될 수 있는 잠재력을 보여준다.

OpenCL 기반의 상위 수준 합성 기술을 이용한 고성능 안개 제거 시스템의 소프트웨어-하드웨어 통합 설계 (SW-HW Co-design of a High-performance Dehazing System Using OpenCL-based High-level Synthesis Technique)

  • 박용민;김민상;김병오;김태환
    • 전자공학회논문지
    • /
    • 제54권8호
    • /
    • pp.45-52
    • /
    • 2017
  • 본 논문은 안개 제거 처리를 위한 전용의 하드웨어 가속기를 내장하는 고성능의 소프트웨어-하드웨어 통합 안개 제거 시스템의 설계 및 구현을 제시한다. 제시된 안개 제거 시스템에서 다크 채널 프라이어 기반의 안개 제거 처리는 전용의 하드웨어 가속기를 통해 처리되며, 영상의 입출력 및 가속기의 제어는 소프트웨어에 의해서 처리된다. 이를 위해 안개 제거 알고리즘에 내재된 병렬성을 발견하여 OpenCL 커널로 기술하고, 상위 수준 합성 기술을 이용해 하드웨어 가속기를 구현하였다. 기존의 소프트웨어 기반의 안개 제거 시스템과 제안하는 시스템의 성능을 비교한 결과, 동등한 안개 제거 품질을 보이면서도 전체 시스템 수행 시간이 최대 96.3% 단축되었다.

차량 검출용 CNN 분류기의 실시간 처리를 위한 하드웨어 설계 (A Real-Time Hardware Design of CNN for Vehicle Detection)

  • 방지원;정용진
    • 전기전자학회논문지
    • /
    • 제20권4호
    • /
    • pp.351-360
    • /
    • 2016
  • 최근 딥 러닝을 중심으로 빠르게 발전하고 있는 기계학습 분류 알고리즘은 기존의 방법들보다 뛰어난 성능으로 인하여 주목받고 있다. 딥 러닝 중에서도 Convolutional Neural Network(CNN)는 영상처리에 뛰어나 첨단 운전자 보조 시스템(Advanced Driver Assistance System : ADAS)에서 많이 사용되고 있는 추세이다. 하지만 차량용 임베디드 환경에서 CNN을 소프트웨어로 동작시켰을 때는 각 Layer마다 연산이 반복되는 알고리즘의 특성으로 인해 수행시간이 길어져 실시간 처리가 어렵다. 본 논문에서는 임베디드 환경에서 CNN의 실시간 처리를 위하여 Convolution 연산 및 기타 연산들을 병렬로 처리하여 CNN의 속도를 향상시키는 하드웨어 구조를 제안한다. 제안하는 하드웨어의 성능을 검증하기 위하여 Xilinx ZC706 FPGA 보드를 이용하였다. 입력 영상은 $36{\times}36$ 크기이며, 동작주파수 100MHz에서 하드웨어 수행시간은 약 2.812ms로 실시간 처리가 가능함을 확인했다.