• 제목/요약/키워드: AI Accelerator

검색결과 15건 처리시간 0.025초

독립운용이 가능한 임베디드 인공지능 프로세서 설계 (Design of Stand-alone AI Processor for Embedded System)

  • 조권능;최도영;정영우;이승은
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.600-602
    • /
    • 2021
  • 모바일 산업의 발달과 인공지능 기술에 대한 관심이 높아지면서 임베디드 시스템에 적용 가능한 인공지능 프로세서에 대한 연구가 활발히 진행되고 있다. 임베디드 시스템에서 인공지능을 구현하는 경우 제한된 자원과 소비 전력을 고려한 설계가 필수적이며, 낮은 연산 성능을 보완할 수 있는 전용 가속기를 포함하는 것이 효율적이다. 본 연구는 독립 운용이 가능한 임베디드 인공지능 프로세서를 제안한다. 제안하는 인공지능 프로세서는 거리연산 기반의 경량 인공지능 알고리즘이 적용된 하드웨어 가속기를 포함하며, 프로그래밍 가능한 범용 프로세서와 함께 운용되어 다양한 임베디드 시스템에 적용 가능하다. 인공지능 프로세서는 Verilog HDL을 사용하여 설계되었으며 Field Programmable Gate Array (FPGA)를 통해 기능을 검증하였다.

  • PDF

NPU 반도체를 위한 저정밀도 데이터 타입 개발 동향 (Trends of Low-Precision Processing for AI Processor)

  • 김혜지;한진호;권영수
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.53-62
    • /
    • 2022
  • With increasing size of transformer-based neural networks, a light-weight algorithm and efficient AI accelerator has been developed to train these huge networks in practical design time. In this article, we present a survey of state-of-the-art research on the low-precision computational algorithms especially for floating-point formats and their hardware accelerator. We describe the trends by focusing on the work of two leading research groups-IBM and Seoul National University-which have deep knowledge in both AI algorithm and hardware architecture. For the low-precision algorithm, we summarize two efficient floating-point formats (hybrid FP8 and radix-4 FP4) with accuracy-preserving algorithms for training on the main research stream. Moreover, we describe the AI processor architecture supporting the low-bit mixed precision computing unit including the integer engine.

AB9: A neural processor for inference acceleration

  • Cho, Yong Cheol Peter;Chung, Jaehoon;Yang, Jeongmin;Lyuh, Chun-Gi;Kim, HyunMi;Kim, Chan;Ham, Je-seok;Choi, Minseok;Shin, Kyoungseon;Han, Jinho;Kwon, Youngsu
    • ETRI Journal
    • /
    • 제42권4호
    • /
    • pp.491-504
    • /
    • 2020
  • We present AB9, a neural processor for inference acceleration. AB9 consists of a systolic tensor core (STC) neural network accelerator designed to accelerate artificial intelligence applications by exploiting the data reuse and parallelism characteristics inherent in neural networks while providing fast access to large on-chip memory. Complementing the hardware is an intuitive and user-friendly development environment that includes a simulator and an implementation flow that provides a high degree of programmability with a short development time. Along with a 40-TFLOP STC that includes 32k arithmetic units and over 36 MB of on-chip SRAM, our baseline implementation of AB9 consists of a 1-GHz quad-core setup with other various industry-standard peripheral intellectual properties. The acceleration performance and power efficiency were evaluated using YOLOv2, and the results show that AB9 has superior performance and power efficiency to that of a general-purpose graphics processing unit implementation. AB9 has been taped out in the TSMC 28-nm process with a chip size of 17 × 23 ㎟. Delivery is expected later this year.

Assessment of Radiation Dose from Radioactive Wedge Filters during High-Energy X-Ray Therapy

  • Back, Geum-mun;Park, Sung Ho;Kim, Tae-Hyung
    • 한국의학물리학회지:의학물리
    • /
    • 제28권2호
    • /
    • pp.45-48
    • /
    • 2017
  • This paper evaluated the amount of radiation generated by wedge filters during radiation therapy using a high-energy linear accelerator, and the dose to the worker during wedge replacement. After 10-MV photon beam was irradiated with wedge filter, the wedge was removed from the linear accelerator, and the dose rate and energy spectrum were measured. The initial measurement was approximately 1 uSv/h, and the radiation level was reduced to 0.3 uSv/h after 6 min. The effective half-life derived from the dose rate measurement was approximately 3.5 min, and the influence of AI-28 was about 53%. From the energy spectrum measurements, a peak of 1,799 keV was measured for AI-28, while the peak for Co-58 was not measured in the control room. The peaks for Au-106 and Cd-105 were found only measurement was done without wedge removement from the linear accelerator. The additional doses received by the radiation worker during wedge replacement were estimated to be 0.08-0.4 mSv per year.

엣지 디바이스를 위한 AI 가속기 설계 방법 (AI Accelerator Design for Edge Devices)

  • 하회리;김현준;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.723-726
    • /
    • 2024
  • 단일 dataflow 를 지원하는 DNN 가속기는 자원 효율적인 성능을 보이지만, 여러 DNN 모델에 대해서 가속 효과가 제한적입니다. 반면에 모든 dataflow 를 지원하여 매 레이어마다 최적의 dataflow를 사용하여 가속하는 reconfigurable dataflow accelerator (RDA)는 굉장한 가속 효과를 보이지만 여러 dataflow 를 지원하는 과정에서 필요한 추가 하드웨어로 인하여 효율적이지 못합니다. 따라서 본 연구는 제한된 dataflow 만을 지원하여 추가 하드웨어 요구사항을 감소시키고, 중복되는 하드웨어의 재사용을 통해 최적화하는 새로운 가속기 설계를 제안합니다. 이 방식은 자원적 한계가 뚜렷한 엣지 디바이스에 RDA 방식을 적용하는데 필수적이며, 기존 RDA 의 단점을 최소화하여 성능과 자원 효율성의 최적점을 달성합니다. 실험 결과, 제안된 가속기는 기존 RDA 대비 32% 더 높은 에너지 효율을 보이며, latency 는 불과 1%의 차이를 보였습니다.

  • PDF

구조적 압축을 통한 FPGA 기반 GRU 추론 가속기 설계 (Implementation of FPGA-based Accelerator for GRU Inference with Structured Compression)

  • 채병철
    • 한국정보통신학회논문지
    • /
    • 제26권6호
    • /
    • pp.850-858
    • /
    • 2022
  • 리소스가 제한된 임베디드 장치에 GRU를 배포하기 위해 이 논문은 구조적 압축을 가능하게 하는 재구성 가능한 FPGA 기반 GRU 가속기를 설계한다. 첫째, 조밀한 GRU 모델은 하이브리드 양자화 방식과 구조화된 top-k 프루닝에 의해 크기가 대폭 감소한다. 둘째, 본 연구에서 제시하는 재사용 컴퓨팅 패턴에 의해 외부 메모리 액세스에 대한 에너지 소비가 크게 감소한다. 마지막으로 가속기는 알고리즘-하드웨어 공동 설계 워크플로의 이점을 얻는 구조화된 희소 GRU 모델을 처리할 수 있다. 또한 모든 차원, 시퀀스 길이 및 레이어 수를 사용하여 GRU 모델에 대한 추론 작업을 유연하게 수행할 수 있다. Intel DE1-SoC FPGA 플랫폼에 구현된 제안된 가속기는 일괄 처리가 없는 구조화된 희소 GRU 네트워크에서 45.01 GOPs를 달성하였다. CPU 및 GPU의 구현과 비교할 때 저비용 FPGA 가속기는 대기 시간에서 각각 57배 및 30배, 에너지 효율성에서 300배 및 23.44배 향상을 달성한다. 따라서 제안된 가속기는 실시간 임베디드 애플리케이션에 대한 초기 연구로서 활용, 향후 더 발전될 수 있는 잠재력을 보여준다.

AI 가속기 설계 영역 탐색에 대한 연구 (A Study on Design Space Exploration on AI accelerator)

  • 이동주;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.535-537
    • /
    • 2022
  • AI 가속기는 머신 러닝 및 딥 러닝을 포함한 인공 지능 및 기계 학습 응용 프로그램의 연산을 더 빠르게 수행하도록 설계된 일종의 하드웨어 가속기 또는 컴퓨터 시스템이다. 가속기를 설계하기 위해선 설계 영역 탐색(Design Space Exploration)을 하여야 하고 여러 인공지능 중에서도 합성 곱 신경망(CNN)에 대한 설계 영역 탐색을 소개한다.

딥뉴럴네트워크를 위한 기능성 기반의 핌 가속기 (Functionality-based Processing-In-Memory Accelerator for Deep Neural Networks)

  • 김민재;김신덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.8-11
    • /
    • 2020
  • 4 차 산업혁명 시대의 도래와 함께 AI, ICT 기술의 융합이 진행됨에 따라, 유저 레벨의 디바이스에서도 AI 서비스의 요청이 실현되었다. 이미지 처리와 관련된 AI 서비스는 피사체 판별, 불량품 검사, 자율주행 등에 이용되고 있으며, 특히 Deep Convolutional Neural Network (DCNN)은 이미지의 특색을 파악하는 데 뛰어난 성능을 보여준다. 하지만, 이미지의 크기가 커지고, 신경망이 깊어짐에 따라 연산 처리에 있어 낮은 데이터 지역성과 빈번한 메모리 참조를 야기했다. 이에 따라, 기존의 계층적 시스템 구조는 DCNN 을 scalable 하고 빠르게 처리하는 데 한계를 보인다. 본 연구에서는 DCNN 의 scalable 하고 빠른 처리를 위해 3 차원 메모리 구조의 Processing-In-Memory (PIM) 가속기를 제안한다. 이를 위해 기존 3 차원 메모리인 Hybrid Memory Cube (HMC)에 하드웨어 및 소프트웨어 모듈을 추가로 구성하였다. 구체적으로, Processing Element (PE)간 데이터를 공유할 수 있는 공유 캐시 및 소프트웨어 스택, 파이프라인화된 곱셈기 및 듀얼 프리페치 버퍼를 구성하였다. 이를 유명 DCNN 알고리즘 LeNet, AlexNet, ZFNet, VGGNet, GoogleNet, RestNet 에 대해 성능 평가를 진행한 결과 기존 HMC 대비 40.3%의 속도 향상을 29.4%의 대역폭 향상을 보였다.

지능형 AI기반의 미세먼지 저감 제어 시스템 (Intelligent AI-based Fine Dust Reduction Control System for Thermal Power Generation)

  • 임상택;백순창;송용준;백영태;최차봉;송승인
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.53-56
    • /
    • 2019
  • 본 논문에서는 화력을 이용하는 대형 파워 플랜트 설비의 미세먼지 발생량을 저감시키고 능동적으로 제어 할 수 있는 효율적인 시스템을 제안한다. 이 시스템은 기존의 고정형으로 설계된 집진기 방식의 고정부하량 한계점과 극복하고 초미세먼지 PM2.5, 미세먼지 PM10의 발생량에 따라 IoT센서 감지에 의해 지능형 알고리즘으로 효율적으로 저감 제어 처리량을 극대화하고, 미세먼지 발생량을 최소화한다. 또한 이 시스템의 차별성은 기존의 집진기에서 잡혀지지 않는 초미세먼지를 새로운 형태의 물질인 FAA(Fine-dust Adsorption Agent)를 통해 연료 연소 시 발생되는 초미세먼지 미세입자 자체를 크게 만들어 기존 설비 집진기 필터에 포집되게 하는 혁신적인 방식이다. 이번 연구를 통해 350도~1000도 열원에서 작용할 수 있는 화학물질 FAA 용액(Agent)을 개발 하였으며 지능형 AI 분사장치를 통해 연료에 첨가되어 연소 시 미세먼지를 20배~50배까지 볼륨을 확대시켜 기존 집진필터에 포집될 수 있게 동작된다. 이때, 기존 설계된 집진기의 한계(부하)용량에 상관없이 미세먼지 발생량을 상황인식 반응형 알고리즘(AI제어) 통해 분사량을 능동적으로 조절하여 미세먼지 발생량을 저감하는 진보적 혁신성을 지닌다.

  • PDF

Comparison of Artificial Neural Networks for Low-Power ECG-Classification System

  • Rana, Amrita;Kim, Kyung Ki
    • 센서학회지
    • /
    • 제29권1호
    • /
    • pp.19-26
    • /
    • 2020
  • Electrocardiogram (ECG) classification has become an essential task of modern day wearable devices, and can be used to detect cardiovascular diseases. State-of-the-art Artificial Intelligence (AI)-based ECG classifiers have been designed using various artificial neural networks (ANNs). Despite their high accuracy, ANNs require significant computational resources and power. Herein, three different ANNs have been compared: multilayer perceptron (MLP), convolutional neural network (CNN), and spiking neural network (SNN) only for the ECG classification. The ANN model has been developed in Python and Theano, trained on a central processing unit (CPU) platform, and deployed on a PYNQ-Z2 FPGA board to validate the model using a Jupyter notebook. Meanwhile, the hardware accelerator is designed with Overlay, which is a hardware library on PYNQ. For classification, the MIT-BIH dataset obtained from the Physionet library is used. The resulting ANN system can accurately classify four ECG types: normal, atrial premature contraction, left bundle branch block, and premature ventricular contraction. The performance of the ECG classifier models is evaluated based on accuracy and power. Among the three AI algorithms, the SNN requires the lowest power consumption of 0.226 W on-chip, followed by MLP (1.677 W), and CNN (2.266 W). However, the highest accuracy is achieved by the CNN (95%), followed by MLP (76%) and SNN (90%).