• 제목/요약/키워드: Neural Processing Unit (NPU)

검색결과 8건 처리시간 0.022초

Cycle-accurate NPU 시뮬레이터 및 데이터 접근 방식에 따른 NPU 성능평가 (Cycle-accurate NPU Simulator and Performance Evaluation According to Data Access Strategies)

  • 권구윤;박상우;서태원
    • 대한임베디드공학회논문지
    • /
    • 제17권4호
    • /
    • pp.217-228
    • /
    • 2022
  • Currently, there are increasing demands for applying deep neural networks (DNNs) in the embedded domain such as classification and object detection. The DNN processing in embedded domain often requires custom hardware such as NPU for acceleration due to the constraints in power, performance, and area. Processing DNN models requires a large amount of data, and its seamless transfer to NPU is crucial for performance. In this paper, we developed a cycle-accurate NPU simulator to evaluate diverse NPU microarchitectures. In addition, we propose a novel technique for reducing the number of memory accesses when processing convolutional layers in convolutional neural networks (CNNs) on the NPU. The main idea is to reuse data with memory interleaving, which recycles the overlapping data between previous and current input windows. Data memory interleaving makes it possible to quickly read consecutive data in unaligned locations. We implemented the proposed technique to the cycle-accurate NPU simulator and measured the performance with LeNet-5, VGGNet-16, and ResNet-50. The experiment shows up to 2.08x speedup in processing one convolutional layer, compared to the baseline.

A layer-wise frequency scaling for a neural processing unit

  • Chung, Jaehoon;Kim, HyunMi;Shin, Kyoungseon;Lyuh, Chun-Gi;Cho, Yong Cheol Peter;Han, Jinho;Kwon, Youngsu;Gong, Young-Ho;Chung, Sung Woo
    • ETRI Journal
    • /
    • 제44권5호
    • /
    • pp.849-858
    • /
    • 2022
  • Dynamic voltage frequency scaling (DVFS) has been widely adopted for runtime power management of various processing units. In the case of neural processing units (NPUs), power management of neural network applications is required to adjust the frequency and voltage every layer to consider the power behavior and performance of each layer. Unfortunately, DVFS is inappropriate for layer-wise run-time power management of NPUs due to the long latency of voltage scaling compared with each layer execution time. Because the frequency scaling is fast enough to keep up with each layer, we propose a layerwise dynamic frequency scaling (DFS) technique for an NPU. Our proposed DFS exploits the highest frequency under the power limit of an NPU for each layer. To determine the highest allowable frequency, we build a power model to predict the power consumption of an NPU based on a real measurement on the fabricated NPU. Our evaluation results show that our proposed DFS improves frame per second (FPS) by 33% and saves energy by 14% on average, compared with DVFS.

SoC 환경에서 TIDL NPU를 활용한 딥러닝 기반 도로 영상 인식 기술 (Road Image Recognition Technology based on Deep Learning Using TIDL NPU in SoC Enviroment)

  • 신윤선;서주현;이민영;김인중
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.25-31
    • /
    • 2022
  • 자율주행 자동차에서 딥러닝 기반 영상처리는 매우 중요하다. 자동차를 비롯한 SoC(System on Chip) 환경에서 실시간으로 도로 영상을 처리하기 위해서는 영상처리 모델을 딥러닝 연산에 특화된 NPU(Neural Processing Unit) 상에서 실행해야 한다. 본 연구에서는 GPU 서버 환경에서 개발된 7종의 오픈소스 딥러닝 영상처리 모델들을 TIDL (Texas Instrument Deep Learning) NPU 환경에 이식하였다. 성능 평가와 시각화를 통해 본 연구에서 이식한 모델들이 SoC 가상환경에서 정상 작동함을 확인하였다. 본 논문은 NPU 환경의 제약으로 인해 이식 과정에 발생한 문제들과 그 해결 방법을 소개함으로써 딥러닝 모델을 SoC 환경에 이식하려는 개발자 및 연구자가 참고할 만한 사례를 제시한다.

FPGA기반 뉴럴네트워크 가속기에서 2차 타일링 기반 행렬 곱셈 최적화 (Optimizing 2-stage Tiling-based Matrix Multiplication in FPGA-based Neural Network Accelerator)

  • 권진세;이제민;권용인;박제만;유미선;김태호;김형신
    • 대한임베디드공학회논문지
    • /
    • 제17권6호
    • /
    • pp.367-374
    • /
    • 2022
  • The acceleration of neural networks has become an important topic in the field of computer vision. An accelerator is absolutely necessary for accelerating the lightweight model. Most accelerator-supported operators focused on direct convolution operations. If the accelerator does not provide GEMM operation, it is mostly replaced by CPU operation. In this paper, we proposed an optimization technique for 2-stage tiling-based GEMM routines on VTA. We improved performance of the matrix multiplication routine by maximizing the reusability of the input matrix and optimizing the operation pipelining. In addition, we applied the proposed technique to the DarkNet framework to check the performance improvement of the matrix multiplication routine. The proposed GEMM method showed a performance improvement of more than 2.4 times compared to the non-optimized GEMM method. The inference performance of our DarkNet framework has also improved by at least 2.3 times.

NPU 반도체를 위한 저정밀도 데이터 타입 개발 동향 (Trends of Low-Precision Processing for AI Processor)

  • 김혜지;한진호;권영수
    • 전자통신동향분석
    • /
    • 제37권1호
    • /
    • pp.53-62
    • /
    • 2022
  • With increasing size of transformer-based neural networks, a light-weight algorithm and efficient AI accelerator has been developed to train these huge networks in practical design time. In this article, we present a survey of state-of-the-art research on the low-precision computational algorithms especially for floating-point formats and their hardware accelerator. We describe the trends by focusing on the work of two leading research groups-IBM and Seoul National University-which have deep knowledge in both AI algorithm and hardware architecture. For the low-precision algorithm, we summarize two efficient floating-point formats (hybrid FP8 and radix-4 FP4) with accuracy-preserving algorithms for training on the main research stream. Moreover, we describe the AI processor architecture supporting the low-bit mixed precision computing unit including the integer engine.

소방관의 요구조자 탐색을 위한 인공지능 처리 임베디드 시스템 개발 (Development of Artificial Intelligence Processing Embedded System for Rescue Requester search)

  • 라종필;박현주
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1612-1617
    • /
    • 2020
  • 최근 재난 안전 기술 분야에 인공지능 기술을 적극적으로 받아들여 재해율을 감소시키고자 하는 연구가 확산되고 있다. 특히 재난 현장에서 구조 활동을 효과적으로 수행하기 위해서는 요구조자를 신속하게 탐색하는 것이 중요하지만 재난 환경의 특성상 요구조자를 탐색하는 것이 어렵다. 본 논문에서는 요구조자 탐색을 위한 소방관용 스마트 헬멧에서 동작 가능한 인공지능 시스템을 개발하고자 한다. 이를 위해 최적의 SoC를 선정하고 이를 임베디드 시스템으로 개발하였으며 범용적인 인공지능 S/W를 시험 동작함으로써 향후 스마트 헬멧 연구를 위한 임베디드 시스템이 인공지능 S/W 운용 플랫폼으로 적합함을 검증하였다.

Azure 클라우드 플랫폼의 가상서버 호스팅을 이용한 데이터 수집환경 및 분석에 관한 연구 (A study on data collection environment and analysis using virtual server hosting of Azure cloud platform)

  • 이재규;조인표;이상엽
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.329-330
    • /
    • 2020
  • 본 논문에서는 Azure 클라우드 플랫폼의 가상서버 호스팅을 이용해 데이터 수집 환경을 구축하고, Azure에서 제공하는 자동화된 기계학습(Automated Machine Learning, AutoML)을 기반으로 데이터 분석 방법에 관한 연구를 수행했다. 가상 서버 호스팅 환경에 LAMP(Linux, Apache, MySQL, PHP)를 설치하여 데이터 수집환경을 구축했으며, 수집된 데이터를 Azure AutoML에 적용하여 자동화된 기계학습을 수행했다. Azure AutoML은 소모적이고 반복적인 기계학습 모델 개발을 자동화하는 프로세스로써 기계학습 솔루션 구현하는데 시간과 자원(Resource)를 절약할 수 있다. 특히, AutoML은 수집된 데이터를 분류와 회귀 및 예측하는데 있어서 학습점수(Training Score)를 기반으로 보유한 데이터에 가장 적합한 기계학습 모델의 순위를 제공한다. 이는 데이터 분석에 필요한 기계학습 모델을 개발하는데 있어서 개발 초기 단계부터 코드를 설계하지 않아도 되며, 전체 기계학습 시스템을 개발 및 구현하기 전에 모델의 구성과 시스템을 설계해볼 수 있기 때문에 매우 효율적으로 활용될 수 있다. 본 논문에서는 NPU(Neural Processing Unit) 학습에 필요한 데이터 수집 환경에 관한 연구를 수행했으며, Azure AutoML을 기반으로 데이터 분류와 회귀 등 가장 효율적인 알고리즘 선정에 관한 연구를 수행했다.

  • PDF

국내외 인공지능 반도체에 대한 연구 동향 (Research Trends in Domestic and International Al chips)

  • 김현지;윤세영;서화정
    • 스마트미디어저널
    • /
    • 제13권3호
    • /
    • pp.36-44
    • /
    • 2024
  • 최근 ChatGPT와 같은 초거대 인공지능 기술이 발달하고 있으며, 다양한 산업 분야 전반에서 인공지능이 활용됨에 따라 인공지능 반도체에 대한 관심이 집중되고 있다. 인공지능 반도체는 인공지능 알고리즘을 위한 연산을위해 설계된 칩을 의미하며, NVIDIA, Tesla, ETRI 등과 같이 국내외 여러 기업에서 인공지능 반도체를 개발 중에 있다. 본 논문에서는 국내외 인공지능 반도체 9종에 대한 연구 동향을 파악한다. 현재 대부분의 인공지능 반도체는 연산 성능을 향상시키기 위한 시도들이 많이 진행되었으며, 특정 목적을 위한 반도체들 또한 설계되고 있다. 다양한 인공지능 반도체들에 대한 비교를 위해 연산 단위, 연산속도, 전력, 에너지 효율성 등의 측면에서 각 반도체에 대해 분석하고, 현재 존재하는 인공지능 연산을 위한 최적화 방법론에 대해 분석한다. 이를 기반으로 향후 인공지능 반도체의 연구 방향에 대해 제시한다.