• Title/Summary/Keyword: 양자화 모델

Search Result 199, Processing Time 0.026 seconds

Compression of CNN Using Local Nonlinear Quantization in MPEG-NNR (MPEG-NNR 의 지역 비선형 양자화를 이용한 CNN 압축)

  • Lee, Jeong-Yeon;Moon, Hyeon-Cheol;Kim, Sue-Jeong;Kim, Jae-Gon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.662-663
    • /
    • 2020
  • 최근 MPEG 에서는 인공신경망 모델을 다양한 딥러닝 프레임워크에서 상호운용 가능한 포맷으로 압축 표현할 수 있는 NNR(Compression of Neural Network for Multimedia Content Description and Analysis) 표준화를 진행하고 있다. 본 논문에서는 MPEG-NNR 에서 CNN 모델을 압축하기 위한 지역 비선형 양자화(Local Non-linear Quantization: LNQ) 기법을 제시한다. 제안하는 LNQ 는 균일 양자화된 CNN 모델의 각 계층의 가중치 행렬 블록 단위로 추가적인 비선형 양자화를 적용한다. 또한, 제안된 LNQ 는 가지치기(pruning)된 모델의 경우 블록내의 영(zero) 값의 가중치들은 그대로 전송하고 영이 아닌 가중치만을 이진 군집화를 적용한다. 제안 기법은 음성 분류를 위한 CNN 모델(DCASE Task)의 압축 실험에서 기존 균일 양자화를 대비 동일한 분류 성능에서 약 1.78 배 압축 성능 향상이 있음을 확인하였다.

  • PDF

Sequential Speaker Classification Using Quantized Generic Speaker Models (양자화 된 범용 화자모델을 이용한 연속적 화자분류)

  • Kwon, Soon-Il
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.44 no.1
    • /
    • pp.26-32
    • /
    • 2007
  • In sequential speaker classification, the lack of prior information about the speakers poses a challenge for model initialization. To address the challenge, a predetermined generic model set, called Sample Speaker Models, was previously proposed. This approach can be useful for accurate speaker modeling without requiring initial speaker data. However, an optimal method for sampling the models from a generic model pool is still required. To solve this problem, the Speaker Quantization method, motivated by vector quantization, is proposed. Experimental results showed that the new approach outperformed the random sampling approach with 25% relative improvement in error rate on switchboard telephone conversations.

Bit-width Aware Generator and Intermediate Layer Knowledge Distillation using Channel-wise Attention for Generative Data-Free Quantization

  • Jae-Yong Baek;Du-Hwan Hur;Deok-Woong Kim;Yong-Sang Yoo;Hyuk-Jin Shin;Dae-Hyeon Park;Seung-Hwan Bae
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.7
    • /
    • pp.11-20
    • /
    • 2024
  • In this paper, we propose the BAG (Bit-width Aware Generator) and the Intermediate Layer Knowledge Distillation using Channel-wise Attention to reduce the knowledge gap between a quantized network, a full-precision network, and a generator in GDFQ (Generative Data-Free Quantization). Since the generator in GDFQ is only trained by the feedback from the full-precision network, the gap resulting in decreased capability due to low bit-width of the quantized network has no effect on training the generator. To alleviate this problem, BAG is quantized with same bit-width of the quantized network, and it can generate synthetic images, which are effectively used for training the quantized network. Typically, the knowledge gap between the quantized network and the full-precision network is also important. To resolve this, we compute channel-wise attention of outputs of convolutional layers, and minimize the loss function as the distance of them. As the result, the quantized network can learn which channels to focus on more from mimicking the full-precision network. To prove the efficiency of proposed methods, we quantize the network trained on CIFAR-100 with 3 bit-width weights and activations, and train it and the generator with our method. As the result, we achieve 56.14% Top-1 Accuracy and increase 3.4% higher accuracy compared to our baseline AdaDFQ.

A Model Compression for Super Resolution Multi Scale Residual Networks based on a Layer-wise Quantization (계층별 양자화 기반 초해상화 다중 스케일 잔차 네트워크 압축)

  • Hwang, Jiwon;Bae, Sung-Ho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.540-543
    • /
    • 2020
  • 기존의 초해상도 딥러닝 기법은 모델의 깊이가 깊어지면서, 좋은 성능을 내지만 점점 더 복잡해지고 있고, 실제로 사용하는데 있어 많은 시간을 요구한다. 이를 해결하기 위해, 우리는 딥러닝 모델의 가중치를 양자화 하여 추론시간을 줄이고자 한다. 초해상도 모델은 feature extraction, non-linear mapping, reconstruction 세 부분으로 나누어져 있으며, 레이어 사이에 많은 skip-connection 이 존재하는 특징이 있다. 따라서 양자화 시 최종 성능 하락에 미치는 영향력이 레이어 별로 다르며, 이를 감안하여 강화학습으로 레이어 별 최적 bit 를 찾아 성능 하락을 최소화한다. 본 논문에서는 Skip-connection 이 많이 존재하는 MSRN 을 사용하였으며, 결과에서 feature extraction, reconstruction 부분과 블록 내 특정 위치의 레이어가 항상 높은 bit 를 가짐을 알 수 있다. 기존에 영상 분류에 한정되어 사용되었던 혼합 bit 양자화를 사용하여 초해상도 딥러닝 기법의 모델 사이즈를 줄인 최초의 논문이며, 제안 방법은 모바일 등 제한된 환경에 적용 가능할 것으로 생각된다.

  • PDF

Analysis of Deep learning Quantization Technology for Micro-sized IoT devices (초소형 IoT 장치에 구현 가능한 딥러닝 양자화 기술 분석)

  • YoungMin KIM;KyungHyun Han;Seong Oun Hwang
    • Journal of Internet of Things and Convergence
    • /
    • v.9 no.1
    • /
    • pp.9-17
    • /
    • 2023
  • Deep learning with large amount of computations is difficult to implement on micro-sized IoT devices or moblie devices. Recently, lightweight deep learning technologies have been introduced to make sure that deep learning can be implemented even on small devices by reducing the amount of computation of the model. Quantization is one of lightweight techniques that can be efficiently used to reduce the memory and size of the model by expressing parameter values with continuous distribution as discrete values of fixed bits. However, the accuracy of the model is reduced due to discrete value representation in quantization. In this paper, we introduce various quantization techniques to correct the accuracy. We selected APoT and EWGS from existing quantization techniques, and comparatively analyzed the results through experimentations The selected techniques were trained and tested with CIFAR-10 or CIFAR-100 datasets in the ResNet model. We found out problems with them through experimental results analysis and presented directions for future research.

A study on the application of residual vector quantization for vector quantized-variational autoencoder-based foley sound generation model (벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구)

  • Seokjin Lee
    • The Journal of the Acoustical Society of Korea
    • /
    • v.43 no.2
    • /
    • pp.243-252
    • /
    • 2024
  • Among the Foley sound generation models that have recently begun to be studied, a sound generation technique using the Vector Quantized-Variational AutoEncoder (VQ-VAE) structure and generation model such as Pixelsnail are one of the important research subjects. On the other hand, in the field of deep learning-based acoustic signal compression, residual vector quantization technology is reported to be more suitable than the conventional VQ-VAE structure. Therefore, in this paper, we aim to study whether residual vector quantization technology can be effectively applied to the Foley sound generation. In order to tackle the problem, this paper applies the residual vector quantization technique to the conventional VQ-VAE-based Foley sound generation model, and in particular, derives a model that is compatible with the existing models such as Pixelsnail and does not increase computational resource consumption. In order to evaluate the model, an experiment was conducted using DCASE2023 Task7 data. The results show that the proposed model enhances about 0.3 of the Fréchet audio distance. Unfortunately, the performance enhancement was limited, which is believed to be due to the decrease in the resolution of time-frequency domains in order to do not increase consumption of the computational resources.

Precision Switching for Efficient Matrix Factorization in Recommender Systems (추천 시스템에서의 효율적인 행렬 분해 모델을 위한 정밀도 변환 기법)

  • Yu, Jae-Seo;Ko, Yun-Yong;Bae, Hong-Kyun;Kang, Seokwon;Yu, Yongseung;Park, Yongjun;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.314-315
    • /
    • 2021
  • 최근 딥러닝 분야에서 모델 학습을 가속화하기 위해, 실수 표현 시 사용하는 비트 수를 줄이는 양자화 연구가 활발히 진행되고 있다. 본 논문은 추천 시스템 모델 중 하나인 행렬 분해 모델(Matrix Factorization, MF)에 대한 양자화 수행 시, 발생할 수 있는 학습 정확도 손실을 방지하기 위한 정밀도 변환 방안을 제시한다. 우리는 실세계 데이터셋을 이용한 실험을 통해, 제안 방안이 적용된 MF 모델은 양자화 기법이 적용되지 않은 모델과 비슷한 추천 정확도를 보이며, 약 30% 개선된 속도로 학습됨을 확인할 수 있었다.

Improved R-Q model for rate control in hierarchical coding structure of H.264/AVC (계층적 부호화 구조의 H.264/AVC에서 효율적인 비트율 제어를 위한 향상된 비트율-양자화 모델링)

  • Seo, Chan-Won;Han, Jong-Ki
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2010.11a
    • /
    • pp.91-92
    • /
    • 2010
  • 계층적 부호화 구조는 H.264/AVC의 부호화 효율을 최대화하고 시간적 스케일러빌리티를 지원하는 등 다양한 장점을 제공한다. 이러한 구조에서 비트 할당 및 비트율 제어 기술은 비디오 코덱의 성능을 향상시킬 수 있는 중요한 요소들이다. 기존의 비트율 제어 기술에서는 계층적 구조의 특성을 고려하지 못한 비트율-양자화 모델을 사용하여 비디오 코덱의 성능을 최적화하기에 어려움이 있었다. 따라서, 본 논문에서는 계층적 구조에서도 효율적으로 비트 할당 및 비트율 제어를 할 수 있도록, 기존보다 향상된 비트율-양자화 모델을 제안한다. 그리고 실험을 통하여 제안하는 비트율-양자화 모델이 기존 기술에 비해 정확함을 보인다.

  • PDF

R-Q model for efficient rate control in HEVC (HEVC에서 효율적인 비트율 제어를 위한 비트율-양자화 모델링)

  • Lee, Min-Ho;Han, Jong-Ki
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.228-230
    • /
    • 2012
  • ITU와 ISO/IEC가 공동으로 UHD(Ultra High Definition)급 영상 부호화를 위해 표준화를 진행하고 있는 HEVC(High Efficient Video Codec)는 H.264/AVC 대비 2배 이상의 압축 효율을 갖는 것을 목표로 정하고 있다. HEVC는 다수의 개선된 기술을 사용하고 있기 때문에 부호화효율을 크게 향상시켰는데 여기에 비트 할당 및 비트율 제어 기술사용을 비디오 코덱의 성능을 향상 시킬 수 있는 중요한 요소들이다. 기존 H.264/AVC의 비트율 제어 기술에는 HEVC의 특성을 고려하지 못한 비트율-양자화 모델을 사용하여 HEVC의 성능을 최적화하기에 어려움이 있었다. 따라서 본 논문에서는 HEVC에서 효율적으로 비트 할당 및 비트율 제어를 할 수 있도록, 기존보다 향상된 비트율-양자화 모델을 제안한다. 그리고 실험을 통하여 제안하는 비트율-양자화 모델이 기존 기술에 비해 정확함을 보인다.

  • PDF

Lightweight of ONNX using Quantization-based Model Compression (양자화 기반의 모델 압축을 이용한 ONNX 경량화)

  • Chang, Duhyeuk;Lee, Jungsoo;Heo, Junyoung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.21 no.1
    • /
    • pp.93-98
    • /
    • 2021
  • Due to the development of deep learning and AI, the scale of the model has grown, and it has been integrated into other fields to blend into our lives. However, in environments with limited resources such as embedded devices, it is exist difficult to apply the model and problems such as power shortages. To solve this, lightweight methods such as clouding or offloading technologies, reducing the number of parameters in the model, or optimising calculations are proposed. In this paper, quantization of learned models is applied to ONNX models used in various framework interchange formats, neural network structure and inference performance are compared with existing models, and various module methods for quantization are analyzed. Experiments show that the size of weight parameter is compressed and the inference time is more optimized than before compared to the original model.