• Title/Summary/Keyword: 언어 모델 경량화

Search Result 13, Processing Time 0.027 seconds

Wanda Pruning for Lightweighting Korean Language Model (Wanda Pruning에 기반한 한국어 언어 모델 경량화)

  • Jun-Ho Yoon;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.437-442
    • /
    • 2023
  • 최근에 등장한 대규모 언어 모델은 다양한 언어 처리 작업에서 놀라운 성능을 발휘하고 있다. 그러나 이러한 모델의 크기와 복잡성 때문에 모델 경량화의 필요성이 대두되고 있다. Pruning은 이러한 경량화 전략 중 하나로, 모델의 가중치나 연결의 일부를 제거하여 크기를 줄이면서도 동시에 성능을 최적화하는 방법을 제시한다. 본 논문에서는 한국어 언어 모델인 Polyglot-Ko에 Wanda[1] 기법을 적용하여 Pruning 작업을 수행하였다. 그리고 이를 통해 가중치가 제거된 모델의 Perplexity, Zero-shot 성능, 그리고 Fine-tuning 후의 성능을 분석하였다. 실험 결과, Wanda-50%, 4:8 Sparsity 패턴, 2:4 Sparsity 패턴의 순서로 높은 성능을 나타냈으며, 특히 일부 조건에서는 기존의 Dense 모델보다 더 뛰어난 성능을 보였다. 이러한 결과는 오늘날 대규모 언어 모델 중심의 연구에서 Pruning 기법의 효과와 그 중요성을 재확인하는 계기가 되었다.

  • PDF

Lightweight Language Models based on SVD for Document-Grounded Response Generation (SVD에 기반한 모델 경량화를 통한 문서 그라운딩된 응답 생성)

  • Geom Lee;Dea-ryong Seo;Dong-Hyeon Jeon;In-ho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.638-643
    • /
    • 2023
  • 문서 기반 대화 시스템은 크게 질문으로부터 문서를 검색하는 과정과 응답 텍스트를 생성하는 과정으로 나뉜다. 이러한 대화 시스템의 응답 생성 과정에 디코더 기반 LLM을 사용하기 위해서 사전 학습된 LLM을 미세 조정한다면 많은 메모리, 연산 자원이 소모된다. 본 연구에서는 SVD에 기반한 LLM의 경량화를 시도한다. 사전 학습된 polyglot-ko 모델의 행렬을 SVD로 분해한 뒤, full-fine-tuning 해보고, LoRA를 붙여서 미세 조정 해본 뒤, 원본 모델을 미세 조정한 것과 점수를 비교하고, 정성평가를 수행하여 경량화된 모델의 응답 생성 성능을 평가한다. 문서 기반 대화를 위한 한국어 대화 데이터셋인 KoDoc2Dial에 대하여 평가한다.

  • PDF

Compressing intent classification model for multi-agent in low-resource devices (저성능 자원에서 멀티 에이전트 운영을 위한 의도 분류 모델 경량화)

  • Yoon, Yongsun;Kang, Jinbeom
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.3
    • /
    • pp.45-55
    • /
    • 2022
  • Recently, large-scale language models (LPLM) have been shown state-of-the-art performances in various tasks of natural language processing including intent classification. However, fine-tuning LPLM requires much computational cost for training and inference which is not appropriate for dialog system. In this paper, we propose compressed intent classification model for multi-agent in low-resource like CPU. Our method consists of two stages. First, we trained sentence encoder from LPLM then compressed it through knowledge distillation. Second, we trained agent-specific adapter for intent classification. The results of three intent classification datasets show that our method achieved 98% of the accuracy of LPLM with only 21% size of it.

Structured Pruning for Efficient Transformer Model compression (효율적인 Transformer 모델 경량화를 위한 구조화된 프루닝)

  • Eunji Yoo;Youngjoo Lee
    • Transactions on Semiconductor Engineering
    • /
    • v.1 no.1
    • /
    • pp.23-30
    • /
    • 2023
  • With the recent development of Generative AI technology by IT giants, the size of the transformer model is increasing exponentially over trillion won. In order to continuously enable these AI services, it is essential to reduce the weight of the model. In this paper, we find a hardware-friendly structured pruning pattern and propose a lightweight method of the transformer model. Since compression proceeds by utilizing the characteristics of the model algorithm, the size of the model can be reduced and performance can be maintained as much as possible. Experiments show that the structured pruning proposed when pruning GPT-2 and BERT language models shows almost similar performance to fine-grained pruning even in highly sparse regions. This approach reduces model parameters by 80% and allows hardware acceleration in structured form with 0.003% accuracy loss compared to fine-tuned pruning.

Parameter-Efficient Multi-Modal Highlight Detection via Prompting (Prompting 기반 매개변수 효율적인 멀티 모달 영상 하이라이트 검출 연구)

  • DongHoon Han;Seong-Uk Nam;Eunhwan Park;Nojun Kwak
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.372-376
    • /
    • 2023
  • 본 연구에서는 비디오 하이라이트 검출 및 장면 추출을 위한 경량화된 모델인 Visual Context Learner (VCL)을 제안한다. 기존 연구에서는 매개변수가 고정된 CLIP을 비롯한 여러 피쳐 추출기에 학습 가능한 DETR과 같은 트랜스포머를 이어붙여서 학습을 한다. 하지만 본 연구는 경량화된 구조로 하이라이트 검출 성능을 개선시킬 수 있음을 보인다. 그리고 해당 형태로 장면 추출도 가능함을 보이며 장면 추출의 추가 연구 가능성을 시사한다. VCL은 매개변수가 고정된 CLIP에 학습가능한 프롬프트와 MLP로 하이라이트 검출과 장면 추출을 진행한다. 총 2,141개의 학습가능한 매개변수를 사용하여 하이라이트 검출의 HIT@1(>=Very Good) 성능을 기존 CLIP보다 2.71% 개선된 성능과 최소한의 장면 추출 성능을 보인다.

  • PDF

Parameter-Efficient Prompting for Few-Shot Learning (Prompting 기반 매개변수 효율적인 Few-Shot 학습 연구)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.343-347
    • /
    • 2022
  • 최근 자연어처리 분야에서는 BERT, RoBERTa, 그리고 BART와 같은 사전 학습된 언어 모델 (Pre-trained Language Models, PLM) 기반 미세 조정 학습을 통하여 여러 하위 과업에서 좋은 성능을 거두고 있다. 이는 사전 학습된 언어 모델 및 데이터 집합의 크기, 그리고 모델 구성의 중요성을 보여주며 대규모 사전 학습된 언어 모델이 각광받는 계기가 되었다. 하지만, 거대한 모델의 크기로 인하여 실제 산업에서 쉽게 쓰이기 힘들다는 단점이 명백히 존재함에 따라 최근 매개변수 효율적인 미세 조정 및 Few-Shot 학습 연구가 많은 주목을 받고 있다. 본 논문은 Prompt tuning, Prefix tuning와 프롬프트 기반 미세 조정 (Prompt-based fine-tuning)을 결합한 Few-Shot 학습 연구를 제안한다. 제안한 방법은 미세 조정 ←→ 사전 학습 간의 지식 격차를 줄일 뿐만 아니라 기존의 일반적인 미세 조정 기반 Few-Shot 학습 성능보다 크게 향상됨을 보인다.

  • PDF

REALM for Open-domain Question Answering of Korean (REALM을 이용한 한국어 오픈도메인 질의 응답)

  • Kan, Dong-Chan;Na, Seung-Hoon;Choi, Yun-Su;Lee, Hye-Woo;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.192-196
    • /
    • 2020
  • 최근 딥러닝 기술의 발전에 힘입어 오픈 도메인 QA 시스템의 발전은 가속화되고 있다. 특히 IR 시스템(Information Retrieval)과 추출 기반의 기계 독해 모델을 결합한 접근 방식(IRQA)의 경우, 문서와 질문 각각을 연속 벡터로 인코딩하는 IR 시스템(Dense Retrieval)의 연구가 진행되면서 검색 성능이 전통적인 키워드 기반 IR 시스템에 비해 큰 폭으로 상승하였고, 이를 기반으로 오픈 도메인 질의응답의 성능 또한 개선 되었다. 본 논문에서는 경량화 된 BERT 모델을 기반으로 하여 Dense Retrieval 모델 ORQA와 REALM을 사전 학습하고, 한국어 오픈 도메인 QA에서 QA 성능과 검색 성능을 도출한다. 실험 결과, 키워드 기반 IR 시스템 BM25를 기반으로 했던 이전 IRQA 실험결과와 비교하여 더 적은 문서로 더 나은 QA 성능을 보였으며, 검색 결과의 경우, BM25의 성능을 뛰어넘는 결과를 보였다.

  • PDF

CRFs versus Bi-LSTM/CRFs: Automatic Word Spacing Perspective (CRFs와 Bi-LSTM/CRFs의 비교 분석: 자동 띄어쓰기 관점에서)

  • Yoon, Ho;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-min;Namgoong, Young;Choi, Minseok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.189-192
    • /
    • 2018
  • 자동 띄어쓰기란 컴퓨터를 사용하여 띄어쓰기가 수행되어 있지 않은 문장에 대해 띄어쓰기를 수행하는 것이다. 이는 자연언어처리 분야에서 형태소 분석 전에 수행되는 과정으로, 띄어쓰기에 오류가 발생할 경우, 형태소 분석이나 구문 분석 등에 영향을 주어 그 결과의 모호성을 높이기 때문에 매우 중요한 전처리 과정 중 하나이다. 본 논문에서는 기계학습의 방법 중 하나인 CRFs(Conditional Random Fields)를 이용하여 자동 띄어쓰기를 수행하고 심층 학습의 방법 중 하나인 양방향 LSTM/CRFs (Bidirectional Long Short Term Memory/CRFs)를 이용하여 자동 띄어쓰기를 수행한 뒤 각 모델의 성능을 비교하고 분석한다. CRFs 모델이 양방향 LSTM/CRFs모델보다 성능이 약간 더 높은 모습을 보였다. 따라서 소형 기기와 같은 환경에서는 CRF와 같은 모델을 적용하여 모델의 경량화 및 시간복잡도를 개선하는 것이 훨씬 더 효과적인 것으로 생각된다.

  • PDF

Korean BERT Learning Method with Relative Position Representation (상대적 위치 표현을 이용한 한국어 BERT 학습 방법)

  • Oh, Yeon-Taek;Jun, Chang-Wook;Min, Kyung-Koo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.111-114
    • /
    • 2019
  • BERT는 자연어처리 여러 응용 분야(task)에서 우수한 성능을 보여줬으나, BERT 사전학습 모델을 학습하기 위해서는 많은 학습 시간과 학습 자원이 요구된다. 본 논문에서는 빠른 학습을 위한 한국어 BERT 학습 방법을 제안한다. 본 논문에서는 다음과 같은 세 가지 학습 방법을 적용했다. 교착어인 한국어 특성을 반영하기 위해 형태소 분석 기반의 사전을 사용하였으며, 단어 간 상대적 위치 표현을 추가하여, 상대적 위치 정보를 학습했다. 또한 BERT 베이스 모델의 12-레이어 중 3-레이어만을 사용하여, 모델을 경량화시켰다.

  • PDF

Performance Comparison of Korean Dialect Classification Models Based on Acoustic Features

  • Kim, Young Kook;Kim, Myung Ho
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.10
    • /
    • pp.37-43
    • /
    • 2021
  • Using the acoustic features of speech, important social and linguistic information about the speaker can be obtained, and one of the key features is the dialect. A speaker's use of a dialect is a major barrier to interaction with a computer. Dialects can be distinguished at various levels such as phonemes, syllables, words, phrases, and sentences, but it is difficult to distinguish dialects by identifying them one by one. Therefore, in this paper, we propose a lightweight Korean dialect classification model using only MFCC among the features of speech data. We study the optimal method to utilize MFCC features through Korean conversational voice data, and compare the classification performance of five Korean dialects in Gyeonggi/Seoul, Gangwon, Chungcheong, Jeolla, and Gyeongsang in eight machine learning and deep learning classification models. The performance of most classification models was improved by normalizing the MFCC, and the accuracy was improved by 1.07% and F1-score by 2.04% compared to the best performance of the classification model before normalizing the MFCC.