• Title/Summary/Keyword: 거대언어 모델

Search Result 62, Processing Time 0.023 seconds

Enhancing LoRA Fine-tuning Performance Using Curriculum Learning

  • Daegeon Kim;Namgyu Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.3
    • /
    • pp.43-54
    • /
    • 2024
  • Recently, there has been a lot of research on utilizing Language Models, and Large Language Models have achieved innovative results in various tasks. However, the practical application faces limitations due to the constrained resources and costs required to utilize Large Language Models. Consequently, there has been recent attention towards methods to effectively utilize models within given resources. Curriculum Learning, a methodology that categorizes training data according to difficulty and learns sequentially, has been attracting attention, but it has the limitation that the method of measuring difficulty is complex or not universal. Therefore, in this study, we propose a methodology based on data heterogeneity-based Curriculum Learning that measures the difficulty of data using reliable prior information and facilitates easy utilization across various tasks. To evaluate the performance of the proposed methodology, experiments were conducted using 5,000 specialized documents in the field of information communication technology and 4,917 documents in the field of healthcare. The results confirm that the proposed methodology outperforms traditional fine-tuning in terms of classification accuracy in both LoRA fine-tuning and full fine-tuning.

Technical Trends in Artificial Intelligence for Robotics Based on Large Language Models (거대언어모델 기반 로봇 인공지능 기술 동향 )

  • J. Lee;S. Park;N.W. Kim;E. Kim;S.K. Ko
    • Electronics and Telecommunications Trends
    • /
    • v.39 no.1
    • /
    • pp.95-105
    • /
    • 2024
  • In natural language processing, large language models such as GPT-4 have recently been in the spotlight. The performance of natural language processing has advanced dramatically driven by an increase in the number of model parameters related to the number of acceptable input tokens and model size. Research on multimodal models that can simultaneously process natural language and image data is being actively conducted. Moreover, natural-language and image-based reasoning capabilities of large language models is being explored in robot artificial intelligence technology. We discuss research and related patent trends in robot task planning and code generation for robot control using large language models.

MAdapter: A Refinement of Adapters by Augmenting Efficient Middle Layers (MAdapter: 효율적인 중간 층 도입을 통한 Adapter 구조 개선)

  • Jinhyeon Kim;Taeuk Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.517-521
    • /
    • 2023
  • 최근 거대 언어모델의 등장과 동시에, 많은 매개변수를 효과적으로 학습하는 방법인 효율적인 매개변수 미세조정(Parameter Efficient Fine-Tuning) 연구가 활발히 진행되고 있다. 이 중에서 Adapter는 사전학습 언어모델(Pretrained Language Models)에 몇 개의 추가 병목 구조 모듈을 삽입하여 이를 학습하는 방식으로, 등장한 이후 다양한 연구 영역에서 주목받고 있다. 그러나 몇몇 연구에서는 병목 차원을 증가시켜 미세 조정보다 더 나은 성능을 얻는다는 주장이 나오면서, 원래의 의도와는 다른 방향으로 발전하고 있다는 의견도 있다. 이러한 맥락에서, 본 연구에서는 기존의 Adapter 구조를 개선한 MAdapter를 제안한다. MAdapter는 본래 Adapter에 중간 층을 추가하되 학습 가능한 매개변수의 수는 오히려 줄이는 방법으로, 전체 매개변수 수 대비 1% 내외 만을 학습에 활용하며, Adapter 대비 절반 정도의 매개변수만을 사용하여 기존 결과와 비슷하거나 더 나은 성능을 얻을 수 있는 것을 확인할 수 있다. 또한, 병목차원 크기 비교와 중간 층 개수 분석을 통한 최적의 MAdapter 구조를 찾고, 이로써 효율적인 매개변수 미세조정 방법을 제시한다.

  • PDF

KULLM: Learning to Construct Korean Instruction-following Large Language Models (구름(KULLM): 한국어 지시어에 특화된 거대 언어 모델)

  • Seungjun Lee;Taemin Lee;Jeongwoo Lee;Yoonna Jang;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.196-202
    • /
    • 2023
  • Large Language Models (LLM)의 출현은 자연어 처리 분야의 연구 패러다임을 전환시켰다. LLM의 핵심적인 성능향상은 지시어 튜닝(instruction-tuning) 기법의 결과로 알려져 있다. 그러나, 현재 대부분의 연구가 영어 중심으로 진행되고 있어, 다양한 언어에 대한 접근이 필요하다. 본 연구는 한국어 지시어(instruction-following) 모델의 개발 및 최적화 방법을 제시한다. 본 연구에서는 한국어 지시어 데이터셋을 활용하여 LLM 모델을 튜닝하며, 다양한 데이터셋 조합의 효과에 대한 성능 분석을 수행한다. 최종 결과로 개발된 한국어 지시어 모델을 오픈소스로 제공하여 한국어 LLM 연구의 발전에 기여하고자 한다.

  • PDF

Inducing Harmful Speech in Large Language Models through Korean Malicious Prompt Injection Attacks (한국어 악성 프롬프트 주입 공격을 통한 거대 언어 모델의 유해 표현 유도)

  • Ji-Min Suh;Jin-Woo Kim
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.34 no.3
    • /
    • pp.451-461
    • /
    • 2024
  • Recently, various AI chatbots based on large language models have been released. Chatbots have the advantage of providing users with quick and easy information through interactive prompts, making them useful in various fields such as question answering, writing, and programming. However, a vulnerability in chatbots called "prompt injection attacks" has been proposed. This attack involves injecting instructions into the chatbot to violate predefined guidelines. Such attacks can be critical as they may lead to the leakage of confidential information within large language models or trigger other malicious activities. However, the vulnerability of Korean prompts has not been adequately validated. Therefore, in this paper, we aim to generate malicious Korean prompts and perform attacks on the popular chatbot to analyze their feasibility. To achieve this, we propose a system that automatically generates malicious Korean prompts by analyzing existing prompt injection attacks. Specifically, we focus on generating malicious prompts that induce harmful expressions from large language models and validate their effectiveness in practice.

Interactions of Retriever and LLM on Chain-of-Thought Reasoning for Korean Question Answering (검색모델과 LLM의 상호작용을 활용한 사고사슬 기반의 한국어 질의응답)

  • Minjun Park;Myoseop Sim;Kyungkoo Min;Jooyoung Choi;Haemin Jung;Stanley Jungkyu Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.618-621
    • /
    • 2023
  • 최근 거대언어모델(LLM)이 기계 번역 및 기계 독해를 포함한 다양한 문제들에서 높은 성능을 보이고 있다. 특히 프롬프트 기반의 대규모 언어 모델은 사고사슬 방식으로 적절한 프롬프팅을 통해 원하는 형식의 답변을 생성할 수 있으며 자연어 추론 단계에서도 높은 정확도를 보여주고 있다. 그러나 근본적으로 LLM의 매개변수에 질문에 관련된 지식이 없거나 최신 정보로 업데이트 되지 않은 경우 추론이 어렵다. 이를 해결하기 위해, 본 연구는 검색문서와 생성모델의 상호작용을 통해 답변하는 한국어 질의응답 모델을 제안한다. 검색이 어려운 경우 생성형 모델을 통해 질문과 관련된 문장을 생성하며, 이는 다시 검색모델과 추론 과정에서 활용된다. 추가로 "판단불가"라는 프롬프팅을 통해 모델이 답변할 수 없는 경우를 스스로 판단하게 한다. 본 연구결과에서 GPT3를 활용한 사고사슬 모델이 63.4의 F1 점수를 보여주며 생성형 모델과 검색모델의 융합이 적절한 프롬프팅을 통해 오픈-도메인 질의응답에서 성능의 향상을 보여준다.

  • PDF

Parameter-Efficient Prompting for Few-Shot Learning (Prompting 기반 매개변수 효율적인 Few-Shot 학습 연구)

  • Eunhwan Park;Sung-Min Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.343-347
    • /
    • 2022
  • 최근 자연어처리 분야에서는 BERT, RoBERTa, 그리고 BART와 같은 사전 학습된 언어 모델 (Pre-trained Language Models, PLM) 기반 미세 조정 학습을 통하여 여러 하위 과업에서 좋은 성능을 거두고 있다. 이는 사전 학습된 언어 모델 및 데이터 집합의 크기, 그리고 모델 구성의 중요성을 보여주며 대규모 사전 학습된 언어 모델이 각광받는 계기가 되었다. 하지만, 거대한 모델의 크기로 인하여 실제 산업에서 쉽게 쓰이기 힘들다는 단점이 명백히 존재함에 따라 최근 매개변수 효율적인 미세 조정 및 Few-Shot 학습 연구가 많은 주목을 받고 있다. 본 논문은 Prompt tuning, Prefix tuning와 프롬프트 기반 미세 조정 (Prompt-based fine-tuning)을 결합한 Few-Shot 학습 연구를 제안한다. 제안한 방법은 미세 조정 ←→ 사전 학습 간의 지식 격차를 줄일 뿐만 아니라 기존의 일반적인 미세 조정 기반 Few-Shot 학습 성능보다 크게 향상됨을 보인다.

  • PDF

Claim Detection and Stance Classification through Pattern Extraction Learning in Korean (패턴 추출 학습을 통한 한국어 주장 탐지 및 입장 분류)

  • Woojin Lee;Seokwon Jeong;Tae-il Kim;Sung-won Choi;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.234-238
    • /
    • 2023
  • 미세 조정은 대부분의 연구에서 사전학습 모델을 위한 표준 기법으로 활용되고 있으나, 최근 초거대 모델의 등장과 환경 오염 등의 문제로 인해 더 효율적인 사전학습 모델 활용 방법이 요구되고 있다. 패턴 추출 학습은 사전학습 모델을 효율적으로 활용하기 위해 제안된 방법으로, 본 논문에서는 한국어 주장 탐지 및 입장 분류를 위해 패턴 추출 학습을 활용하는 모델을 구현하였다. 우리는 기존 미세 조정 방식 모델과의 비교 실험을 통해 본 논문에서 구현한 한국어 주장 탐지 및 입장 분류 모델이 사전학습 단계에서 학습한 모델의 내부 지식을 효과적으로 활용할 수 있음을 보였다.

  • PDF

Hallucination Detection for Generative Large Language Models Exploiting Consistency and Fact Checking Technique (생성형 거대 언어 모델에서 일관성 확인 및 사실 검증을 활 용한 Hallucination 검출 기법)

  • Myeong Jin;Gun-Woo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.461-464
    • /
    • 2023
  • 최근 GPT-3 와 LLaMa 같은 생성형 거대 언어모델을 활용한 서비스가 공개되었고, 실제로 많은 사람들이 사용하고 있다. 해당 모델들은 사용자들의 다양한 질문에 대해 유창한 답변을 한다는 이유로 주목받고 있다. 하지만 LLMs 의 답변에는 종종 Inconsistent content 와 non-factual statement 가 존재하며, 이는 사용자들로 하여금 잘못된 정보의 전파 등의 문제를 야기할 수 있다. 이에 논문에서는 동일한 질문에 대한 LLM 의 답변 샘플과 외부 지식을 활용한 Hallucination Detection 방법을 제안한다. 제안한 방법은 동일한 질문에 대한 LLM 의 답변들을 이용해 일관성 점수(Consistency score)를 계산한다. 거기에 외부 지식을 이용한 사실검증을 통해 사실성 점수(Factuality score)를 계산한다. 계산된 일관성 점수와 사실성 점수를 활용하여 문장 수준의 Hallucination Detection 을 가능하게 했다. 실험에는 GPT-3 를 이용하여 WikiBio dataset 에 있는 인물에 대한 passage 를 생성한 데이터셋을 사용하였으며, 우리는 해당 방법을 통해 문장 수준에서의 Hallucination Detection 성능이 baseline 보다 AUC-PR scores 에서 향상됨을 보였다.

Token-Based Classification and Dataset Construction for Detecting Modified Profanity (변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋)

  • Sungmin Ko;Youhyun Shin
    • The Transactions of the Korea Information Processing Society
    • /
    • v.13 no.4
    • /
    • pp.181-188
    • /
    • 2024
  • Traditional profanity detection methods have limitations in identifying intentionally altered profanities. This paper introduces a new method based on Named Entity Recognition, a subfield of Natural Language Processing. We developed a profanity detection technique using sequence labeling, for which we constructed a dataset by labeling some profanities in Korean malicious comments and conducted experiments. Additionally, to enhance the model's performance, we augmented the dataset by labeling parts of a Korean hate speech dataset using one of the large language models, ChatGPT, and conducted training. During this process, we confirmed that filtering the dataset created by the large language model by humans alone could improve performance. This suggests that human oversight is still necessary in the dataset augmentation process.