• Title/Summary/Keyword: Large Language Models (LLM)

Search Result 32, Processing Time 0.034 seconds

KULLM: Learning to Construct Korean Instruction-following Large Language Models (구름(KULLM): 한국어 지시어에 특화된 거대 언어 모델)

  • Seungjun Lee;Taemin Lee;Jeongwoo Lee;Yoonna Jang;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.196-202
    • /
    • 2023
  • Large Language Models (LLM)의 출현은 자연어 처리 분야의 연구 패러다임을 전환시켰다. LLM의 핵심적인 성능향상은 지시어 튜닝(instruction-tuning) 기법의 결과로 알려져 있다. 그러나, 현재 대부분의 연구가 영어 중심으로 진행되고 있어, 다양한 언어에 대한 접근이 필요하다. 본 연구는 한국어 지시어(instruction-following) 모델의 개발 및 최적화 방법을 제시한다. 본 연구에서는 한국어 지시어 데이터셋을 활용하여 LLM 모델을 튜닝하며, 다양한 데이터셋 조합의 효과에 대한 성능 분석을 수행한다. 최종 결과로 개발된 한국어 지시어 모델을 오픈소스로 제공하여 한국어 LLM 연구의 발전에 기여하고자 한다.

  • PDF

Utilizing Large Language Models for Non-trained Binary Sentiment Classification (거대 언어 모델(LLM)을 이용한 비훈련 이진 감정 분류)

  • Hyungjin Ahn;Taewook Hwang;Sangkeun Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.66-71
    • /
    • 2023
  • ChatGPT가 등장한 이후 다양한 거대 언어 모델(Large Language Model, LLM)이 등장하였고, 이러한 LLM을 목적에 맞게 파인튜닝하여 사용할 수 있게 되었다. 하지만 LLM을 새로 학습하는 것은 물론이고, 단순 튜닝만 하더라도 일반인은 시도하기 어려울 정도의 많은 컴퓨팅 자원이 필요하다. 본 연구에서는 공개된 LLM을 별도의 학습 없이 사용하여 zero-shot 프롬프팅으로 이진 분류 태스크에 대한 성능을 확인하고자 했다. 학습이나 추가적인 튜닝 없이도 기존 선학습 언어 모델들에 준하는 이진 분류 성능을 확인할 수 있었고, 성능이 좋은 LLM의 경우 분류 실패율이 낮고 일관적인 성능을 보여 상당히 높은 활용성을 확인하였다.

  • PDF

Iterative Feedback-based Personality Persona Generation for Diversifying Linguistic Patterns in Large Language Models (대규모 언어 모델의 언어 패턴 다양화를 위한 반복적 피드백 기반 성격 페르소나 생성법)

  • Taeho Hwang;Hoyun Song;Jisu Shin;Sukmin Cho;Jong C. Park
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.454-460
    • /
    • 2023
  • 대규모 언어 모델(Large Language Models, LLM)의 발전과 더불어 대량의 학습 데이터로부터 기인한 LLM의 편향성에 관심이 집중하고 있다. 최근 선행 연구들에서는 LLM이 이러한 경향성을 탈피하고 다양한 언어 패턴을 생성하게 하기 위하여 LLM에 여러가지 페르소나를 부여하는 방법을 제안하고 있다. 일부에서는 사람의 성격을 설명하는 성격 5 요인 이론(Big 5)을 이용하여 LLM에 다양한 성격 특성을 가진 페르소나를 부여하는 방법을 제안하였고, 페르소나 간의 성격의 차이가 다양한 양상의 언어 사용 패턴을 이끌어낼 수 있음을 보였다. 그러나 제한된 횟수의 입력만으로 목표하는 성격의 페르소나를 생성하려 한 기존 연구들은 세밀히 서로 다른 성격을 가진 페르소나를 생성하는 데에 한계가 있었다. 본 연구에서는 페르소나 부여 과정에서 피드백을 반복하여 제공함으로써 세세한 성격의 차이를 가진 페르소나를 생성하는 방법론을 제안한다. 본 연구의 실험과 분석을 통해, 제안하는 방법론으로 형성된 성격 페르소나가 다양한 언어 패턴을 효과적으로 만들어 낼 수 있음을 확인했다.

  • PDF

Coding Helper for Python Beginners based on the Large Language Model(LLM) (대규모 언어 모델(LLM) 기반의 파이썬 입문자를 위한 코딩 도우미)

  • Se-Hoon Lee;Jeong-Bin Choi;Yong-Tae Baek;Sun-Ho Yoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.389-390
    • /
    • 2023
  • 본 논문에서는 파이썬 코딩 플랫폼에서의 LLM(Large Language Models)을 로직 및 문법 에러 확인, 디버깅 도구로 활용할 수 있는 시스템을 제안한다. 이 시스템은 사용자가 코딩 플랫폼에서 작성한 파이썬 코드와 함께 발생한 에러 문구 및 프롬프트를 LLM 모델에 입력함으로써 로직(문법) 에러를 식별하고 디버깅에 활용할 수 있다. 특히, 입문자를 고려해 프롬프트를 제한하여 사용의 편의성을 높인다. 이를 통해 파이썬 코딩 교육에서 입문자들의 학습 과정을 원활하게 진행할 수 있으며, 파이썬 코딩에 대한 진입 장벽을 낮출 수 있다.

  • PDF

Knowledge Transfer in Multilingual LLMs Based on Code-Switching Corpora (코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구)

  • Seonghyun Kim;Kanghee Lee;Minsu Jeong;Jungwoo Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.301-305
    • /
    • 2023
  • 최근 등장한 Large Language Models (LLM)은 자연어 처리 분야에서 눈에 띄는 성과를 보여주었지만, 주로 영어 중심의 연구로 진행되어 그 한계를 가지고 있다. 본 연구는 사전 학습된 LLM의 언어별 지식 전이 가능성을 한국어를 중심으로 탐구하였다. 이를 위해 한국어와 영어로 구성된 코드 스위칭 코퍼스를 구축하였으며, 기본 모델인 LLAMA-2와 코드 스위칭 코퍼스를 추가 학습한 모델 간의 성능 비교를 수행하였다. 결과적으로, 제안하는 방법론으로 학습한 모델은 두 언어 간의 희미론적 정보가 효과적으로 전이됐으며, 두 언어 간의 지식 정보 연계가 가능했다. 이 연구는 다양한 언어와 문화를 반영하는 다국어 LLM 연구와, 소수 언어를 포함한 AI 기술의 확산 및 민주화에 기여할 수 있을 것으로 기대된다.

  • PDF

College Admissions Counseling ChatBot based on a Large Language Models (대규모 언어 모델 기반 대학 입시상담 챗봇)

  • Se-Hoon Lee;Ung-Hoe Lee;Ji-Woong Kim;Yeon-Su Noh
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.371-372
    • /
    • 2023
  • 본 논문에서는 대규모 언어 모델(Large Language Models)을 기반으로 한 입학 상담용 챗봇을 설계하였다. 입시 전문 LLM은 Polyglot-ko 5.8B을 베이스 모델로 대학의 입시 관련 데이터를 수집, 가공한 후 데이터 증강을 하여 파인튜닝 하였다. 또한, 모델 성능 향상을 위해 RLHF의 후 공정을 진행하였다. 제안 챗봇은 생성한 입시 LLM을 기반으로 웹브라우저를 통해 접근하여 입시 상담 자동 응답 서비스를 활용할 수 있다.

  • PDF

A Proposal of Evaluation of Large Language Models Built Based on Research Data (연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언)

  • Na-eun Han;Sujeong Seo;Jung-ho Um
    • Journal of the Korean Society for information Management
    • /
    • v.40 no.3
    • /
    • pp.77-98
    • /
    • 2023
  • Large Language Models (LLMs) are becoming the major trend in the natural language processing field. These models were built based on research data, but information such as types, limitations, and risks of using research data are unknown. This research would present how to analyze and evaluate the LLMs that were built with research data: LLaMA or LLaMA base models such as Alpaca of Stanford, Vicuna of the large model systems organization, and ChatGPT from OpenAI from the perspective of research data. This quality evaluation focuses on the validity, functionality, and reliability of Data Quality Management (DQM). Furthermore, we adopted the Holistic Evaluation of Language Models (HELM) to understand its evaluation criteria and then discussed its limitations. This study presents quality evaluation criteria for LLMs using research data and future development directions.

A Study on the Evaluation of LLM's Gameplay Capabilities in Interactive Text-Based Games (대화형 텍스트 기반 게임에서 LLM의 게임플레이 기능 평가에 관한 연구)

  • Dongcheul Lee
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.24 no.3
    • /
    • pp.87-94
    • /
    • 2024
  • We investigated the feasibility of utilizing Large Language Models (LLMs) to perform text-based games without training on game data in advance. We adopted ChatGPT-3.5 and its state-of-the-art, ChatGPT-4, as the systems that implemented LLM. In addition, we added the persistent memory feature proposed in this paper to ChatGPT-4 to create three game player agents. We used Zork, one of the most famous text-based games, to see if the agents could navigate through complex locations, gather information, and solve puzzles. The results showed that the agent with persistent memory had the widest range of exploration and the best score among the three agents. However, all three agents were limited in solving puzzles, indicating that LLM is vulnerable to problems that require multi-level reasoning. Nevertheless, the proposed agent was still able to visit 37.3% of the total locations and collect all the items in the locations it visited, demonstrating the potential of LLM.

Analysis of Discriminatory Patterns in Performing Arts Recognized by Large Language Models (LLMs): Focused on ChatGPT (거대언어모델(LLM)이 인식하는 공연예술의 차별 양상 분석: ChatGPT를 중심으로)

  • Jiae Choi
    • Journal of Intelligence and Information Systems
    • /
    • v.29 no.3
    • /
    • pp.401-418
    • /
    • 2023
  • Recently, the socio-economic interest in Large Language Models (LLMs) has been growing due to the emergence of ChatGPT. As a type of generative AI, LLMs have reached the level of script creation. In this regard, it is important to address the issue of discrimination (sexism, racism, religious discrimination, ageism, etc.) in the performing arts in general or in specific performing arts works or organizations in a large language model that will be widely used by the general public and professionals. However, there has not yet been a full-scale investigation and discussion on the issue of discrimination in the performing arts in large-scale language models. Therefore, the purpose of this study is to textually analyze the perceptions of discrimination issues in the performing arts from LMMs and to derive implications for the performing arts field and the development of LMMs. First, BBQ (Bias Benchmark for QA) questions and measures for nine discrimination issues were used to measure the sensitivity to discrimination of the giant language models, and the answers derived from the representative giant language models were verified by performing arts experts to see if there were any parts of the giant language models' misperceptions, and then the giant language models' perceptions of the ethics of discriminatory views in the performing arts field were analyzed through the content analysis method. As a result of the analysis, implications for the performing arts field and points to be noted in the development of large-scale linguistic models were derived and discussed.

Technical Trends in Artificial Intelligence for Robotics Based on Large Language Models (거대언어모델 기반 로봇 인공지능 기술 동향 )

  • J. Lee;S. Park;N.W. Kim;E. Kim;S.K. Ko
    • Electronics and Telecommunications Trends
    • /
    • v.39 no.1
    • /
    • pp.95-105
    • /
    • 2024
  • In natural language processing, large language models such as GPT-4 have recently been in the spotlight. The performance of natural language processing has advanced dramatically driven by an increase in the number of model parameters related to the number of acceptable input tokens and model size. Research on multimodal models that can simultaneously process natural language and image data is being actively conducted. Moreover, natural-language and image-based reasoning capabilities of large language models is being explored in robot artificial intelligence technology. We discuss research and related patent trends in robot task planning and code generation for robot control using large language models.