LLM 에 대한 프롬프트 인젝션 공격

Prompt Injection Attacks against LLMs

  • 이상근 (고려대학교 정보보호대학원 )
  • Sangkyun Lee (School of Cybersecurity, Korea University)
  • 발행 : 2024.10.31

초록

프롬프트 인젝션 공격은 입력 프롬프트의 조작을 통해 대형언어모델(LLM)로 하여금 AI 모델의 의도된 동작을 벗어나 공격자로 하여금 허가되지 않은 동작을 수행하게끔 하거나 민감한 정보를 탈취하도록 하는 방식의 공격유형으로, LLM 의 무결성과 신뢰성에 심각한 위협이 될 수 있다. 본 논문에서는 LLM 에 대한 프롬프트 인젝션 공격을 직접 프롬프트 인젝션 공격과 간접 프롬프트 인젝션 공격으로 분류하고, 특히 현재 다양하게 연구되고 있는 직접 프롬프트 인젝션 공격의 다양한 유형을 간단한 예시를 통해 개괄적으로 소개하고자 한다. 또, 이러한 프롬프트 인젝션 공격의 잠재적인 영향과 이에 대한 대응 전략을 제안한다.

키워드

과제정보

이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 결과임 (RS-2024-00341722, 지능형 서비스 로봇의 사이버 레질리언스 확보를 위한 보안기술 개발)

참고문헌

  1. Aleksandra Piktus, "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks", NeurIPS 2020
  2. Tom Brown, "Language Models are Few-Shot Learners", NeurIPS 2020
  3. Long Ouyang 등, "Training language models to follow instructions with human feedback", NeurIPS 2022
  4. Jason Wei 등, "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022
  5. OpenAI, "GPT-4 Technical Report", OpenAI 2023
  6. IBM, "What is a prompt injection attack?", https://www.ibm.com/topics/prompt-injection (accessed on 2024.9)