Prompt Injection Attacks against LLMs

Sangkyun Lee;

한국정보처리학회:학술대회논문집 (Annual Conference of KIPS)

한국정보처리학회 2024년도 추계학술발표대회
/
Pages.174-176
/
2024
/
2005-0011(pISSN)
/
2671-7298(eISSN)

한국정보처리학회 (Korea Information Processing Society)

LLM 에 대한 프롬프트 인젝션 공격

Prompt Injection Attacks against LLMs

이상근 (고려대학교 정보보호대학원 )

Sangkyun Lee (School of Cybersecurity, Korea University)

발행 : 2024.10.31

PDF

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

프롬프트 인젝션 공격은 입력 프롬프트의 조작을 통해 대형언어모델(LLM)로 하여금 AI 모델의 의도된 동작을 벗어나 공격자로 하여금 허가되지 않은 동작을 수행하게끔 하거나 민감한 정보를 탈취하도록 하는 방식의 공격유형으로, LLM 의 무결성과 신뢰성에 심각한 위협이 될 수 있다. 본 논문에서는 LLM 에 대한 프롬프트 인젝션 공격을 직접 프롬프트 인젝션 공격과 간접 프롬프트 인젝션 공격으로 분류하고, 특히 현재 다양하게 연구되고 있는 직접 프롬프트 인젝션 공격의 다양한 유형을 간단한 예시를 통해 개괄적으로 소개하고자 한다. 또, 이러한 프롬프트 인젝션 공격의 잠재적인 영향과 이에 대한 대응 전략을 제안한다.

키워드

과제정보

이 논문은 2024 년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 결과임 (RS-2024-00341722, 지능형 서비스 로봇의 사이버 레질리언스 확보를 위한 보안기술 개발)

참고문헌

Aleksandra Piktus, "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks", NeurIPS 2020
Tom Brown, "Language Models are Few-Shot Learners", NeurIPS 2020
Long Ouyang 등, "Training language models to follow instructions with human feedback", NeurIPS 2022
Jason Wei 등, "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models", NeurIPS 2022
OpenAI, "GPT-4 Technical Report", OpenAI 2023
IBM, "What is a prompt injection attack?", https://www.ibm.com/topics/prompt-injection (accessed on 2024.9)

한국정보처리학회:학술대회논문집 (Annual Conference of KIPS)

LLM 에 대한 프롬프트 인젝션 공격

Prompt Injection Attacks against LLMs

초록

키워드

과제정보

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)