LLM 시스템의 정보 누출 위험 탐색

A Study on LLM system vulnerability

  • 박정환 (고려대학교 사이버국방학과) ;
  • 김건희 (고려대학교 사이버국방학과) ;
  • 이상근 (고려대학교 정보보호대학원)
  • Jung-Hwan Park (Dept. of CyberDefense, Korea University) ;
  • Kun-Hee Kim (Dept. of CyberDefense, Korea University) ;
  • Sangkyun Lee (School of Cybersecurity, Korea University)
  • 발행 : 2024.05.23

초록

Large Language Model은 그 기능으로 말미암아 여러 애플리케이션에 통합되고 있다. 특히 OpenAI는 ChatGPT에 여러 세부 사항을 설정함으로써 차별화된 기능을 사용자가 제공할 수 있도록 한다. 하지만 최근 제시되는 프롬프트 연출 공격은 서비스의 핵심 요소를 쉽게 탈취할 수 있는 가능성을 제시한다. 본 연구는 지침 우회 방법론을 통해 기본 대비 공격의 성공률을 10%p 올렸다. 또한 유출공격을 평가할 수 있는 유효성과 성공률을 통해 모델의 방어 성능을 일반화한다.

키워드

참고문헌

  1. Xiangyu Qi, Visual Adversarial Examples Jailbreak Large Language Models, AAAI, 몬트리얼, 2024, 20p
  2. Xiaogeng Liu, AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models, ICLR, 빈, 2024, 21p
  3. Fabio Perez, Ignore Previous Prompt: Attack Techniques For Language Models, NeurIPS workshop, 뉴올리언스, 2022, 21p
  4. Jason Wei, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS, 뉴올리언스, 2022, 43p
  5. Chunting Zhou, LIMA: Less Is More for Alignment, NeurIPS, 뉴올리언스, 2022, 16p
  6. Gabriel Alon, Detecting Language Model Attacks with Perplexity, arxiv2308.14132, 2023, 22p
  7. Glukhov, LLM Censorship: The Problem and its Limitations, arxiv2307.10719, 2023, 16p
  8. Peng Ding, A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily, NAACL, 멕시코시티, 2024, 18p
  9. Youliang Yuan, GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher, ICLR, 빈, 2024, 21p