A Study on LLM system vulnerability

Jung-Hwan Park;Kun-Hee Kim;Sangkyun Lee;

doi:10.3745/PKIPS.y2024m05a.786

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

2024.05a
/
Pages.786-787
/
2024
/
2005-0011(pISSN)
/
2671-7298(eISSN)

Korea Information Processing Society (한국정보처리학회)

DOI QR Code

A Study on LLM system vulnerability

LLM 시스템의 정보 누출 위험 탐색

Jung-Hwan Park (Dept. of CyberDefense, Korea University) ;
Kun-Hee Kim (Dept. of CyberDefense, Korea University) ;
Sangkyun Lee (School of Cybersecurity, Korea University)

박정환 (고려대학교 사이버국방학과) ;
김건희 (고려대학교 사이버국방학과) ;
이상근 (고려대학교 정보보호대학원)

Published : 2024.05.23

https://doi.org/10.3745/PKIPS.y2024m05a.786 Citation PDF

Download PDF

⟨ Previous Next ⟩

Abstract

Large Language Model은 그 기능으로 말미암아 여러 애플리케이션에 통합되고 있다. 특히 OpenAI는 ChatGPT에 여러 세부 사항을 설정함으로써 차별화된 기능을 사용자가 제공할 수 있도록 한다. 하지만 최근 제시되는 프롬프트 연출 공격은 서비스의 핵심 요소를 쉽게 탈취할 수 있는 가능성을 제시한다. 본 연구는 지침 우회 방법론을 통해 기본 대비 공격의 성공률을 10%p 올렸다. 또한 유출공격을 평가할 수 있는 유효성과 성공률을 통해 모델의 방어 성능을 일반화한다.

Keywords

References

Xiangyu Qi, Visual Adversarial Examples Jailbreak Large Language Models, AAAI, 몬트리얼, 2024, 20p
Xiaogeng Liu, AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models, ICLR, 빈, 2024, 21p
Fabio Perez, Ignore Previous Prompt: Attack Techniques For Language Models, NeurIPS workshop, 뉴올리언스, 2022, 21p
Jason Wei, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, NeurIPS, 뉴올리언스, 2022, 43p
Chunting Zhou, LIMA: Less Is More for Alignment, NeurIPS, 뉴올리언스, 2022, 16p
Gabriel Alon, Detecting Language Model Attacks with Perplexity, arxiv2308.14132, 2023, 22p
Glukhov, LLM Censorship: The Problem and its Limitations, arxiv2307.10719, 2023, 16p
Peng Ding, A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily, NAACL, 멕시코시티, 2024, 18p
Youliang Yuan, GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher, ICLR, 빈, 2024, 21p

Annual Conference of KIPS (한국정보처리학회:학술대회논문집)

A Study on LLM system vulnerability

LLM 시스템의 정보 누출 위험 탐색

Abstract

Keywords

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)