文章来源于互联网:关于大模型「越狱」的多种方式,有这些防御手段

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文地址:https://arxiv.org/pdf/2407.01599 -
项目地址:https://github.com/Allen-piexl/JailbreakZoo -
网站地址:https://chonghan-chen.com/llm-jailbreak-zoo-survey/
1. 越狱分类:我们将关于LLMs的越狱现象细分为5种类型,将关于VLMs的越狱现象细分为3种类型,提供了每种类型的详细分类和理解。以下是我们分类的主要内容:
LLMs
-
梯度攻击(Gradient-based Attacks)
-
进化攻击(Evolutionary-based Attacks)
-
演示攻击(Demonstration-based Attacks)
-
规则攻击(Rule-based Attacks)
-
多代理攻击(Multi-agent-based Attacks)
VLMs
-
提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)
-
提示-图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)
-
代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)
此外,我们进一步整理了现有的利用越狱攻击对LLMs和VLMs进行评测的方法,以及一些相关的综述。
2. 防御机制:我们回顾并分类了各种防御策略,我们发现,LLMs和VLMs有着类似的防御机制,强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括:
-
提示检测(Prompt Detection-based Defenses)
-
提示扰动(Prompt Perturbation-based Defenses)
-
演示防御(Demonstration-based Defenses)
-
生成干预(Generation Intervention-based Defenses)
-
响应评估(Response Evaluation-based Defenses)
-
模型微调(Model Fine-tuning-based Defenses)
3. 未来研究方向:我们的综述突出了当前研究中的关键空白,并提出了未来的研究方向,以增强LLMs和VLMs的安全框架。
越狱类型及实例 – 视觉语言模型(VLMs)
文章来源于互联网:关于大模型「越狱」的多种方式,有这些防御手段