文章来源于互联网:网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文一作王勋广是香港科技大学的在读博士生,本科和硕士分别毕业于中国地质大学和哈尔滨工业大学,主要研究方向是大模型安全。通讯作者吴道远,香港科技大学研究助理教授,研究方向包括大模型安全、区块链和智能合约安全、移动系统和软件安全。通讯作者王帅,香港科技大学长聘副教授。研究方向包括 AI 安全、软件安全、数据隐私、逆向工程等。
最近一段时间,DeepSeek 可谓是风头无两。
在大家纷纷赞扬其超强性能的同时,也有媒体曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越狱。
比如,此前宾夕法尼亚大学的研究者使用来自HarmBench数据集的50个有害提示对DeepSeek R1进行测试,这些提示涵盖网络犯罪、虚假信息和非法活动等领域。结果显示,DeepSeek未能拦截任何一个有害请求,攻击成功率达到惊人的100%。
这时如果有一个 AI 系统能像人类一样具备自我保护意识,在面对 ‘ 欺骗 ‘ 时能够当机立断地识破阴谋 —— 这不再是科幻片中的场景。
近日,来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架,让大语言模型首次拥有了真正意义上的 ‘ 自卫能力 ‘,能够有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。

-
论文标题:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner -
论文主页:https://selfdefend.github.io/ -
论文链接:https://arxiv.org/abs/2406.05498 -
GitHub 链接:https://github.com/selfdefend/Code







