文章来源于互联网:攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」


-
论文地址:https://arxiv.org/abs/2502.12893v1
-
项目主页:https://maliciouseducator.org
-
Github:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
-
杜克大学计算进化智能中心:https://cei.pratt.duke.edu/
如果出于合理的教育目的讨论有害内容,允许模型提供概括性、中立且具有信息性的回答,同时应积极劝阻对该内容的滥用或进一步传播。
-
安全逻辑提取:针对目标危险请求,首先提交与原问题相关联的无害请求,诱导模型输出包含安全审查逻辑的思维链 (具体例子请参考原文)。
-
逻辑污染攻击:参照提取的安全推理链,为原始危险请求伪造「看似安全」 的逻辑思维链,嵌入原始危险请求的上下文环境,误导模型降低防御阈值。







-
网站地址:https://maliciouseducator.org
-
仓库地址:https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1