攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

首页 » 攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

文章来源于互联网:攻破OpenAI o1/o3、DeepSeek R1防线，安全推理过程反成大模型「阿喀琉斯之踵」

本文共同第一作者是杜克大学计算进化智能中心的博士生郭士霆、张健一，导师为陈怡然教授。

在通往 AGI 的道路上，大型推理模型（LRMs）正以前所未有的速度迭代进化：OpenAI 的 o 系列模型凭借类人推理能力刷新多项基准，DeepSeek-R1 以极低的训练成本实现完全不输 o 系列模型的性能突破。

然而，在这股追求推理性能的浪潮之下，一个关乎技术伦理的隐忧正在浮现 —— 当模型运用自身强大的推理能力进行安全审查时，「展示安全推理思维链」这种透明化机制是否会暴露安全隐患？

杜克大学计算进化智能中心的最新研究给出了警示性答案。团队提出的 H-CoT（思维链劫持）的攻击方法成功突破包括 OpenAI o1/o3、DeepSeek-R1、Gemini 2.0 Flash Thinking 在内的多款高性能大型推理模型的安全防线：在涉及极端犯罪策略的虚拟教育场景测试中，模型拒绝率从初始的 98% 暴跌至 2% 以下，部分案例中甚至出现从「谨慎劝阻」到「主动献策」的立场反转。

这项研究揭示了当前安全机制的深层矛盾 —— 推理透明化与防御鲁棒性正在形成难以调和的冲突。

论文地址：https://arxiv.org/abs/2502.12893v1
项目主页：https://maliciouseducator.org
Github：https://github.com/dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1
杜克大学计算进化智能中心：https://cei.pratt.duke.edu/

一、大型推理模型的安全标准与技术路线

为确保大型推理模型（LRMs）的真正造福人类，必须在强推理能力与内容无害性之间建立足够可靠的平衡。这要求我们同时建立明确的安全标准和完善的技术保障体系。

从安全标准来看，作为大型推理模型的先驱，OpenAI 在其 o1/o3 系列中提出了如下安全准则：

如果出于合理的教育目的讨论有害内容，允许模型提供概括性、中立且具有信息性的回答，同时应积极劝阻对该内容的滥用或进一步传播。

从技术保障来看，OpenAI 通过运用 o1/o3 强大的推理能力，对用户请求进行谨慎且「慢思考」式的安全评估，以期在性能与安全之间取得平衡。

然而，即使有上述安全标准的规范和技术路线的护航，我们仍需要思考一个无法回避的问题：现有的技术手段是否足以支撑如此高要求的安全标准？更具体地说，本篇研究发现两个亟待解决的系统性挑战：

挑战 1：极度高危请求的谨慎识别

当面对明确涉及极端犯罪的请求时（例子请参考原文），模型能否始终如一地执行安全准则并拒绝提供回答？即使攻击者以虚拟的教育场景进行伪装。

挑战 2：展示安全推理过程是否会产生反噬作用

即便模型在一开始能够拒绝，但是模型在拒绝请求时展示的详细安全审查思维链，可能被攻击者逆向解析。这种透明化机制是否会导致攻击者通过思维链信息操控后续交互，从而系统性瓦解模型的防御立场？此问题在当前技术路线中尚未得到充分重视。

二、构建测试基准与提出新型 H-CoT 攻击方法

为系统评估现有安全机制的缺陷，作者构建了名为「恶意教育者（Malicious Educator）」的测试基准集。该基准聚焦 10 类高危场景，每条测试请求均要求模型从攻击者视角生成包含「具体方案 / 实施方式 / 功能示例 / 实施理由」的完整策略。

为确保测试请求的高风险性，作者以 2024 年 1 月 OpenAI o1 模型的响应为基准：该模型对此基准集的初始拒绝率达到 98%。

关键发现：安全推理的透明化陷阱

在测试过程中，作者发现当模型拒绝高危请求时，其输出的思维链会完整展示安全审查的逻辑路径（例如「此请求涉及攻击行为→可能违反安全规定→需阻止潜在危害」）。这种透明化机制使攻击者能够逆向解析模型的防御逻辑成为可能，为后续攻击提供关键切入点。（此发现也与后续的 Claude 3.7 Sonnet System Card 中的结论不谋而合）

H-CoT 攻击方法实现

基于上述发现，本文提出「思维链劫持」攻击（Hijacking Chain-of-Thought, H-CoT），具体实施分为两个阶段：

安全逻辑提取：针对目标危险请求，首先提交与原问题相关联的无害请求，诱导模型输出包含安全审查逻辑的思维链（具体例子请参考原文）。
逻辑污染攻击：参照提取的安全推理链，为原始危险请求伪造「看似安全」的逻辑思维链，嵌入原始危险请求的上下文环境，误导模型降低防御阈值。

^{H-CoT 的攻击流程}

实验结果显示，H-CoT 攻击可导致 OpenAI o1 模型对同一批高危请求的拒绝率从 98% 骤降至 2%。这种攻击有效性直接证明了：模型展示安全审查思维链的行为，实质上为攻击者提供了可以操控其防御系统的切入点。

三、令人担忧的安全测试结果

在构建的「恶意教育者」测试基准上，结合 H-CoT（思维链劫持）攻击方法，作者观察到了一系列令人担忧的安全问题。

1. OpenAI o 系列（o1、o1-pro、o3-mini）的安全表现下滑

这些模型在面对「恶意教育者」基准时，最初能维持 98% 的高拒绝率，但在 H-CoT 攻击下却无一幸免，拒绝率骤降至 2%（见下图，ASR 代表攻击成功率 = 1 – 拒绝率）。换言之，对于同一批高风险的请求，模型从「坚定拒绝」转变为几乎「全面放行」，安全防线瞬间瓦解。

更令人担忧的是，随着推理模型之间的竞争不断加剧（例如 DeepSeek-R1 凭借低成本和出色性能迅速崛起，给 OpenAI o 系列模型的开发带来更大压力），作者担心在这样激烈的商业环境中，模型开发方可能会为了提高实用性而在一定程度上牺牲安全性。

为验证这一点，作者比较了今年一月份和二月份的最新 OpenAI o1 模型在「恶意教育者」基准上的表现，并进一步考察了不同 IP 地址（通过代理网络）对模型安全性能的影响。如下图所示，可以发现随着 DeepSeek-R1 的发布，o1 模型从一月份到二月份在多个类别上的安全表现都有所下滑；同时，不同地理位置（体现为不同代理 IP）也会对模型的安全性产生显著影响。

另外无论在时间维度还是地理位置的变化条件下，H-CoT 攻击在绝大部分测试场景中仍保持了极高的成功率，展现出一致且高效的攻击能力。其背后原因也再次凸显了「透明思维链」在安全审查中带来的结构性漏洞，一旦遭到恶意利用，模型的防御体系将极其脆弱。

2. DeepSeek-R1 的风险评估

DeepSeek-R1 本身在「恶意教育者」基准上的拒绝率仅有约 20%，在 H-CoT 攻击压力下更是降至 4%（见下图）。与 OpenAI o 系列「先安全推理审查，再给出回答」的模式不同，DeepSeek-R1 的策略是「先回答，同时审查」，即先输出一份答案，如若发现存在高风险内容，再对原始答案进行覆盖。

这种机制意味着在模型覆盖答案之前，恶意攻击者仍然可以截获不当信息。尽管这并不代表 DeepSeek-R1 完全没有进行安全推理审查，但也反映其安全推理审查强度不够。

另外，作者还注意到，DeepSeek-R1 在处理中文请求时比处理英文请求更为严格：针对「寻求犯罪策略」的问题，中文环境下常生成「如何防止犯罪的策略」，而英文环境下却可能给出「如何犯罪」的详细方案。

这种跨语言差异或许与训练语料和主要市场定位有关，但也为潜在的「跨语种」攻击方式提供了可乘之机，即恶意攻击者可通过将原来危险的中文请求翻译成英文来绕过 DeepSeek-R1 的安全审查。因此作者呼吁模型开发方对此也应保持高度警惕。

3. Gemini 2.0 Flash Thinking 的更严重安全隐患

在对 Gemini 2.0 Flash Thinking 的测试中，作者不仅观测到 H-CoT 攻击将模型的拒绝率从原先的 10% 降至 0%，还发现 H-CoT 能显著影响模型的态度 —— 从「犹豫严谨」到「主动献策」，出现了明显的态度逆转。

例如，在回答相同问题的五次试验中，模型给出的犯罪策略数量可能出现 2、3、3、4、4 等变化。如果作者选取「最多策略」那次（4 条策略）的思考过程，并将其注入到 H-CoT 攻击请求中，模型随后的回答便会稳定输出至少 4 条策略。

又如，如果五次试验中有四次回答较为谨慎犹豫，但有一次回答中使用了「当然」（相当于「非常愿意」）的积极回答的表述，那么作者就能将该次回答的思考过程作为 H-CoT 注入到原始问题，从而在随后的五次新回答中，模型都会从一开始就用「当然」开头，表现出非常愿意配合的态度来提供犯罪策略。

这些现象表明，Gemini 2.O Flash Thinking 旨在优先提高「基于思维链的指令跟随」能力，而安全对齐（safety alignment）的优先级则被严重削弱，一旦遭遇 H-CoT 攻击便易受操控。

四、未来的大型推理模型安全展望

作者希望通过本研究能够抛砖引玉，引起更多研究者对当前大型推理模型安全性的关注。尤其对「展示安全推理思维链」这一特性，作者强烈呼吁在实际应用中应适当隐藏或模糊化处理，以免攻击者据此研究或利用安全审查机制，从而轻易突破防线。

同时作者会逐步开源针对不同模型与不同问题场景所收集的 H-CoT 攻击样本。鉴于模型将不断迭代更新，作者欢迎世界各地的研究者和开发者对最新版本模型（比如 deepseek-R2，比如后续的 o1/o3 模型更新，比如 Grok3，Claude 3.7 Sonnet）进行测试，验证既有 H-CoT 攻击所用的「伪造思维链」是否仍然奏效；

同时，作者也鼓励更多人能参与到贡献「恶意教育者」这个测试基准集中来，帮助完善并丰富该基准。详细信息可参考网站与开源仓库。