对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

首页 » 对话邓智航｜以「龙虾」为起点，起底从单个 Agent 到 Agentic Web 的安全重构

OpenClaw 的爆火，让一个原本更多停留在技术圈内部的变化，突然变得具象起来。

当一个 Agent 可以跨应用执行任务、调用工具、在几乎没有人工干预的情况下完成复杂流程时，人们第一次直观地看到：AI 正在从“生成内容的工具”，转变为“参与行动的主体”。也正是在这一刻，安全问题迅速被推到前台。

但一个更值得注意的现象是，在几乎所有关于 Agent 安全的讨论中，问题的定义仍然高度集中在模型层面：输入是否被注入、输出是否越界、对齐是否失效。这种讨论路径本身并没有错，但它隐含着一个前提，即安全问题主要发生在“模型”这一单点之上。

问题在于，这个前提可能正在失效。当 Agent 不再只是响应指令，而是持续接收来自不同来源的信息、在多组件结构中做出决策、并通过工具链将决策转化为现实动作时，“安全”所指向的对象，已经不再是单一模型，而是一个由模型、记忆、工具、环境以及交互链路共同构成的系统。

在这样的系统中，风险不一定以“错误输出”的形式出现，也不一定以“瞬时失控”的方式爆发。它可能表现为决策过程中的偏移、信息在链路中的传递与放大，甚至是跨组件、跨主体之间的相互影响。

这也意味着，Agent 安全的问题，正在从“是否安全”，转向“如何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中，上海交通大学、上海创智学院张伟楠团队正是从这一转变出发，尝试将 Agent 安全从模型层面的鲁棒性问题，重新置于系统结构与运行机制之中进行讨论。

围绕这一问题，AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下，对访谈内容进行了整理与呈现，试图还原其对于 Agent 安全问题“从模型走向系统”的整体理解。

论文链接：https://arxiv.org/pdf/2603.01564

文章目录

Agent 安全，被理解错了吗？

AI 科技评论：最近 OpenClaw 的爆火，让很多人开始关注 Agent 安全，但你会发现大家讨论的重点几乎都集中在 prompt injection、越狱这些问题上，你是怎么看待这种观点的？

邓智航：我认为这其实是目前一个非常普遍的误解。现在大多数人在谈 Agent 安全的时候，还是停留在 prompt injection、越狱这些比较“表层”的问题上，本质上仍然是在关注模型输出这一层。

但实际上，Agent 已经不再是一个只生成文本的系统了。过去的 chatbot，本质上就是输入一段文本、输出一段文本，而现在的 Agent 会调用工具，会写入长期记忆，还会持续和外部环境进行交互。

在这种情况下，安全问题的重心必须发生转变，也就是要从“模型会不会说话”，转向“整个系统在开放环境中是否可控、可审计、可约束”。我认为这是目前最重要的一个视角变化。

AI 科技评论：也就是说，它的风险已经不只是“说错话”，而是会真正影响现实世界？

邓智航：可以这么理解。因为 Agent 现在具备调用工具和操作外部系统的能力，它的行为已经不再局限在生成内容这一层，而是可以直接转化为现实中的动作。比如它可以删除你的文件，可以泄露你的隐私，甚至可以在获取到一些敏感信息之后，调用邮件系统自动发送给攻击者。所以现在的问题不只是“生成是否安全”，而是它在执行层面是否安全，这个变化是非常本质的。雷峰网

AI 科技评论：如果必须选一个关键因素，你觉得这种变化是由什么驱动的？很多人会说是工具调用。

邓智航：工具调用确实是一个重要因素，但如果只能选一个更核心的点，我认为是 Agent 在开放环境中的自主行动能力。工具调用本质上只是能力的一个接口，它让 Agent 可以做更多事情，但真正让安全问题发生质变的，是 Agent 开始在一个动态、复杂，甚至带有对抗性的环境中进行感知、判断和执行。

比如网页中的内容、文档中的信息、第三方服务返回的数据，这些都会进入 Agent 的决策流程，从而共同构成一个更大的风险面。所以关键不只是“能不能调用工具”，而是“在什么环境中行动，以及如何行动”。

AI 科技评论：在你们的论文中把威胁分成 prompt、environment、memory、toolchain 等不同类别，这种分类背后的共性是什么？

邓智航：如果从攻击者的角度来看，其实这些攻击有一个非常统一的本质，那就是争夺对 Agent 的决策控制权。无论是 prompt 攻击、环境注入、记忆投毒，还是工具链上的问题，它们表面上发生在不同模块，但本质上都是在影响 Agent 的理解能力和认知过程。

所以安全问题的核心，并不是某个漏洞被触发，而是 Agent 在看似正常的情况下，被悄悄带偏了。这种“控制权的转移”，是我认为最关键的共性。雷峰网(公众号：雷峰网)

AI 科技评论：你刚刚提到环境，那是不是可以理解为，外部世界本身就是 Agent 的输入？

邓智航：是的，这个理解是对的。对于人来说，网页主要是用来阅读和判断信息的，但对于 Agent 来说，它通常不会像人一样去做复杂判断，而是会把网页、文件以及工具返回的内容直接作为输入，用来影响它的任务规划和行为决策。

所以从系统安全的角度来看，我们需要把整个外部环境都视为潜在的攻击面，也就是说默认它可能是带有恶意意图的，而不是默认它是可信的。

AI 科技评论：如果有人认为，通过 system prompt 和拒答机制，已经可以解决大部分问题，你会怎么回应？

邓智航：我觉得这是远远不够的。首先，system prompt 本身就可能被篡改或者被攻击，其次，很多攻击并不是通过用户正面输入进入系统的，而是来自网页内容、工具返回，甚至是跨 Agent 的通信。

所以 system prompt 和拒答机制更多只是第一层护栏，它们很重要，但无法覆盖整个 Agent 系统的攻击面。真正可靠的安全方案，需要把工具权限控制、运行时监控、协议级校验以及持续的红队测试结合起来，从而形成一个更完整的安全体系，本质上这是一个生态级的问题。

AI 科技评论：在你们的论文中把 toolchain 风险类比为供应链问题，这个你会怎么解释？

邓智航：这个类比是比较直观的。风险不一定来自模型本身，也可能来自它依赖的第三方工具、API 或插件。比如一个被污染的工具提供方，一个返回结果不可靠的接口，或者多个看起来安全的工具在组合调用时产生联动，这些都可能导致严重的后果。所以在 Agent 系统中，工具链其实就相当于一个供应链，而安全问题也就变成了供应链安全问题。

AI 科技评论：那像 MCP 这种统一工具调用方式，一方面提升能力，一方面是否也在放大风险？

邓智航：是的，这种双重性是非常明显的。一方面，MCP 提供了统一的上下文和工具交互方式，使得不同系统之间可以更方便地协作，这确实大幅提升了 Agent 的能力。但另一方面，它作为一个统一入口，也会把权限问题、信任问题以及潜在的污染风险集中放大。

所以关键不在于要不要使用 MCP，而在于在使用这些能力的同时，是否同步设计了相应的安全机制。本质上，能力越强，对应的风险面就越大。

AI 科技评论：现在围绕 Agent 安全的讨论很多，你觉得哪些风险被高估了，哪些被低估了？

邓智航：被高估的，主要是那些容易被发现的风险，比如单轮越狱或者即时攻破，这类问题因为比较直观，所以更容易被关注。但被低估的，是一些更接近真实部署场景的问题，比如长期记忆污染、Agent 之间的传播效应，以及行为偏移。这些问题通常不会立刻爆发，也不容易被察觉，但会在长期过程中持续影响 Agent 的行为。

一个更“聪明”的攻击，不会让 Agent 当场失控，而是会慢慢改变它的偏好、信任对象和决策倾向，让它在很多看似正常的决策中逐渐偏移。我认为这种风险是更值得警惕的。