OpenClaw 的爆火,让一个原本更多停留在技术圈内部的变化,突然变得具象起来。
当一个 Agent 可以跨应用执行任务、调用工具、在几乎没有人工干预的情况下完成复杂流程时,人们第一次直观地看到:AI 正在从“生成内容的工具”,转变为“参与行动的主体”。也正是在这一刻,安全问题迅速被推到前台。
但一个更值得注意的现象是,在几乎所有关于 Agent 安全的讨论中,问题的定义仍然高度集中在模型层面:输入是否被注入、输出是否越界、对齐是否失效。这种讨论路径本身并没有错,但它隐含着一个前提,即安全问题主要发生在“模型”这一单点之上。
问题在于,这个前提可能正在失效。当 Agent 不再只是响应指令,而是持续接收来自不同来源的信息、在多组件结构中做出决策、并通过工具链将决策转化为现实动作时,“安全”所指向的对象,已经不再是单一模型,而是一个由模型、记忆、工具、环境以及交互链路共同构成的系统。
在这样的系统中,风险不一定以“错误输出”的形式出现,也不一定以“瞬时失控”的方式爆发。它可能表现为决策过程中的偏移、信息在链路中的传递与放大,甚至是跨组件、跨主体之间的相互影响。
这也意味着,Agent 安全的问题,正在从“是否安全”,转向“如何被影响”。
在论文《From Secure Agentic AI to Secure Agentic Web》中,上海交通大学、上海创智学院张伟楠团队正是从这一转变出发,尝试将 Agent 安全从模型层面的鲁棒性问题,重新置于系统结构与运行机制之中进行讨论。
围绕这一问题,AI 科技评论与论文一作邓智航进行了对话。下文在不改变原意的前提下,对访谈内容进行了整理与呈现,试图还原其对于 Agent 安全问题“从模型走向系统”的整体理解。
论文链接:https://arxiv.org/pdf/2603.01564
文章目录
ToggleAgent 安全,被理解错了吗?
AI 科技评论: 最近 OpenClaw 的爆火,让很多人开始关注 Agent 安全,但你会发现大家讨论的重点几乎都集中在 prompt injection、越狱这些问题上,你是怎么看待这种观点的?
邓智航:我认为这其实是目前一个非常普遍的误解。现在大多数人在谈 Agent 安全的时候,还是停留在 prompt injection、越狱这些比较“表层”的问题上,本质上仍然是在关注模型输出这一层。
但实际上,Agent 已经不再是一个只生成文本的系统了。过去的 chatbot,本质上就是输入一段文本、输出一段文本,而现在的 Agent 会调用工具,会写入长期记忆,还会持续和外部环境进行交互。
在这种情况下,安全问题的重心必须发生转变,也就是要从“模型会不会说话”,转向“整个系统在开放环境中是否可控、可审计、可约束”。我认为这是目前最重要的一个视角变化。
AI 科技评论: 也就是说,它的风险已经不只是“说错话”,而是会真正影响现实世界?
邓智航:可以这么理解。因为 Agent 现在具备调用工具和操作外部系统的能力,它的行为已经不再局限在生成内容这一层,而是可以直接转化为现实中的动作。比如它可以删除你的文件,可以泄露你的隐私,甚至可以在获取到一些敏感信息之后,调用邮件系统自动发送给攻击者。所以现在的问题不只是“生成是否安全”,而是它在执行层面是否安全,这个变化是非常本质的。雷峰网
AI 科技评论: 如果必须选一个关键因素,你觉得这种变化是由什么驱动的?很多人会说是工具调用。
邓智航:工具调用确实是一个重要因素,但如果只能选一个更核心的点,我认为是 Agent 在开放环境中的自主行动能力。工具调用本质上只是能力的一个接口,它让 Agent 可以做更多事情,但真正让安全问题发生质变的,是 Agent 开始在一个动态、复杂,甚至带有对抗性的环境中进行感知、判断和执行。
比如网页中的内容、文档中的信息、第三方服务返回的数据,这些都会进入 Agent 的决策流程,从而共同构成一个更大的风险面。所以关键不只是“能不能调用工具”,而是“在什么环境中行动,以及如何行动”。
AI 科技评论: 在你们的论文中把威胁分成 prompt、environment、memory、toolchain 等不同类别,这种分类背后的共性是什么?
邓智航:如果从攻击者的角度来看,其实这些攻击有一个非常统一的本质,那就是争夺对 Agent 的决策控制权。无论是 prompt 攻击、环境注入、记忆投毒,还是工具链上的问题,它们表面上发生在不同模块,但本质上都是在影响 Agent 的理解能力和认知过程。
所以安全问题的核心,并不是某个漏洞被触发,而是 Agent 在看似正常的情况下,被悄悄带偏了。这种“控制权的转移”,是我认为最关键的共性。雷峰网(公众号:雷峰网)
AI 科技评论: 你刚刚提到环境,那是不是可以理解为,外部世界本身就是 Agent 的输入?
邓智航:是的,这个理解是对的。对于人来说,网页主要是用来阅读和判断信息的,但对于 Agent 来说,它通常不会像人一样去做复杂判断,而是会把网页、文件以及工具返回的内容直接作为输入,用来影响它的任务规划和行为决策。
所以从系统安全的角度来看,我们需要把整个外部环境都视为潜在的攻击面,也就是说默认它可能是带有恶意意图的,而不是默认它是可信的。
AI 科技评论: 如果有人认为,通过 system prompt 和拒答机制,已经可以解决大部分问题,你会怎么回应?
邓智航:我觉得这是远远不够的。首先,system prompt 本身就可能被篡改或者被攻击,其次,很多攻击并不是通过用户正面输入进入系统的,而是来自网页内容、工具返回,甚至是跨 Agent 的通信。
所以 system prompt 和拒答机制更多只是第一层护栏,它们很重要,但无法覆盖整个 Agent 系统的攻击面。真正可靠的安全方案,需要把工具权限控制、运行时监控、协议级校验以及持续的红队测试结合起来,从而形成一个更完整的安全体系,本质上这是一个生态级的问题。
AI 科技评论: 在你们的论文中把 toolchain 风险类比为供应链问题,这个你会怎么解释?
邓智航:这个类比是比较直观的。风险不一定来自模型本身,也可能来自它依赖的第三方工具、API 或插件。比如一个被污染的工具提供方,一个返回结果不可靠的接口,或者多个看起来安全的工具在组合调用时产生联动,这些都可能导致严重的后果。所以在 Agent 系统中,工具链其实就相当于一个供应链,而安全问题也就变成了供应链安全问题。
AI 科技评论: 那像 MCP 这种统一工具调用方式,一方面提升能力,一方面是否也在放大风险?
邓智航:是的,这种双重性是非常明显的。一方面,MCP 提供了统一的上下文和工具交互方式,使得不同系统之间可以更方便地协作,这确实大幅提升了 Agent 的能力。但另一方面,它作为一个统一入口,也会把权限问题、信任问题以及潜在的污染风险集中放大。
所以关键不在于要不要使用 MCP,而在于在使用这些能力的同时,是否同步设计了相应的安全机制。本质上,能力越强,对应的风险面就越大。
AI 科技评论: 现在围绕 Agent 安全的讨论很多,你觉得哪些风险被高估了,哪些被低估了?
邓智航:被高估的,主要是那些容易被发现的风险,比如单轮越狱或者即时攻破,这类问题因为比较直观,所以更容易被关注。但被低估的,是一些更接近真实部署场景的问题,比如长期记忆污染、Agent 之间的传播效应,以及行为偏移。这些问题通常不会立刻爆发,也不容易被察觉,但会在长期过程中持续影响 Agent 的行为。
一个更“聪明”的攻击,不会让 Agent 当场失控,而是会慢慢改变它的偏好、信任对象和决策倾向,让它在很多看似正常的决策中逐渐偏移。我认为这种风险是更值得警惕的。
问题,不再发生在一个 Agent 上
AI 科技评论: 如果 Agent 之间形成网络,会带来什么新的变化?
邓智航:一个很重要的变化是,我们原来在互联网中有一个默认前提,就是请求的另一端大概率是人,很多信任关系是建立在这个隐含假设之上的。但在 Agentic Web 中,这个前提被打破了,因为请求很可能来自另一个 Agent,甚至是多层 Agent 的委托和自动决策。
这就意味着,原来依赖常识建立的信任关系已经不成立了,必须转变为显式表达,并且需要具备可验证、可审计和可追踪的能力。
AI 科技评论: 这是不是也意味着,一旦出问题,会很难追溯责任?
邓智航:是的,这是一个非常现实的问题。如果是人说错话,我们可以直接找到这个人,但如果是 Agent 出现问题,我们很难判断它是自己判断错误,还是被其他 Agent 误导,或者是某个中间环节被污染。
在这种情况下,就需要一整套审计和追溯机制,否则就会变成需要一层一层往上追,这个过程是非常困难的,有点类似于追查资金来源的链条。
AI 科技评论: 那会不会出现一种攻击,不是立刻出问题,而是长期潜伏?
邓智航:我认为这种情况是非常可能的,而且概率很高。一个更成熟的攻击方式,不会马上制造一个可以被发现的事故,而是会悄悄改变 Agent 的偏好、信任对象以及行为倾向,让它在很多看似正常的微小决策中持续偏移。相比那种瞬间失控,这种长期的行为漂移其实更危险,因为它更隐蔽,也更难被检测。
AI 科技评论: 那能力和安全之间的矛盾应该怎么处理?
邓智航:这是一个不可避免的张力。Agent 的能力越强,它可以访问的上下文越多、可以调用的工具越多,自主性也越高,但相应的风险也会增加。如果把权限收紧,它的能力又会受到限制。
所以问题不在于能不能消除这种张力,而在于能不能把它设计成一个可控的系统,比如通过分级授权、实时监测以及事后追溯等机制,把这种张力转化为一个可以被管理的状态。
AI 科技评论: 你觉得未来两三年,Agent 安全的分水岭会出现在哪里?
邓智航:我认为关键在于,整个行业能不能把身份、授权、溯源以及运行时治理这些能力真正做成基础设施。如果这些基础设施建立起来,Agent 才有可能从“能用但危险”,走向“可扩展且可治理”。
如果只是依赖 prompt 工程或者局部的补丁式防御,一旦 Agent 大规模进入开放网络,这种方式是无法支撑的。
AI 科技评论: 那这种“安全基础设施”,你觉得可能会以什么形式出现?
邓智航:具体形式还需要行业去探索,但可以做一个类比。两年前没有 MCP 的时候,大家的工具调用方式是完全不统一的,不同系统之间也很难互通。但 MCP 出现之后,通过统一协议,工具调用这一层被标准化,Agent 的能力也因此提升。
未来的安全机制,也有可能以类似“协议”的形式出现,通过统一的安全协议,让整个 Agent 生态在运行过程中更安全。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。

