文章来源于互联网:真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」

-
不能有效制定计划,经常中途卡壳; -
不能记忆内容,无法处理超过 5-10 分钟的任务; -
无法长期有效执行任务,容易因连续的小错误最终彻底失败。

-
智能体能记住环境,但基础 LLM 不能,它们只能处理当前窗口内的信息; -
智能体受现实条件限制,但基础 LLM 生成的是概率最高的文本,随时可能「跑题」; -
智能体能规划长期策略,基础 LLM 却只能做好单步推理,面对多步推理任务很快就会「超载」。
-
利用固定的数据集创建一个大型的网络搜索模拟环境,并持续将数据「转换」后反馈给模型。通过这种方式,让模型仿佛置身于真实的网络搜索场景中进行学习。 -
使用某种形式的轻量级 SFT(如 DeepSeek 的 SFT-RL-SFT-RL 步骤)预冷模型,可能基于可以找到的任何现有搜索模式。其总体思路是预先规范模型的推理和输出方式,从而加快实际强化学习训练的速度,这类似于进行某种预定义的规则设计。 -
准备或多或少复杂的查询,并将相关结果作为验证器。我唯一的猜测是,它涉及一些复杂的合成管道,从现有资源进行反向翻译,或者可能只是来自博士级注释者的非常昂贵的注释。 -
多步骤 RL 中的实际训练。模型提交查询、发起搜索、发送结果、浏览页面或重新表述结果,所有这些都是多步骤完成的。从模型的角度来看,它就像是在浏览网页,但所有这些数据交换都是由搜索模拟器在后台准备的。 -
也许一旦模型在搜索方面足够好,就会重新进行另一轮 RL 和 SFT,这次更专注于编写最终的综合体。同样,这可能涉及一个复杂的合成流程,其中输出会转变为输入,例如将原始的长篇报告拆分成小块,然后通过推理将它们重新组合起来。
-
分析、分解查询,并对用户意图做出一些假设。 -
如果查询不清楚,可能会立即提示用户返回(OpenAI DeepResearch 已经这样做了)。 -
随后,模型既可以开展通用搜索,也可以在合适的情况下,直接转向更专业的研究资源。该模型已经记住了标准的应用程序编程接口(API)方案,能够直接调用它们。为节省推理时间,模型可优先借助现有的网络「模拟」版本,例如各类 API、网站地图以及庞大的数据网络生态系统。 -
搜索序列经过学习和训练。该模型可以放弃错误的方向。或者它可以像专业知识工作者那样走另一条路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的结果证明了这种能力:通过一系列内部推理,可以正确定位索引不良的来源。 -
搜索序列经过学习和训练。模型能够及时放弃错误的搜索方向,或者像专业知识工作者那样另辟蹊径。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的结果,就证明了这种能力:通过一系列的内部推理,模型能够准确找到索引不佳的资源。 -
每一步操作和整个过程都会作为内部推理轨迹被记录下来,从而在一定程度上为搜索结果提供可解释性。
文章来源于互联网:真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」