文章来源于互联网:AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
AI 智能体的宣传很好,现实不太妙。
随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。
-
单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。 -
多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。
-
可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。 -
性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。 -
法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。 -
用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。
-
adept.ai – 融资 3.5 亿美元,但访问权限仍然非常有限。 -
MultiOn – 融资情况未知,他们的 API 优先方法看起来很有前景。 -
HypeWrite – 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。 -
minion.ai – 最初引起了一些关注,但现在已经沉寂,仅有等候名单。

-
近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。 -
人机协同的方法,让人类参与监督和处理边缘案例。 -
根据当前的能力和局限,设定不脱离现实的期望。
文章来源于互联网:AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%



