「让通用机器人成为现实」，谷歌RT-2、PaLM-E作者离职创业，已获英伟达投资

首页 » 「让通用机器人成为现实」，谷歌RT-2、PaLM-E作者离职创业，已获英伟达投资

文章来源于互联网:「让通用机器人成为现实」，谷歌RT-2、PaLM-E作者离职创业，已获英伟达投资

又一位 DeepMind 高级研究科学家离开了谷歌，创建了自己的初创公司。

在近日召开的英伟达 GTC 的一个小组讨论会上，谷歌 DeepMind 高级研究科学家、RT-2 作者 Pete Florence 以 Generalist AI 联合创始人兼首席执行官的身份出席。

人工智能浪潮的来临让英伟达这家公司获得了巨大的财务成功，与此同时，NVentures 也成为一家格外活跃的风险投资公司。但目前我们无从得知 Pete Florence 的公司获得了多少来自英伟达的投资。

「我们基本上仍处于隐秘状态，」Pete Florence 在 GTC 讨论会上表示，暂时无法具体说明自己的初创公司在做什么。但答案也很明显了，公司将专注于机器人技术。

因为他在回答「如果他的初创公司获得巨大成功，世界会变成什么样子」问题时，是这么说的：

「我们的目标是制造能做任何事情的机器人。想象一下，在这个世界上，体力劳动的边际成本将趋于 0。」

「让通用机器人成为现实」

Florence 表示，自己创办这家公司的使命是「让通用机器人成为现实」。

根据其领英个人资料，Florence 一年前离开了 DeepMind。他加入了 DeepMind 前同事的行列 —— 选择一条喜欢的赛道，创办自己的公司。

在加入谷歌之前，他在麻省理工学院获得了计算机科学博士学位，师从 Russ Tedrake。Tedrake 教授在机器人学领域有着显著的成就和广泛的影响力，研究领域包括机器人动力学分析、控制器设计和仿真等。

4 年多的谷歌 DeepMind 生涯中，Pete Florence 参与了很多项具备里程碑意义的机器人和大模型研究，其中最具代表性的有 PaLM-E、RT-2。

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在这一领域，谷歌始终处于比较前沿的位置。（参考内容：《大模型正在重构机器人，谷歌 Deepmind 这样定义具身智能的未来》）

PaLM-E 是一种多模态具身视觉语言模型（VLM），2023 年 3 月发布。该模型集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer（ViT），使用文本和来自机器人传感器的多模态数据（比如图像、机器人状态、场景环境信息等）作为输入，输出以文本形式表示的机器人运动指令，进行端到端的训练。PaLM-E 实现了对具身任务的决策方案预测，不涉及机器人动作的实际控制，需要依赖低级别的现成策略或规划器来将决策方案「翻译」为机器人动作。

RT-2 是全球第一个控制机器人的视觉 – 语言 – 动作（VLA）模型。这个模型让机器人不仅能解读人类的复杂指令，还能看懂眼前的物体（即使这个物体之前从未见过），并按照指令采取动作。比如，你让机器人拿起桌上「已灭绝的动物」。它会抓起眼前的恐龙玩偶。RT-2 被认为是机器人制造和编程方式的重大飞跃。