清华开源全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶HF具身热榜

首页 » 清华开源全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶HF具身热榜

文章来源于互联网:清华开源全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶HF具身热榜

今天，世界见证了 RDT 大模型的诞生，它就像 “小脑” 一样负责控制机器人的运动。

无需人类背后操作，RDT 即可指挥机器人双臂并用，完美调出如晚霞般梦幻的鸡尾酒 Malibu Sunset。

和人类调酒师一样，首先，RDT 将冰块稳稳倒入高脚杯中，不撒不漏，一套动作行云流水。

倒完冰块后，RDT 先后倒入椰子酒、橙汁、菠萝汁，操作娴熟，顺序不乱，确保口味一致。

注入石榴汁，晚霞般绚烂的酒红色在高脚杯中徐徐晕染开来。

最后，RDT 发挥空间感，夹起一片柠檬，轻轻卡在有弧度的杯口上，漂亮！

同行看后纷纷表示：有了十亿参数的 RDT ，智能机器人时代不远矣！去酒吧点 RDT 调酒师，赛博朋克感瞬间拉满。

在领略了 RDT 的强大后，是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer，是全球最大的针对双臂机器人操作任务的扩散基础模型，由清华大学人工智能研究院 TSAIL 团队构建。

当前，机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务，面对没教过的情况则 “束手无策”。

而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”，使其能摆脱人类的操控，自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”，从 “单臂” 变为 “双臂”，是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是，清华团队已将 RDT 的代码、模型，甚至训练它的双臂数据集彻底开源。他们坚信，开源 RDT 能极大加速机器人研发和产业化进程。

项目主页：https://rdt-robotics.github.io/rdt-robotics
论文链接：https://arxiv.org/pdf/2410.07864
论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得注意的是，目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。

在 RDT 模型的加持下，双臂机器人成功挑战 7 项高难度任务，平均成功率上比当前最好的模型还要惊人地高出 56%。

让我们一起来看看，有了 RDT，双臂机器人还能解锁哪些高阶特征吧。

效果展示

1. 灵巧操作：“机器人遛狗” 竟成现实

起猛了，发现机器人能遛机器狗了？

在 RDT 的指挥下，机器人能灵巧地握住长度不到 2cm 的迷你摇杆，控制机器狗走出完美直线。

而如果把 RDT 换成其他模型，就会导致机器狗会走弯路、甚至见墙就撞。

没办法，控制精度不足！

2. 指令遵循：善解人意的倒水大师

RDT 能充分理解并遵循人类的语言指令。

倒水大师 RDT，让倒 1/3 的水就倒 1/3 的水，让倒 2/3 就倒 2/3，简直分毫不差！

值得一提的是，RDT 从未见过 1/3 这个词，也就是说，没有人给 RDT 演示过 1/3 的水应该怎么倒。

RDT 完全是凭借自己的泛化性，准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。

与之相对，其他模型会指挥机器人倒得过多或过少，甚至尴尬洒水。

3. 未见物体与场景：自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体？RDT 也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水…

变换任务对象和环境都难不倒它。

4. 少样本学习：一点就通的高材生

更厉害的是，RDT 有很强的领悟力，是机器人模型中的“学霸”。

教会 RDT 叠衣服仅需演示 1 遍，而其他模型要重复教几十遍才能勉强学会。

初识 RDT：Scaling Law 魅力时刻

相比其他机器人模型，为什么 RDT 能做到如此智能？相比同行最优水准领先多少？

三个 “最大” 是 RDT 实现智能飞跃的秘密：

在机器人扩散模型中，RDT 拥有目前「最大的模型参数量」，高达 1.2B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型（八爪鱼，Octo，93M）还要大一个数量级。
RDT 在「最大的具身数据集」上预训练。预训练数据集包含 46 个不同的机器人数据集，总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1M 步。
RDT 拥有目前「最大的双臂微调数据集」。清华团队构建了包括 300+ 任务和 6K+ 条演示的数据集。与之对比，先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 的微调数据集仅有几百条演示。

解密 RDT：从问题与挑战讲起

在大多数情况，人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂，显然更灵活，也更能帮助人类。

但是，目前的双臂机器人距离落地还有一段路要走，根本原因是双臂的人类演示数据匮乏，“巧妇难为无米之炊”，而且模型泛化能力不足，不能“举一反三”。

为了解决这个问题，一种通常的做法是，利用多种不同机器人的数据，训练一个可泛化的「大模型」。

但这又会带来两个新的挑战：

一是，在机器人领域，缺乏一个像 GPT 一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式（modality），还需要具备可扩展性（scalability）。换言之，扩大模型的参数量，它的性能也要跟着一起涨。

二是，在之前的研究中，尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同，进而导致数据的格式五花八门，难以进行统一的处理。

在本文中，研究者通过提出创新型的多模态模型架构，以及统一的物理可解释动作空间，来解决这些挑战。

设计 RDT：双臂机器人操作的新架构

「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能，比如擦桌子和倒水等。

然而，人类的动作模式千变万化，就连抓起一个方块都有好几种做法（见下图）。

为了能学会多样的动作模式，研究者采用扩散模型（diffusion model）来进行建模。

图 3 描绘了 RDT 的整体架构，接下来我们逐一进行介绍。

首先是多模态输入的编码。

对于一个具体的机器人任务，模型在收到人类发出的语言指令后，需要结合自己的视觉观察，来预测完成任务所需的机械臂动作（action）。

这里就涉及到了语言、图片和动作三种模态。

动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机（MLP）来进行编码。
图片具有高维度的特点，同时含有丰富的空间和语义信息。研究者采用经过对齐的 SigLIP 进行编码。
语言具有变长的特点，并且高度抽象。研究者采用一个具有丰富知识的语言大模型 —— T5-XXL 来进行编码。

此外，不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型 “偷懒”，只看信息量大的模态，在训练中，研究者会以一定概率随机遮蔽（mask）各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性，研究者选择 Transformer 作为骨干网络，并做出如下关键修改：

由于传感器失灵等原因，机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的 QKNorm 和 RMSNorm 来进行缓解。
机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力，研究者将最终层的线性解码器替换为非线性的 MLP 解码器。
图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时，往往图像会淹没文本，从而削弱模型的指令遵循能力。为此，研究者采取了交替注入的方式。

训练 RDT：预训练与微调相结合

为了在多种机器人数据上进行预训练，研究者需要对数据格式进行统一。

具体来说，研究者构建了一个统一的动作空间（如图 3 左侧所示）。

该空间的每个维度具有明确的物理含义，以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后，研究者就能将所有不同类型的机器人数据汇聚在一起，形成了目前最大的数据集，其包含超过 100 万条演示。

正因为在如此大的数据集上进行预训练，RDT 获得了无与伦比的泛化性。

最后，研究者还采集了目前质量最高的双臂微调数据集，用来微调 RDT 以增强其双臂操作能力。

该数据集具有如下特点：

数量大：6K+ 演示数据。
范围全：300+ 任务，从简单的抓取到精细操作，甚至包括黑板上解数学题一类的高难度操作。
多样性：100+ 不同类型的物体，15+ 不同的房间以及光照条件。

测试 RDT：泛化性与操作精度并举

该团队设计了 7 个挑战性任务，从不同维度评估 RDT 的泛化能力和操作精度。

对于清洗杯子的任务，需要双手协调和物体泛化性。

具体来说，机器人需要拿起未见过的杯子，用另一只手打开水龙头，清洗杯子，倒干净杯中的水，并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。

对于遥控机器狗，需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器，并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高，因为迷你摇杆的长度不到 2cm，且稍有偏移机器狗就会 “走弯路”。

对于倒水任务，模型需要能泛化到未见过的环境与语言指令，并理解用户要求，倒水至特定水位。

而对于传递物体和叠裤子的任务，仅给少量演示（1 – 5 条），RDT 就需要学会一个全新的技能。

实验评估（结果见表 3）中，研究者主要回答以下问题：

Q: RDT 能否对未见的物体和场景实现零样本（Zero-Shot）泛化？并遵循未见过的自然语言指令？

A：可以。在洗杯子（Wash Cup）和倒水（Pour Water）任务中，RDT 对未见场景和物体仍能达到较高成功率，其表现与见过的情况相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中，RDT 精确地理解了应该用哪只手操作、倒多少水，并能够严格遵循指令，即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。

Q：RDT 能否仅通过少量演示就学会新的技能？

A：可以。在物品传递（Handover）和折叠短裤（Fold Shorts）任务中，对于两个与已知动作模式完全不同的全新技能，RDT 仅分别通过 1 和 5 条演示的训练就轻松掌握，而其他方法几乎无法成功。

Q：RDT 是否能够完成需要精细操作的任务？

A：可以。在遥控机器狗（Robot Dog）任务中，RDT 在推动操纵杆时准确控制了角度，而其他模型会导致机器狗发生偏离。

Q：扩散建模、大模型以及大数据是否有助于提升 RDT 的性能？

A：是的。如表 2 所示，研究人员对三者分别进行了消融实验，结果表明缺少任何一者都会带来极大的性能损失。

特别地，仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差，这表明预训练中学会的知识对于泛化性至关重要。

关于作者

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭，主要研究方向是具身智能和 AI for Science，此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文，曾获清华大学本科生特等奖学金。

另一位是清华大学计算机系的二年级博士生吴凌轩，目前主要研究方向是人工智能安全和具身智能，此前在 ICLR 发表过论文。

论文团队

该项目的团队是清华大学计算机系 TSAIL 课题组，团队在扩散模型的基础理论和关键技术方面有长期的积累，提出了首个扩散模型与 Transformer 融合的架构 U-ViT，联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu，部分成果获国际表示学习大会（ICLR 2022）杰出论文奖，被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的，TSAIL 团队在国际上率先提出 “扩散策略 “概念，并长期进行 “扩散策略” 构建算法研究，在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4]，包括扩散策略模型动作重采样方法 SfBC，奖励函数引导采样算法 CEP，高效扩散策略梯度蒸馏算法 SRPO，扩散策略对齐算法 EDA 等。

直播分享

为了更好的帮助大家了解这项研究，10月21日晚19:00-20:00，论文作者、清华大学计算机系的二年级博士生刘松铭带来线上直播，为大家进一步解读这项工作。

直播间：关注机器之心机动组视频号，立即预约直播！

本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。

^参考文献

^{[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023.}

^{[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023.}

^{[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024.}

^{[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.}

^{[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.}

^{[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.}

^{[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.}

^{[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.}

^{[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023.}

^{[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., … & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.}

^{[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw}

文章来源于互联网:清华开源全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶HF具身热榜