文章来源于互联网:机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率


-
论文标题:HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation -
论文主页:https://hamster-robot.github.io/ -
论文链接:https://arxiv.org/abs/2502.05485 -
Demo: http://hamster.a.pinggy.link

HAMSTER 这一研究成果获得了业界专家的高度评价。谷歌 DeepMind 高级研究科学家 Ted Xiao 在社交媒体上表示:「在构建机器人基础模型时,超越简单的自然语言具有巨大的潜力。轨迹是一种很好的实现方式,而HAMSTER已经将轨迹条件策略扩展到了VLA模型的规模!祝贺整个HAMSTER团队。」



-
低歧义性、易标注:可以从视频、仿真或其他数据源中自动提取手部或末端执行器在图像中的运动轨迹。
-
跨平台适用性:二维路径不涉及具体硬件细节,高层模型在不同机械臂或移动平台上都能保持一致的输出形式。
-
丰富表达能力:二维路径不仅适用于简单的pick and place任务,还能扩展到诸如擦桌子、开抽屉、折毛巾、避障等更复杂的操作场景。



-
泛化能力:由于二维路径与硬件无关,同一高层 VLM 可以直接迁移到新的环境和硬件设置上,仅需对低层控制做少量适配;在视觉背景、光照条件以及语言指令多样化的测试中,HAMSTER 依然能够输出合理的路径规划。由于低层控制只需跟随高层 VLM 输出的二维轨迹,所以能将技能泛化到新的任务,对于各类环境变化的鲁棒性也更强。
-
数据效率:高层在海量域外数据上完成微调,而低层只需少量真实机器人演示数据,即可学到足够的执行能力,显著降低了对昂贵本域数据的需求。
-
任务成功率提升:与端到端大模型或传统模仿学习方法相比,HAMSTER 在多个复杂操作任务上的成功率平均提升约 20%~30%。在一些高难度场景如涉及新物体时,传统端到端模型成功率不到 20%,HAMSTER 可达 80% 左右。
-
推理速度与灵活度:高层只需在任务开始时或关键节点调用一次大模型来生成路径,避免了在每一步动作都调用大模型所带来的计算开销。在不牺牲精度的前提下,显著提升了系统执行效率和灵活性。

