第一视角效率超过真机，深度机智发布全球首个以人类学习范式构建的具身基座模型

首页 » 第一视角效率超过真机，深度机智发布全球首个以人类学习范式构建的具身基座模型

2026年，具身智能的泡沫与烈火同时燃烧。

宇树科技递交招股书，估值冲击百亿；Figure AI、Physical Intelligence等美国公司融资额屡创新高，将行业热度推向顶点。国内创业公司紧急跟进——堆数据、抢场景、拼本体，十万小时真机数据成为新的军备竞赛标的。

但喧嚣之下，一个尴尬的共识正在形成：没有人知道正确的技术路线究竟是什么。遥操作、仿真合成、互联网视频、人类第一视角……数据类型的选择尚未收敛；行星减速、谐波力控、电驱液压……本体结构的争论也还没落地。行业在”大力出奇迹”的信仰下狂奔，却鲜有人追问：这些海量数据，究竟在教机器人什么？

最近，AI科技评论观察到，越来越多具身智能公司开始探索一条新的数据路径：”人类第一视角数据”。

2026年以来，小米、蚂蚁、章鱼动力等公司在纷纷组建新团队跟进这一路线。其中，以微软亚洲研究院前首席研究员陈凯的观点，引发了行业的热烈讨论。

3月27号，作为深度机智的创始人，陈凯在中关村论坛上代表深度机智，发布了首个具身智能基座模型PhysBrain 1.0，并公布了他们的研究成果。

这个模型仅使用1000小时人类第一视角数据、零真机数据，在多个国际权威榜单上超越了用数万小时真机数据的竞争对手，在多个国际 Benchmark 上取得 SOTA，比 Physical Intelligence 和英伟达等头部巨头表现更好。

某种程度上，一场具身智能领域关于”物理常识”的革命，正在悄然开启。

模型缺乏物理常识，是具身领域的巨大痛点

“目前不管是VLM（视觉语言模型）还是世界模型，始终会卡在一个点上：它们缺乏物理常识。”深度机智创始人陈凯在中关村论坛上直接指出了这一行业痛点。

这个判断直指当前具身智能的核心困境。和很多学者遇到的情况一样，陈凯提到 VLM 模型不理解空间、时序，”桌子上面放了几个杯子，它数不清有几个”；视频生成模型”视觉上足以乱真，但运动的真实性和物理真实性比较差”。这些看似基础的能力缺失，让机器人在面对真实世界的复杂性时屡屡碰壁。

问题的根源在于数据与学习的错位。当前行业主流的做法——遥操作采集真机数据、仿真合成虚拟数据、或是模仿人类手部轨迹，本质上都是在教机器人”模仿动作”，而非”理解世界”。

“现在非常多的做法——背动作、背轨迹——其实是手把手地教猴子干活。”陈凯用了一个形象的比喻，”而我们正在尝试的是：请菩提祖师把猴子变成孙悟空，让它先理解世界，再去学习技能。”

这种”理解优先”的方法论，正在获得越来越多证据的支持。深度机智近期发布的PhysBrain 1.0模型正式针对这样的思路，做出的阶段性成果。

这一结果挑战了一个行业默认假设：更多的数据，是否必然带来更好的智能？

人类第一视角：被重新发现的数据富矿

“人类第一视角数据，因为它是人看过去的第一视角的世界，收集的是真实物理世界的数据，天然就蕴含着各种各样的物理常识。”陈凯解释道自己为什么要押注这一路线。

无独有偶，这种数据类型的价值，在2024-2025年间逐渐被重新发现。2025年5月，特斯拉宣布放弃遥操作，转向人类第一视角；6月，Figure AI发布”扔积木”的拟人行为Demo；10月，Generalist AI验证Scaling Law；12月，Physical Intelligence确认人类数据价值；2026年2-3月，英伟达发表论文交叉验证。

行业共识迅速形成：人类第一视角数据不是遥操作的替代品，而是通往”物理常识”的关键路径。

但分歧依然存在。英伟达的论文仍专注手部轨迹预训练，而深度机智选择”直接上来就要增强VLM本身——让它依据人看到的这个世界去理解世界”。陈凯认为，这种差异让深度机智”在整个流程上应该比英伟达略有领先”。

更深层的差异在于数据的”多样性”。遥操作数据记录机器人视角，任务和场景由人工设计；UMI（通用操作接口）数据需要人手持夹爪，”很难想象工厂主要求员工不能用手干活”。

而人类第一视角数据捕捉的是真实生活，”哪怕你是静静地发呆，你看到外面车水马龙，这些数据对我们都有价值”。

这种多样性带来的不仅是数据量的节省，更是学习质量的跃迁。

从”轨迹拟合”到”物理常识”：方法论的范式转移

“智能涌现”现象为这场革命提供了最直观的证据。

深度机智的测试中，训练数据全是”夹起胡萝卜放盘子里”，但机械臂碰到胡萝卜没夹到时，竟”自发选择推”——推一次没推进去，换角度加大力度再推，最后才转变策略夹起来。另一个案例中，机械爪夹方块太靠后掉落，它主动回来捡，第一次没捡起，第二次”做了一个非常轻微的旋转”成功夹起。

“这种灵活性，甚至你都没有办法预编程把它搞出来。”陈凯描述这一现象时强调，”千小时人类数据增强物理常识，自发地把人类灵活变通的能力迁移到了机器人身上。”

这种”涌现”能力揭示了一个深层规律：当模型具备足够的物理常识，它不再依赖精确的轨迹模仿，而是能够像人类一样”理解情境、灵活应对”。这正是”物理常识”革命的核心，从”教动作”到”教理解”的范式转移。

Physical Intelligence创始人将这种能力称为”智能的暗物质”（Physical common sense is the dark matter of intelligence）。DeepMind的哈萨比斯则认为，原生多模态模型对物理世界的更好理解，可成为机器人的大脑。（雷峰网(公众号：雷峰网)）

“所有的这些点都归结到一个：要先去理解这个世界，然后再到这个世界里面去行动。”陈凯总结道。

跨本体能力：物理常识的迁移效应

“物理常识”革命的另一个重要成果，是”跨本体能力”的涌现。

传统方法需要”把不同形态的机器人的数据做联合训练”才能实现技能迁移。但深度机智观察到：”有了一个理解物理常识的大脑，自然而然知道适配什么样的身体。”

这一发现颠覆了”一个机器人一套数据”的行业惯例。用LoRA预训练action expert，再用Franka机械臂微调，数据需求大幅下降——”不同形态机器人背后的物理规律一模一样”。

“跨本体是物理智能增强自然而然会出现的结果，并不是刻意地把多种机器人数据放在一起训练出来的结果。”陈凯解释道。

这意味着，物理常识具有跨平台、跨形态的通用性。一旦模型掌握了”物体受力会移动””抓取需要摩擦力”等基础规律，它就能将这些知识迁移到新的硬件平台上，而无需从头学习。

这种通用性，正是通往”具身通用智能”的关键阶梯。

“人类学习路线”正在国内悄然崛起

在全球具身智能竞赛中，中国与美国呈现出不同的侧重。

过去，中国和美国在具身智能领域内，其实是各有侧重，中国聚焦本体，美国是聚焦在大脑上。比较典型的是宇树科技等公司在硬件迭代上取得显著成绩，但”具身大脑上的团队其实并没有那么多”。

这一格局正在改变。2025-2026年间，国内开始涌现专注”大脑”的团队。深度机智的崛起，以及小米、蚂蚁、章鱼动力等公司在2026年初纷纷组建新团队跟进”人类学习路线”，标志着行业重心的转移。