2026年,具身智能的泡沫与烈火同时燃烧。
宇树科技递交招股书,估值冲击百亿;Figure AI、Physical Intelligence等美国公司融资额屡创新高,将行业热度推向顶点。国内创业公司紧急跟进——堆数据、抢场景、拼本体,十万小时真机数据成为新的军备竞赛标的。
但喧嚣之下,一个尴尬的共识正在形成:没有人知道正确的技术路线究竟是什么。遥操作、仿真合成、互联网视频、人类第一视角……数据类型的选择尚未收敛;行星减速、谐波力控、电驱液压……本体结构的争论也还没落地。行业在”大力出奇迹”的信仰下狂奔,却鲜有人追问:这些海量数据,究竟在教机器人什么?
最近,AI科技评论观察到,越来越多具身智能公司开始探索一条新的数据路径:”人类第一视角数据”。
2026年以来,小米、蚂蚁、章鱼动力等公司在纷纷组建新团队跟进这一路线。其中,以微软亚洲研究院前首席研究员陈凯的观点,引发了行业的热烈讨论。
3月27号,作为深度机智的创始人,陈凯在中关村论坛上代表深度机智,发布了首个具身智能基座模型PhysBrain 1.0,并公布了他们的研究成果。
这个模型仅使用1000小时人类第一视角数据、零真机数据,在多个国际权威榜单上超越了用数万小时真机数据的竞争对手,在多个国际 Benchmark 上取得 SOTA,比 Physical Intelligence 和英伟达等头部巨头表现更好。
某种程度上,一场具身智能领域关于”物理常识”的革命,正在悄然开启。
模型缺乏物理常识,是具身领域的巨大痛点
“目前不管是VLM(视觉语言模型)还是世界模型,始终会卡在一个点上:它们缺乏物理常识。”深度机智创始人陈凯在中关村论坛上直接指出了这一行业痛点。
这个判断直指当前具身智能的核心困境。和很多学者遇到的情况一样,陈凯提到 VLM 模型不理解空间、时序,”桌子上面放了几个杯子,它数不清有几个”;视频生成模型”视觉上足以乱真,但运动的真实性和物理真实性比较差”。这些看似基础的能力缺失,让机器人在面对真实世界的复杂性时屡屡碰壁。
问题的根源在于数据与学习的错位。当前行业主流的做法——遥操作采集真机数据、仿真合成虚拟数据、或是模仿人类手部轨迹,本质上都是在教机器人”模仿动作”,而非”理解世界”。
“现在非常多的做法——背动作、背轨迹——其实是手把手地教猴子干活。”陈凯用了一个形象的比喻,”而我们正在尝试的是:请菩提祖师把猴子变成孙悟空,让它先理解世界,再去学习技能。”
这种”理解优先”的方法论,正在获得越来越多证据的支持。深度机智近期发布的PhysBrain 1.0模型正式针对这样的思路,做出的阶段性成果。
这一结果挑战了一个行业默认假设:更多的数据,是否必然带来更好的智能?
人类第一视角:被重新发现的数据富矿
“人类第一视角数据,因为它是人看过去的第一视角的世界,收集的是真实物理世界的数据,天然就蕴含着各种各样的物理常识。”陈凯解释道自己为什么要押注这一路线。
无独有偶,这种数据类型的价值,在2024-2025年间逐渐被重新发现。2025年5月,特斯拉宣布放弃遥操作,转向人类第一视角;6月,Figure AI发布”扔积木”的拟人行为Demo;10月,Generalist AI验证Scaling Law;12月,Physical Intelligence确认人类数据价值;2026年2-3月,英伟达发表论文交叉验证。
行业共识迅速形成:人类第一视角数据不是遥操作的替代品,而是通往”物理常识”的关键路径。
但分歧依然存在。英伟达的论文仍专注手部轨迹预训练,而深度机智选择”直接上来就要增强VLM本身——让它依据人看到的这个世界去理解世界”。陈凯认为,这种差异让深度机智”在整个流程上应该比英伟达略有领先”。
更深层的差异在于数据的”多样性”。遥操作数据记录机器人视角,任务和场景由人工设计;UMI(通用操作接口)数据需要人手持夹爪,”很难想象工厂主要求员工不能用手干活”。
而人类第一视角数据捕捉的是真实生活,”哪怕你是静静地发呆,你看到外面车水马龙,这些数据对我们都有价值”。
这种多样性带来的不仅是数据量的节省,更是学习质量的跃迁。
从”轨迹拟合”到”物理常识”:方法论的范式转移
“智能涌现”现象为这场革命提供了最直观的证据。
深度机智的测试中,训练数据全是”夹起胡萝卜放盘子里”,但机械臂碰到胡萝卜没夹到时,竟”自发选择推”——推一次没推进去,换角度加大力度再推,最后才转变策略夹起来。另一个案例中,机械爪夹方块太靠后掉落,它主动回来捡,第一次没捡起,第二次”做了一个非常轻微的旋转”成功夹起。
“这种灵活性,甚至你都没有办法预编程把它搞出来。”陈凯描述这一现象时强调,”千小时人类数据增强物理常识,自发地把人类灵活变通的能力迁移到了机器人身上。”
这种”涌现”能力揭示了一个深层规律:当模型具备足够的物理常识,它不再依赖精确的轨迹模仿,而是能够像人类一样”理解情境、灵活应对”。这正是”物理常识”革命的核心,从”教动作”到”教理解”的范式转移。
Physical Intelligence创始人将这种能力称为”智能的暗物质”(Physical common sense is the dark matter of intelligence)。DeepMind的哈萨比斯则认为,原生多模态模型对物理世界的更好理解,可成为机器人的大脑。(雷峰网(公众号:雷峰网))
“所有的这些点都归结到一个:要先去理解这个世界,然后再到这个世界里面去行动。”陈凯总结道。
跨本体能力:物理常识的迁移效应
“物理常识”革命的另一个重要成果,是”跨本体能力”的涌现。
传统方法需要”把不同形态的机器人的数据做联合训练”才能实现技能迁移。但深度机智观察到:”有了一个理解物理常识的大脑,自然而然知道适配什么样的身体。”
这一发现颠覆了”一个机器人一套数据”的行业惯例。用LoRA预训练action expert,再用Franka机械臂微调,数据需求大幅下降——”不同形态机器人背后的物理规律一模一样”。
“跨本体是物理智能增强自然而然会出现的结果,并不是刻意地把多种机器人数据放在一起训练出来的结果。”陈凯解释道。
这意味着,物理常识具有跨平台、跨形态的通用性。一旦模型掌握了”物体受力会移动””抓取需要摩擦力”等基础规律,它就能将这些知识迁移到新的硬件平台上,而无需从头学习。
这种通用性,正是通往”具身通用智能”的关键阶梯。
“人类学习路线”正在国内悄然崛起
在全球具身智能竞赛中,中国与美国呈现出不同的侧重。
过去,中国和美国在具身智能领域内,其实是各有侧重,中国聚焦本体,美国是聚焦在大脑上。比较典型的是宇树科技等公司在硬件迭代上取得显著成绩,但”具身大脑上的团队其实并没有那么多”。
这一格局正在改变。2025-2026年间,国内开始涌现专注”大脑”的团队。深度机智的崛起,以及小米、蚂蚁、章鱼动力等公司在2026年初纷纷组建新团队跟进”人类学习路线”,标志着行业重心的转移。
从某种角度上,国内目前的路径和认知上和世界一流科学家区别不大,但需要更多的投入。其中,数据成本优势尤为明显,美国标注第一视角27万小时花上亿美刀,中国千万小时人力历史数据今年整个行业就会达到。
2026年,”物理常识”革命仍处于早期,尽管深度机智的1000小时数据”涌现”了纠错、变通、跨本体等能力,但陈凯承认这仍是”偶然的智能涌现”。2026年底是否会出现”效果出人意料好的具身智能大模型”?两三年能否重现ChatGPT时刻?
更深层的挑战在于行业生态。
“物理常识”的提取、标注、利用,需要全新的模型架构和训练方法,与当前主流的VLA、π0架构并不兼容。这意味着,拥抱”物理常识”革命,可能需要放弃既有的技术积累和基础设施。
但回报同样诱人。一旦机器人具备真正的”物理常识”,它将不再是”教什么会什么”的专用工具,而是”理解情境、灵活应对”的通用助手。这将彻底改变制造业、服务业、危险作业等无数领域的生产力图景。
在这方面的认知上,陈凯提到”这可能是人工智能的最后一个机会,也是最大的一次。”,这或许是对这场革命押注的决心。(雷峰网)
当行业仍在”大力出奇迹”的信仰下堆砌数据时,一条”理解优先”的新路径已经显现。它不是对数据量的否定,而是对学习质的重构——从”模仿动作”到”理解世界”,从”教猴子”到”变孙悟空”。
这场”物理常识”革命能否成功,将决定具身智能的下一个十年。而2026年,正是关键的转折之年。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
