港中文李鸿升团队论文 MindVLA-U1：VLA 不再输给 VA，语言真正进入自动驾驶决策

首页 » 港中文李鸿升团队论文 MindVLA-U1：VLA 不再输给 VA，语言真正进入自动驾驶决策

MindVLA-U1：统一视觉语言动作架构，实现理解后规划。

作者丨郑佳美

编辑丨马晓宁

在自动驾驶进入大模型时代之后，行业正在从传统的“感知、预测、规划、控制”模块化流水线，逐步转向端到端智能系统。

过去，VA 模型能够直接从视觉输入生成驾驶轨迹，在规划精度和实时性上表现突出，但它们更多依赖隐式视觉特征，很难清楚解释“为什么这样开”，也难以处理那些需要语义理解和常识推理的长尾场景。

比如车辆行驶在狭窄居民区道路上，两侧停满车辆，前方可能有行人突然从车缝中出现；又比如在无保护左转路口，系统不仅要判断对向来车速度，还要理解让行关系和潜在风险；再比如施工区域、临停车辆、单纯依靠视觉到轨迹的映射往往不够，自动驾驶系统还需要像人类司机一样理解场景含义，再把理解转化为可执行的连续控制动作。

在这种背景下，VLA 被认为是更接近“会理解、会解释、会行动”的自动驾驶方向，但此前很多 VLA 方法又面临一个现实问题：语言能力引入后，规划精度、动作连续性和推理速度往往难以同时保证。

正是在这种行业矛盾下，香港中文大学 MMLab、理想汽车和清华大学的联合研究团队提出了《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》这项研究。

研究试图回答一个关键问题：自动驾驶中的语言理解，究竟能不能真正帮助动作规划，而不是只作为解释文本存在。围绕这一问题，研究团队没有简单地扩大模型规模，而是从架构接口入手，把视觉、语言、车辆状态、历史记忆和动作生成统一到同一个 VLM backbone 中，让模型既能理解道路场景，也能直接生成连续驾驶轨迹。

更重要的是，研究通过 Intent-CFG 让语言侧预测出的驾驶意图参与轨迹生成，通过 streaming memory 让模型像真实车辆一样逐帧处理连续视频流，并通过快 / 慢推理路径在实时控制和语义推理之间切换。

也就是说，当道路场景简单时，系统可以快速给出动作；当场景复杂、风险较高或需要解释时，系统可以保留语言推理能力，再生成更有语义依据的驾驶轨迹。这使得研究不只是一次模型指标提升，更是在探索自动驾驶从“看见后执行”走向“理解后行动”的一种新架构路线。

论文地址：https://arxiv.org/pdf/2605.12624

文章目录

当 VLA 开始超过 VA

实验结果显示，MindVLA-U1 在 WOD-E2E 自动驾驶 benchmark 上取得了较强的整体规划效果，尤其是在加入 RL 后，验证集 RFS 达到 8.20，而人类驾驶参考轨迹的 RFS 是 8.13，说明模型在开放环评测中生成的轨迹质量已经超过人类驾驶参考，体现出研究团队提出的统一 VLA 架构在轨迹规划上的优势。雷峰网(公众号：雷峰网)

在官方测试集中，MindVLA-U1 + RL 的 RFS 达到 7.87，取得最高表现，同时 RFS-GT ADE 达到 1.09 / 2.66 m，轨迹误差低于多数已有 VA 和 VLA 方法，说明这种方法并不是只在验证集上有效，在隐藏测试集上也具有较好的泛化能力。

语言对动作的影响也得到了实验验证，普通 MindVLA-U1 的 RFS 是 7.83，加入 NTP 预测 intent 后，RFS 提升到 7.92，说明语言侧预测出的驾驶意图可以通过 Intent-CFG 引导连续轨迹生成，使语言信息真正进入动作生成过程，而不是只作为解释或附加输出存在。雷峰网

流式记忆模块同样表现出明显作用，chunk-wise 单帧训练的 RFS 是 7.69，streaming training 提升到 7.73，streaming + memory 进一步提升到 7.83，说明仅仅按帧进行流式训练还不够，加入历史记忆后，模型能够更好利用时间上下文，从而改善连续驾驶场景中的长期规划效果，同时长时间轨迹预测中的 ADE 也整体下降，例如 25 s 序列 ADE 从 1.54 降到 1.50。

快 / 慢路径实验说明，慢路径可以保留语言推理能力，更适合复杂场景或安全敏感场景，快路径则跳过语言生成，直接进行动作规划，在保持较好规划质量的同时让推理速度接近 VA 方法，表明 VLA 模型不一定只能“慢而重”，也可以通过不同推理模式在语义理解和实时控制之间切换。

模型规模实验进一步说明，性能提升并不只依赖更大的 VLM backbone，不同尺寸下结果并不是越大越好，其中 2B 左右表现较好，9B 模型在默认训练设置下没有明显优势，延长训练后 9B 有一定恢复，说明当前瓶颈不只是模型大小，还包括训练数据规模、训练时长、动作接口设计和任务适配方式等因素。

总体来看，研究结果表明，MindVLA-U1 的优势来自多个部分共同作用，包括统一的视觉语言动作 backbone、连续动作生成方式、Intent-CFG 语言到动作桥接、流式记忆机制、快 / 慢推理路径以及 RL 后训练，这些设计共同改善了 VLA 在自动驾驶轨迹规划中的精度、泛化能力、实时性和语义可控性。

让模型像真实车辆一样连续感知

实验经过方面，研究基于 WOD-E2E 数据集展开，数据来自真实自动驾驶场景，每段驾驶片段约 20 秒，并且包含多摄像头 360° 视觉输入，因此能够覆盖车辆周围不同方向的环境信息。

由于数据集中包含较多长尾场景，研究团队可以用它测试模型在复杂驾驶情况中的轨迹规划能力，而不是只验证模型在普通、规则、容易预测场景中的表现。

主要评测内容集中在两个方面，一方面评测模型预测轨迹的质量，使用 RFS 衡量预测轨迹是否符合人类评审偏好，使用 ADE 衡量预测轨迹和参考轨迹之间的距离误差，另一方面也评估语言输出质量，例如 VQA 的 BLEU 和 ROUGE，用来判断模型在保留驾驶规划能力的同时，是否还能维持语言理解和回答能力。

模型输入包括当前多视角图像、车辆自身历史状态、文本问题或语言提示、历史 streaming memory，以及带噪声的动作 token，这些信息共同进入模型，使模型既能看到当前道路环境，又能利用车辆历史运动状态和之前帧中保留下来的时序信息。

模型输出包括语言回答和连续驾驶轨迹，二者由同一个共享 backbone 完成，不是先用一个模块做语言理解，再交给另一个独立模块规划动作，也不是把动作表示成离散坐标 token，而是直接生成连续轨迹，这样可以减少离散化带来的精度损失。

统一 backbone 设计中，视觉、语言、车辆状态、记忆、动作 token 会一起进入 VLM backbone，语言通过自回归方式生成，动作通过 flow-matching 方式生成，两类任务共享模型表示，使语义理解和动作规划能在同一模型内部结合。

流式记忆设计中，模型不是一次性输入固定长度视频片段，而是每次只处理当前帧，历史信息通过 FIFO memory 保存，memory 会随着车辆运动进行对齐，每一帧处理后，模型还会写入新的 memory，从而让历史上下文在连续驾驶过程中不断传递，这种方式更接近真实自动驾驶中的连续视频流，也减少了重复处理多帧视频带来的计算负担。

Intent-CFG 设计中，模型先预测当前驾驶意图，例如直行、左转、右转等，再把这个 intent 作为条件，引导动作扩散过程，并通过 CFG 让 intent 对轨迹生成产生影响。

实验还对比了无 intent、轨迹派生 intent、GT intent 和模型预测 intent，结果显示模型预测 intent 的效果最好，说明由语言侧预测出的驾驶意图更能帮助模型生成合理轨迹。

快/慢推理设计中，vqa_first 表示先语言推理再动作规划，action_first 表示先动作规划再生成语言解释，action_only 表示只生成动作不生成语言，不同模式共享同一套模型权重，因此部署时可以根据场景复杂度选择推理方式，简单场景中使用更快的动作路径，复杂或安全敏感场景中保留语言推理能力。

最后，在监督训练后，研究人员进一步使用 RL 优化模型，奖励信号主要来自 RFS，使模型生成的轨迹更符合人类评审偏好，并最终取得验证集和测试集上的最好结果。

自动驾驶 VLA 接口的重构

实验意义在于重新解释 VLA 过去落后 VA 的原因，研究团队认为，VLA 过去规划效果差，并不是因为语言天然会伤害控制能力，而是因为接口设计不合理，例如一些方法把本来需要保持高精度的连续轨迹离散成语言 token，导致动作表达受到 token 精度限制，也有一些方法把语言模块和动作模块分离得太远，使语言理解结果难以真正影响轨迹规划，还有一些方法在时间建模上依赖固定视频 chunk，容易造成计算冗余和片段边界不连续。

基于这种判断，MindVLA-U1 证明 VLA 可以同时兼顾理解和控制，模型既保留语言理解能力，又保留连续动作生成能力，不需要为了获得语言接口而牺牲轨迹精度，也不需要在推理时把语言模块完全丢掉。

更重要的是，研究让语言真正进入驾驶决策过程，过去很多 VLA 虽然拥有语言头，但语言并没有明确影响动作，更多只是作为解释或辅助输出存在，而 MindVLA-U1 通过 Intent-CFG 建立了语言到动作的可测量路径，使驾驶意图不只是对结果的说明，而是能够改变轨迹生成方向，从而让语言侧理解对连续控制产生实际作用。

研究也更适合真实自动驾驶部署，因为真实驾驶是连续视频流，而不是固定长度片段，streaming memory 能让模型按帧处理场景，同时保留历史上下文，并减少重复处理多帧视频带来的计算浪费，使模型更接近真实车辆持续感知和持续规划的工作方式。

快/慢系统统一方案也是重要意义之一，简单场景可以走 action_only 快路径，直接生成动作以满足实时控制需求，复杂场景可以走带语言推理的慢路径，让模型在安全敏感或语义复杂情境中进行更充分分析，一个模型即可覆盖不同计算需求，有助于实际部署中平衡实时性和安全性。

整体来看，研究推动了自动驾驶 VLA 架构发展，其重点不是单个模块改进，而是统一语言、视觉、记忆、动作的整体接口，为后续自动驾驶模型设计提供了参考价值。

同时，研究也留下进一步探索空间，当前主要是开放环评测，还没有充分验证闭环驾驶表现，目前只使用了较简单的 3 类 intent，MindLabel 中更丰富的 20 类 intent、轨迹评价 QA、CoT rationale 还没有充分利用，后续仍可以继续提升长尾场景处理能力、多模态动作选择能力和闭环安全性。

MindVLA-U1 背后的研究者

这篇论文的通讯作者为李鸿升，香港中文大学电子工程系 Multimedia Laboratory 副教授，同时兼任香港中文大学计算机科学与工程系副教授，并将于 2026 年 8 月 1 日起晋升为正教授。

他于 2006 年获得华东理工大学自动化专业工学学士学位，2006 年至 2007 年在上海交通大学模式识别与智能系统方向学习，随后进入美国 Lehigh University 攻读博士，并于 2012 年获得计算机科学博士学位。

职业经历上，他曾在电子科技大学电子科学学院担任副教授，之后在香港中文大学电子工程系先后担任博士后、研究助理教授和助理教授，并自 2022 年 7 月起担任副教授。研究方向上，他长期关注计算机视觉、医学影像、深度学习、多模态学习、生成模型、具身智能和机器人操作等领域。

学术成果方面，他在 CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI 等顶级会议持续发表成果，2025 年有 13 篇成果被 NeurIPS 接收、3 篇被 EMNLP 主会接收、7 篇被 ICCV 接收、4 篇被 ACL 接收、3 篇被 ICML 接收、11 篇被 CVPR 接收，2026 年有 3 篇成果被 ACL 接收，并有 27 篇成果被 ICML、CVPR、ICLR、AAAI 接收。

他还曾获得过 2025 年香港中文大学 Research Excellence Award、2021 年香港中文大学 Young Researcher Award、2020 年 IEEE Circuits and System Society Outstanding Young Author Award，并在 2022 年、2023 年、2024 年获得 AI 2000 计算机视觉领域最具影响力学者荣誉提名，2022 年至 2025 年入选斯坦福大学全球前 2% 顶尖科学家榜单。

除此之外，他的团队曾获得 ActivityNet Challenge 2020 时空动作定位 AVA 赛道冠军、ImageNet Video Object Detection Challenge 2015 冠军，以及 ImageNet Video Object Detection / Tracking Challenge 2016 冠军，近年研究覆盖网页生成评测、移动 GUI 智能体、多模态数学推理、图像生成、视觉生成编辑、自动驾驶场景生成和具身智能等方向。