文章来源于互联网:能看AI推理过程的端到端自动驾驶,理想在走一条前所未有的路
城市、高速一体化,从车位到车位的全程自动。
-
E2E(端到端模型)—— 其中显示自车、其他车辆、道路车道线、轨迹线预测等信息。蓝色轨迹线代表模型计算过程中判定的正确轨迹,灰色轨迹线则代表模型计算过程中判定的偏移轨迹。轨迹线计算共展示 10 个窗口,代表一种模型输出结果,最终 AI 会选择一条老司机认为最正确的轨迹来执行操作。 -
第二个部分是 Attention(注意力系统)—— 其中显示系统对实时视频流中的交通参与者行为和环境路况进行评估,分析其类型、位置、速度、角度等属性,并辅助端到端模型计算出最佳的行驶轨迹。其中会以热力图形式展示注意力系统的工作状态,其中颜色更暖(偏红)的区域代表对智能驾驶决策影响更大的区域。 -
第三个部分则是 VLM(视觉语言模型)—— 它展示了视觉语言模型的感知、推理和决策过程,像我们常见的大模型应用一样将车载摄像头看到的交通情况用文字的形式加以解释。当识别到有对智能驾驶决策有影响的环境路况和交通规则变化时,VLM 能够及时感知信息,并做出合理的推理决策。
-
首先是高效的信息传递,此前的智能驾驶架构经常包含很多规则,限制了整体的上限。在一体化的模型中,所有信息都在模型内部传递,具有更高的上限,给人们的感受就是更加拟人了。 -
第二是高效计算,单一模型在 GPU 内加载可以一次性完成推理,降低了系统的延迟,体感就是「手和眼」更加协调一致了。 -
第三是技术的迭代速度也变得更快了。由于是一体化的 AI 模型,可以实现完全的数据驱动,可以很轻松地做到周级的迭代。
-
第一阶段——成为人类能力的延伸和增强,提升工作效率(L3 阶段),有望在 2025 年实现。在此阶段我们还需要在行驶过程中对 AI 进行监督。 -
第二阶段——成为人类的助手(L4 阶段),能够 100% 自动驾驶并承担相应责任,有望在三年内实现。这会推动新技术的大规模应用。 -
第三阶段——硅基家人,AI 智能体可以自主地工作,帮助人们管理好家庭中的各种事物,人类的记忆也可以在 AI 上得到延续。
文章来源于互联网:能看AI推理过程的端到端自动驾驶,理想在走一条前所未有的路