视觉语言动作模型（VLA）为何能让自动驾驶理解世界?

文章来源：企鹅号 - 智驾最前沿

回顾这两年自动驾驶的发展不难发现，现在的自动驾驶车在简单的路况下开得越来越像老司机了。但在面对一些如临时摆放的施工路障，或者是在交警挥手示意你逆行绕过事故现场等边缘场景下，很多车还是会显得有些局促，甚至会直接原地罢工申请接管。

之所以会出现这些问题，是因为传统的自动驾驶系统只是在做数学填空题，而不是在真正理解世界。而随着视觉语言动作模型（Vision-Language-Action，简称 VLA）的出现，自动驾驶汽车便多了一个能够思考、能说会道、且拥有常识的大脑，开车也更加灵活了。

为什么要赋予车辆思考能力？

传统的自动驾驶架构被拆分为感知、决策和执行三个独立模块。感知模块把图像变成方框，决策模块根据方框的位置计算路径，执行模块负责踩油门或转方向盘。这种流水线式的设计虽然清晰，但在各个环节之间存在信息流失。

感知模块在把复杂的画面抽象成数学坐标时，会丢掉大量的语境细节。如果感知环节看错了一个物体，这种错误会像滚雪球一样传导到后续的环节，导致车辆做出危险的举动。

而VLA模型它通过一个统一的神经网络，直接将眼睛看到的画面和大脑里的知识库相连，不再需要中间那些生硬的接口，可以直接根据对环境的整体理解来输出驾驶动作。这种进化使得自动驾驶系统从机械式地避障转变为理解环境后行动，是自动驾驶从单纯的技术积累迈向通用人工智能的关键一步。

图片源自：网络

VLA模型之所以被众多车企选择，是因为它可以解决自动驾驶中最令人头疼的一个问题，即长尾效应。在道路上，总会有一些概率极低但种类无穷无尽的突发情况，传统的规则驱动系统很难穷尽所有可能的场景，这就导致车辆在遇到没见过的障碍物时表现得不知所措。

VLA模型通过引入大语言模型，直接让车辆接入了一个庞大的互联网知识库。大模型在训练时已经阅读过几乎整个人类社会的文本，它对物理世界的运行规律有着先验的认知。

简单理解这个概念，也就是当VLA模型看到路边有一个滚动的皮球时，它不只是看到了一个圆形的物体，它还知道皮球后面会跟着一个追逐的孩子，从而能够提前采取预判性的减速措施。

这种常识推理能力在复杂的交通交互中是十分重要的。在遇到由于事故导致的临时交通指挥时，人类司机可以通过观察交警的眼神、手势以及周围车辆的动向来判断自己是否可以通行。对于传统的自动驾驶系统来说，这几乎是不可能完成的任务，因为它无法理解手势背后的语义逻辑。

而VLA模型通过将视觉信号转化为语义表征，能够识别出交警手势的含义，并将其与交通规则进行权衡。英伟达开发的Alpamayo模型就具备这种思维链推理能力，它在遇到复杂路口时，会在内部生成类似人类思考的过程，先识别出路权归属，观察其他行人的意图，最后再决定最优的行驶轨迹。这种推理过程让自动驾驶不再是无脑地执行冷冰冰的动作，而是可以基于对人类社会行为准则的深度理解执行相关动作。

图片源自：网络

除了应对突发状况，VLA模型还极大地增强了车辆在非结构化环境下的生存能力。在很多越野场景、工地或者是没有清晰车道线的乡村小路，传统的高精地图往往无法覆盖，传感器也难以找到参照物。

这时候，VLA模型能够接受人类的自然语言指令来导航，比如你告诉它沿着那排树林左侧的泥路走，停在阴凉的地方。模型能够将树林、泥路、阴凉这些视觉概念与驾驶动作精准对齐。

这种能力意味着自动驾驶汽车不再是一个只能在画好的轨道上运行的遥控车，而是一个能够理解复杂意图、适应各种恶劣环境的智能助手。这种从识别物体到理解意图的跨越，正是实现真正无人驾驶的认知底座。

VLA如何解决决策过程的黑盒？

自动驾驶迟迟无法大规模普及的一个重要原因其实是公众的信任问题。当车辆在路上突然做出了一个奇怪的避让动作，乘客会感到莫名其妙甚至惊恐。传统的神经网络模型存在黑盒问题，即使是开发者，也很难说清楚模型在某一秒钟为什么会做出那样的决定。

VLA模型的出现，通过引入语言这一媒介，为自动驾驶的决策过程提供了一面透明的镜子。因为VLA模型天然具备语言生成能力，它可以在行驶的同时，实时输出一段自然语言的驾驶解说，告诉乘客它在看什么、在想什么、为什么要这么开。

图片源自：网络

以Wayve推出的LINGO系列模型为例，这种系统能够像人类司机一样一边开车一边解说。当它在狭窄路段靠边停车时，它会输出类似因为前方有停放的车辆且对向有来车，我选择减速避让的话语。

这种实时的反馈不仅缓解了乘客的焦虑感，更重要的是，它让车辆的行为变得可预测、可解释。如果车辆因为识别错误而停了下来，它会诚实地告诉你我看到前方有一个奇怪的阴影，不确定是否安全，这比毫无征兆地停在路中央要让人安心得多。

这种可解释性还极大地提高了开发者的调试效率，工程师不再需要对着一堆毫无意义的波形图发愁，而是可以直接通过询问模型来排查逻辑漏洞。

这种基于对话的互动模式还改变了人与车之间的协作关系。在现有的自动驾驶系统中，人与车的交互仅限于设定目的地或调整车速。而在VLA架构下，乘客可以随时用自然语言介入驾驶决策，比如这段路太颠了，尽量绕开坑洼或者这里的风景不错，开慢一点。

模型会将这些指令作为决策的限制条件，实时优化行驶轨迹。这本质上是把人类的驾驶偏好无缝嵌入到了AI的行动逻辑中，让汽车真正成为了一个懂得用户心思的老司机。通过语言这个人类最自然的表达方式，能够更精细地控制车辆的行为。

VLA技术落地的核心挑战与演进方向

虽然VLA模型在理论上展现了巨大的潜力，但要将其真正装入量产车中，技术上还面临着实时性和计算效率的严峻考验。

大语言模型通常包含数十亿甚至数千亿个参数，它们的推理过程非常缓慢。然而，驾驶是一项分秒必争的任务，系统必须在几十毫秒内对环境做出反应。为了解决这个问题，行业内出现了一系列精巧的架构设计。

一种主流的思路是采用双系统模式，其中一个系统负责处理高频的避障和基础控制，确保车辆不撞车；而VLA模型则像大脑一样，以较低的频率提供宏观的规划和逻辑指导。这种分工能够确保车辆在保证安全底线的同时，依然具备高水平的认知能力。

图片源自：网络

在具体的动作执行上，如何让模型输出精确的物理指令也是一大难点。目前的一种做法是将驾驶动作进行词元化，也就是把方向盘转角、油门深浅等连续的物理量，转化成类似单词的数字编号。这样，模型就可以像写文章一样，通过预测下一个动作词汇来规划出一段完整的行驶轨迹。

特斯拉的FSD版本中，就尝试通过大幅增加神经网络的参数规模来模拟这种复杂的对应关系，使其在处理罕见工况时表现得更加圆滑和拟人。此外，诸如理想和小鹏等国内厂商，也正在研发专门的计算平台和编译器，通过知识蒸馏等技术，把原本庞大的云端模型压缩成能够跑在车载芯片上的精简版，从而在有限的硬件资源下实现毫秒级的响应速度。

最后的话

其实VLA模型的研究意义已经超越了汽车行业本身。它所代表的视觉、语言与物理动作的深度融合，是通往具身智能的必经之路。这种架构如果能在自动驾驶领域跑通，意味着同样的逻辑可以被迁移到工厂里的机械臂、医院里的护理机器人或者是家里的服务终端上。

一旦机器掌握了如何通过观察环境、理解指令并做出符合物理常识的行为，人工智能将不再仅仅局限于屏幕里的文字和图像，而是真正能够走进物理世界，成为各行各业的得力助手。因此，研究VLA模型不仅是为了让驾驶更安全，更是在为整个人类社会迈向通用智能时代奠定坚实的基础。

发表于: 2026-06-072026-06-07 08:40:59
原文链接：https://page.om.qq.com/page/O-eU67cJ12IsWalflRttHtZQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

视觉语言动作模型（VLA）为何能让自动驾驶理解世界?

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐