VLA，是完全自动驾驶的必经之路？-电子发烧友网

电子发烧友网报道（文/梁浩斌）最近，智驾领域又出现多个“新名词”，比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上，从各家的路线来看，随着更大算力的芯片，比如小鹏、蔚来自研的智驾芯片，以及英伟达Thor的上车，越来越多的智驾方案选择VLA的路径。

那么本文就梳理一下当前智驾领域集中主流的大模型技术路线，以及各家厂商实现方式的区别和发展。

VLA和VLM

VLA即Vision-Language-Ac tion，视觉-语言-动作模型。简单来说，VLA是一种结合视觉感知、语言理解和动作决策的多模态AI模型。VLA通过统一空间智能、语言智能和行为智能，使自动驾驶系统能够更全面地理解复杂环境并执行任务。

VLA的核心能力主要是三种，包括BEV、激光雷达等视觉输入；理解自然语言指令或场景描述等语言处理能力；以及对车辆控制动作输出的能力。最终通过这三种能力，实现从感知到决策的端到端闭环。

VLM即Vision-Language Model，视觉-语言模型，从名字上看，VLA就是在VLM的基础上增加了动作的能力，事实也确实如此。

VLA在VLM核心的多模态推理和理解能力上，增加了动作生成的能力，将VLM的输出，比如将“在这个路口要转左”的指令输出直接转化为车辆的控制信号，包括油门、方向盘角度、刹车力度等。

一般来说，VLA通常也是基于预训练的VLM基座模型，利用VLM具备的视觉和语言能力，引入动作预测模块进行扩展，使其适应各种任务，包括机器人，自动驾驶等。

具体到自动驾驶的应用中，VLA可以直接调用VLM生成的语义理解结果，比如识别视频画面中的交通标志、场景描述等，结合实时感知数据来生成车辆的控制指令。同时，VLA的执行结果，也可以反向优化VLM的场景理解能力，优化决策选择。

简单总结下来，VLM是倾向于认知的一个模型，它通过自然语言来描述出当前车辆前方的场景，以及“看到”哪些内容，并能够输出一些车辆控制指令的文本；VLA是侧重于动作控制，在获得场景的自然语言信息后，解决车辆应该如何继续行驶，比如作出避让、变道等动作，并直接输出油门、方向盘角度、刹车力度等具体的控制指令。

小鹏、理想、元戎落注VLA，但实现方式略有不同

目前小鹏、理想、元戎启行等车企和智驾公司，都展示了其VLA的技术布局，并表示即将量产。

元戎启行CEO周光在最近的2025年火山引擎Force原动力大会就宣布，将携手火山引擎，基于豆包大模型，共同研发VLA等前瞻技术，元戎骑行VLA模型将在2025年第三季度推向消费者市场。

理想汽车此前则透露VLA模型将在今年三季度搭载于理想L9/L8改款车型。

小鹏汽车在最近小鹏G7发布会上表示，将行业首发本地端VLA+VLM大模型。小鹏在车端实现VLA的方式大致是，采用超大参数云端大模型，训练出世界模型基座，再通过蒸馏的方式产出适配车端算力的小模型，最大限度地保留云端模型基座的核心能力。

今年4月，小鹏汽车对外宣布正在研发参数规模达到720亿的云端大模型，即“小鹏世界基座模型”。该基座模型是以大语言模型为骨干网络，使用海量优质驾驶数据训练的VLA大模型（视觉-语言-行为大模型），具备视觉理解能力、链式推理能力（CoT）和动作生成能力。目前，小鹏汽车已经在后装算力的车端上用小尺寸的基座模型实现了控车。在没有任何规则代码托底的情况下，新的“AI大脑”展现出令人惊喜的基础驾车技能，能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。

在上周的计算机视觉顶会CVPR 2025上，小鹏汽车也分享了其基础模型的进展。小鹏世界基座模型负责人刘先明博士表示，小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的模型，并且持续向模型“投喂”更大规模的训练数据。目前，小鹏世界基座模型累计“吃下”2000多万条视频片段（每条时长30秒）。

在这一过程中，研发团队清晰地看到了规模法则（Scaling Law）的显现。也就是说，模型的参数量越大、模型学习的数据越多，模型的性能越强。这是AI大模型浪潮以来，行业内首次明确验证规模法则在自动驾驶VLA模型上持续生效。

理想汽车的VLA路线则略有不同，是先对基座模型进行蒸馏，产出车端的蒸馏模型，然后再进行强化学习，实现“司机Agent”。

蔚来世界模型NWM

蔚来近期推送了其最新的NWM首个版本，据蔚来的介绍，蔚来世界模型NWM是一个多元自回归生成模型，具备空间认知和时间认知能力，能进行长时序决策与推演。蔚来世界模型 NWM同样是多模态输入输出，输入的多模态数据包含图像、语言，输出的多模态数据则包含图像和行动。

所以NWM其实是包含了VLA的所有特征，但不同之处在于，NWM对于空间理解的能力，以及长时序的建模能力会更强。

蔚来用停车场自主寻路的功能来展示NWM的认知、理解与推理能力。例如，当车辆在行驶过程中看到“15-20号楼→”的标牌时，它就能理解18号楼应当向右转；在上一个路口看到“出口直行”字样，当前路口却没有标牌，车辆也能推理出出口应该继续直行。

写在最后

元戎启行认为，VLA是通往完全自动驾驶的必经途径。当前VLA确实已经成为智驾的主流发展方向，而VLA对于车端的算力需求，还将会带动智驾芯片算力的需求爆发。