0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么很多车企都青睐VLA模型?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-03-04 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]就在最近,小鹏发布了第二代视觉—语言—动作(VLA)模型。其实随着自动驾驶技术的发展,行业正处于从手工规则体系向物理世界大模型的深层跨越。早期的自动驾驶方案高度依赖于模块化的架构设计,将感知、预测与规划拆分为独立的环节。

但随着行驶场景复杂度的增加,模块间信息流失和规则局限导致的瓶颈日益凸显。其实不仅仅是小鹏,理想、吉利等车企也都将VLA模型用于量产车,为何那么多车企都依赖VLA模型?

wKgZO2mnh_yALzWCAAAQo00DEvw357.jpg

相较于模块化,VLA有何优势?

传统的自动驾驶架构采用级联设计。传感器采集数据后,由感知模块进行目标检测与语义分割,输出物体标签;随后,预测模块计算周围参与者的可能轨迹;规划模块再根据预设的数学模型生成车辆的行驶路线。

在这种模式下,任何前端感知的微小误差都会在后续环节中被放大,且由于各模块之间采用的是预定义的手工接口,系统很难捕捉到环境中微妙的非结构化信息。

wKgZPGmnh_yAEtE6AACnjZycGDk952.jpg

模块化架构示意图,图片源自:网络

VLA模型的引入彻底改变了这一流程。视觉—语言—动作模型(Vision-Language-Action,VLA)本质上是一种端到端的智能系统,它通过统一的神经网络将多模态感知与高层逻辑推理、底层动作执行融为一体。

其核心价值是将原本相互独立的感知模块(看)、逻辑模块(想)与执行模块(做)在同一个语义空间内完成了对齐。与传统的自动驾驶系统相比,VLA不仅能够识别环境中的像素点或几何结构,更能理解这些信号背后的语义逻辑。

VLA模型由视觉编码器、大语言模型(LLM)骨干网络以及动作解码器三个核心组件构成。视觉编码器将摄像头采集的多视角图像转化为高维的特征向量,这些向量包含了环境的空间布局与物体特征;LLM骨干网络则作为决策中心,利用预训练过程中积累的海量世界知识对视觉特征进行逻辑加工;动作解码器则将这些抽象的推理结果转化为如转向角度、加减速数值等具体的物理动作。

wKgZO2mnh_2AKLAwAACupHq5c98486.jpg

VLA架构示意图,图片源自:网络

这种一体化的映射方式使得系统能够以一种更接近人类认知的方式来处理驾驶任务。在人类驾驶过程中,大脑并不会先在意识里标出每一个行人的精确坐标再进行计算,而是基于对场景的整体理解(如“这个行人可能要过马路”)直接产生避让动作。VLA模型通过共享的Transformer架构,对语言、视觉和动作模态进行协同编码,构建了统一的语义空间,实现了从感知理解到动作决策的无缝衔接。

wKgZPGmnh_2AabDFAAAR42n7O-I595.jpg

语言转译重要吗?

看到诸多文章介绍小鹏第二代VLA模型时,都提及其去掉了“语言转译”这一环节,那语言转译到底有什么作用?对于自动驾驶来说重要吗?

所谓语言转译,是指将视觉信号“翻译”成自然语言描述(例如“前方路口有交警在指挥”),然后再根据这段文字描述推导出动作指令。这种设计在早期是为了借用大语言模型的逻辑推理能力,但随着技术向量产端推进,其弊端也愈发明显。

自然语言虽然适合表达抽象逻辑,但在描述极其复杂的三维物理世界时,其精度可能不足。将高维的、连续的视觉流压缩成离散的文字标签,不可避免地会丢失大量的空间细节和运动趋势。

此外,在VLA的训练中,研发人员需要为海量的视频数据配上详尽的人工旁白,告诉模型画面中发生了什么,以及为什么要做这个动作。这种“保姆式”的监督学习不仅成本高昂,且标注的速度远远无法满足模型进化的需求。

wKgZPGmnh_6AQEm-AAadZZ1MXyI191.jpg

图片源自:网络

小鹏第二代VLA模型之所以拆掉语言这根“拐杖”,转向了更极致的自监督学习模式,是因为在这种体系下,模型可以直接从原始视频和真实的驾驶轨迹中学习,只要有视频输入和对应的物理动作输出,模型就能自主学习其中的因果关系,无需人工中间介入。

去语言化还可以大幅提升系统的实时性。在自动驾驶中,毫秒级的延迟决定了安全性。VLA模型因为存在多步推理(视觉->语言->动作),计算链路长,有时难以满足毫秒级的响应要求。若将视觉信号直接映射为动作,则可以消除中间解码和生成的耗时。

为了实现这一目标,动作的表征方式也将发生变化,将连续的轨迹预测转化为离散的动作Token,并整合进大模型的词表,是目前可行的路径之一。通过这种方式,动作生成就像语言预测下一个单词一样,能够充分复用大模型已有的序列建模能力。

这种从“语言理解”向“物理直觉”的转变,实际上是自动驾驶向更高级智能形式的演化。它可以让模型变成一个拥有多年驾龄、通过肌肉记忆进行决策的老司机。

wKgZO2mnh_6AX4m8AAASG3BOmsQ042.jpg

VLA的优势在哪里?

自动驾驶的技术发展,已经让自动驾驶系统在高速路或城市路段有了较好的表现,现在最难处理的其实是“长尾场景”。所谓长尾,是指那些在正常行驶中极少出现、难以通过穷举规则覆盖的极端情况,像是马路上突然出现的异形掉落物、复杂的施工路障、交警不规范的手势指挥等都属于长尾场景。

在传统架构中,遇到此类未见过的场景,感知模块可能会报错,或者规控模块会因为没有匹配的规则而采取僵硬的紧急制动。

VLA模型的优势在于它将“理解”引入驾驶决策。基于大规模预训练的大模型拥有强大的知识库和情景理解能力。举个例子,即便模型没有在训练集中见过某种特定形状的施工围栏,但它通过在互联网海量数据中学习到的通识知识,能够理解“红白相间的物体通常代表障碍物”或者“身穿反光背心的人通常是工作人员”。

这种基于知识的决策模式,使得VLA能够处理复杂的交互逻辑。在潮汐车道或无图小路等场景下,VLA可以分析周围车辆的意图和环境的细微变化,做出更拟人化的规划。它不会仅是避让障碍物,而是能够理解“此时前车减速可能是为了礼让行人”,从而提前做出预判,避免了传统系统常见的频繁急刹或顿挫感。

VLA模型还具备“双系统思维”的能力。它既能通过快速路径实现类似于本能的驾驶反应(快思考),也能在遇到极端复杂情况时,调动增强的推理逻辑进行深度分析(慢思考)。这种灵活性确保了系统在保证效率的同时,拥有处理高难度决策的上限。

为了解决长尾数据的稀缺性,有些技术方案还引入了“世界模型”(World Models)。世界模型可以被看作是自动驾驶系统的“模拟大脑”,它能够预测动作对未来的影响,并仿真出大量极端的、在现实中难以收集的危险场景进行自我训练。VLA与世界模型的结合,可以让自动驾驶从“在现实中试错”转向“在想象中进化”。

这种能力的提升,意味着自动驾驶系统正在从一个“称职的司机”向“智慧的驾驶专家”转变。VLA不仅解决了“怎么开”的问题,更在底层逻辑上解决了“为什么这么开”的理解问题。

wKgZO2mnh_-ASXJEAAASAJELks8645.jpg

VLA落地的难点在哪里?

大模型一般需要拥有数十亿甚至数百亿的参数,要在车载嵌入式平台上实现毫秒级的推理响应,需要非常多的工程优化。

混合专家架构(MoE)可以将模型拆分为多个专业领域的小模块,在每一时刻仅激活最相关的部分专家,可以在不牺牲模型容量的前提下,大幅降低推理时的计算量。理想就将32B的大模型蒸馏为3.2B的MoE架构,成功部署在Thor芯片上。

wKgZPGmniACAaAEfANjglQ9o894245.jpg

图片源自:网络

推理步数的压缩也很关键,传统的路径生成需要多次迭代(如Diffusion模型),而通过引入流匹配(Flow Matching)等算法,可以将原本10步的推理过程压缩至2步甚至1步,从而在10Hz的帧率下实现完整的交互响应。此外,混合精度推理(如INT8/FP8/FP4)和底层算子魔改,也可以进一步利用硬件的有效性能。

虽然VLA模型作为“大脑”负责复杂的认知决策,但行业普遍共识是需要保留一个经过严格验证的传统控制系统作为“安全基座”。这种混合架构确保了即使大模型在某些罕见情况下出现幻觉或推理错误,底层的安全网也能守住最后一道防线。

wKgZO2mniASAHpWiAAARwcz1hbg111.jpg

最后的话

VLA的普及标志着自动驾驶数据竞争重心的转移。以前,企业比拼的是人工标注的数据量;而现在,竞争的核心变成了算力储备、世界模型的仿真效率以及对大规模无标签视频数据的利用能力。

VLA从逻辑理解到物理行动的闭环,不仅加速了端到端技术的成熟,也让自动驾驶系统距离真正的“拟人化”更近了一步。随着算法、算力和数据三要素的持续提升,基于VLA架构的物理人工智能将在更广泛的移动场景中展现其价值,重塑未来出行的安全与效率标准。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    25

    浏览量

    5921
  • 自动驾驶
    +关注

    关注

    795

    文章

    15056

    浏览量

    181992
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    比亚迪反超特斯拉,中国霸榜2025

    电子发烧友网报道(文/黄山明)进入到2026年,按照行业惯例,不少也发布了自己的2025年市收官战报。可以发现,在2025年,不少
    的头像 发表于 01-06 08:40 1.2w次阅读
    比亚迪反超特斯拉,中国<b class='flag-5'>车</b><b class='flag-5'>企</b>霸榜2025

    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产VLA火速进化

    芯片水平。与此同时,国内如小鹏、理想等也在加速自身技术进化,推出基于VLA的新一代智能驾驶解决方案。   未来,特斯拉能否凭借HW5与FSD技术“王者归来”,而国内
    的头像 发表于 06-20 09:05 9119次阅读
    2500 TOPS!特斯拉HW5智驾算力怪兽突击,国产<b class='flag-5'>VLA</b>火速进化

    蚂蚁灵波开源LingBot-VLA真机后训练代码

    5月13日,蚂蚁集团旗下具身智能公司灵波科技宣布,全面开源其具身基座模型LingBot-VLA的真机后训练工具链。开发团队可基于这套工具链,使用自有数据将LingBot-VLA快速迁移到自有机器人和具体任务中。这是继今年1月开源
    的头像 发表于 05-14 10:13 821次阅读

    2026年,各车的自动驾驶方案到了什么阶段(二)?

    [首发于智驾最前沿微信公众号]之前和大家一起分析了小鹏、华为、特斯拉这3加的最新智驾方案( 相关阅读: 2026年,各车的自动驾驶方案到了什么阶段 (一) ?),今天我们带大家来继续看看其他
    的头像 发表于 05-04 09:30 4419次阅读
    2026年,各车<b class='flag-5'>企</b>的自动驾驶方案到了什么阶段(二)?

    小米开源VLA模型后训练全流程:亚毫米级操作突破引领机器人产业革命

    在机器人技术领域,小米集团近日宣布开源VLA模型Xiaomi-Robotics-0的后训练全流程,这一突破性进展标志着智能机器人从实验室走向实际生产的"最后一公里"正式打通。该模型展现的亚毫米级操作能力,为精密制造、医疗手术等
    的头像 发表于 04-28 09:24 1312次阅读

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    第二代 VLA 自动驾驶系统的研发、仿真与验证,标志着自动驾驶从 路测驱动 迈入 世界模型驱动 的新阶段。 何为 X-World? X-World 是基于视频扩散生成技术构建的多视角生成式世界模型,可理解为自动驾驶系统的 大脑预
    的头像 发表于 04-14 10:11 6224次阅读

    VLA模型是基于预置规则来指导行动吗?

    [首发于智驾最前沿微信公众号]今天继续来回答小伙伴的提问,最近有一位小伙伴提问,VLA模型中的理解是不是也基于一些预置的规则指导行动的?其实这个问题非常值得讨论,今天智驾最前沿就带大家详细聊一聊
    的头像 发表于 12-25 09:22 1456次阅读
    <b class='flag-5'>VLA</b><b class='flag-5'>模型</b>是基于预置规则来指导行动吗?

    全球首车搭载元戎启行VLA模型,魏牌蓝山智能进阶版重磅上市

    近日,魏牌全新蓝山智能进阶版正式上市,成为全球首款搭载元戎启行VLA(Vision-Language-Action)模型的量产车型。这不仅意味着VLA模型完成从技术研发到量产上车的闭环
    发表于 12-23 16:09 3737次阅读
    全球首车搭载元戎启行<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>,魏牌蓝山智能进阶版重磅上市

    VLA与世界模型有什么不同?

    [首发于智驾最前沿微信公众号]当前自动驾驶行业,各车的技术路径普遍选择了单车智能方向。而在实际落地过程中,不同企业选择了差异化的技术实现方式,部分车侧重于视觉—语言—动作模型(Vision
    的头像 发表于 12-17 09:13 968次阅读
    <b class='flag-5'>VLA</b>与世界<b class='flag-5'>模型</b>有什么不同?

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将
    的头像 发表于 11-25 08:53 702次阅读
    <b class='flag-5'>VLA</b>能解决自动驾驶中的哪些问题?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型(World
    的头像 发表于 11-05 08:55 1002次阅读
    <b class='flag-5'>VLA</b>和世界<b class='flag-5'>模型</b>,谁才是自动驾驶的最优解?

    自动驾驶上常提的VLA与世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最终控制车辆
    的头像 发表于 10-18 10:15 1493次阅读

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 1293次阅读
    基于大规模人类操作数据预训练的<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>H-RDT

    VLA,是完全自动驾驶的必经之路?

    电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾
    的头像 发表于 06-18 00:06 9849次阅读

    元戎启行周光:VLA模型将于2025年第三季度量产

    元戎启行的VLA模型将于2025年第三季度推向消费者市场,并展示了VLA模型的四大功能——空间语义理解、异形障碍物识别、文字类引导牌理解、语音控
    发表于 06-12 09:45 1391次阅读
    元戎启行周光:<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>将于2025年第三季度量产