0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VLA与世界模型,会让自动驾驶汽车走多远?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-09-01 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在一个雨夜的十字路口,你开车行驶到路中央,前方是一辆犹豫不决的电动车,左侧有一台打着转向灯的出租车,右后方突然闪过一束远光灯。这时候你会怎么做?经验丰富的司机往往会迅速分析,电动车可能突然横穿,出租车大概率要并线,后车逼得太紧不能急刹,最稳妥的办法是先减速,给前后左右都留出余地。看似几秒钟的决定,实际上包含了感知、预测、推理和取舍。

可如果把同样的场景交给自动驾驶呢?传统的系统更多是基于规则和简单预测,它能看见电动车、检测出租车、识别远光灯,却未必能像人类一样“想明白”这些信号背后的意图和逻辑。于是,车子要么显得过度保守停在原地,要么冒进地冲出去,最终都和人类驾驶的直觉一定会有差距。也正因为如此,行业开始追问,能不能让车也拥有“理解和推理”的能力?答案正是近年来兴起的VLA(视觉—语言—动作模型)和世界模型。

其实过去十年,自动驾驶的发展像坐过山车一样起伏。早期技术方案觉得靠感知、预测、规划、控制的模块化体系,把规则写全,把数据堆够,就能让汽车自动开起来。但随着项目规模扩大,越来越多从业者意识到,这套方法天然有天花板。模块化的链条太长,每个环节之间的信息丢失严重,人工接口让系统难以联合优化,即使投入海量人力,也难以覆盖长尾复杂场景。VLA和世界模型的出现,让车子不只是“执行规则”,而是像人一样“理解和推理”。

wKgZPGi09ViAG62WAAAQo00DEvw730.jpg

VLA的逻辑:从“会看”到“会想”

VLA的本质是把自动驾驶从单纯的数据驱动,逐步引向知识驱动。过去的端到端尝试大多直接把图像输入和车辆动作输出绑定在一起,中间缺乏解释能力。而VLA则引入了多模态大模型的优势,把视觉、点云、地图、传感器信息都编码进一个统一的语义空间,再通过语言模型来进行逻辑推理和高层决策。换句话说,它让车不只是会“看”,更会“想”。视觉编码器负责从图像或点云中提取特征,对齐模块把这些特征映射到语言空间,语言模型则像人脑的“推理区”,根据上下文和逻辑得出结论,最后生成器把这种高层意图转换成车辆可以执行的轨迹或动作。可以说,VLA就是把人类驾驶的认知流程,第一次较完整地搬进了机器世界。

wKgZO2i09VmAXikHAABcp8AnFYo585.jpg

VLA模型的总体架构,包含编码器、解码器和输出动作

要让VLA真正工作起来,有三块技术难点是绕不开的。首先是三维特征的表达。车面对的是一个三维世界,二维的图像信息远远不够。近年来被频繁提到的3D Gaussian Splatting技术,正是为了解决这一问题。它用一系列高斯分布来显式表示三维点,不仅比传统的体素网格节省算力,还能达到实时渲染的水平。相比之下,像NeRF那样的隐式场景表示虽然能渲染得极其逼真,但计算量过大,几乎不可能放在车端使用。3D GS在效率和真实感之间找到了平衡,因此被很多团队作为中间特征的候选方案。不过,它也有短板,比如对初始点云的质量非常依赖,这意味着在采集数据阶段就要保证精度,否则渲染结果会受到较大影响。但从整体趋势来看,3D GS已经成为让车能更“立体”地理解世界的重要一步。

wKgZPGi09VmAQ8jGAABh5wSdcOQ600.jpg

3D GS与其余三维重建技术的区别

第二个难点是记忆与长时序推理。驾驶是一项连续任务,不是单帧的反应动作。车需要记住前方几秒钟的交通参与者行为,才能判断对方是要超车、掉头还是直行。然而传统Transformer在处理长序列时开销太大,窗口一旦超过几千步,计算就变得不可承受,同时信息还容易被稀释掉。为了解决这个问题,有技术引入了稀疏注意力和动态记忆模块。稀疏注意力通过只关注关键位置,显著降低了计算复杂度,而动态记忆则像外挂的存储器,把历史中的关键信息提取、保存,在需要时重新调出。这种方式让模型既能处理长时依赖,又不会在车端算力有限的环境下崩溃。像是小米的QT-Former就在长时记忆上做了优化,理想的Mind架构同样在探索类似的思路,说明这已经成了产业界的共识。

wKgZO2i09VqAUPsAAABn39L_ZQY532.jpg

小米QT-Former模型架构

第三个难点是推理效率。车端的算力和功耗都有限,不可能像云端一样无限堆GPU。于是量化、蒸馏、裁剪等传统模型压缩手段,成了落地必备。理想采用GPTQ等后训练量化方法,把大模型缩小到能实时运行的程度,同时探索混合专家模型MOE,通过只激活部分专家的方式来减少开销。这样的架构既能保持大模型的能力,又不会让推理速度拖慢整个系统。智驾最前沿以为,未来车端的大模型必然是“稀疏+量化”的形态,否则在能耗和成本上都不现实。

wKgZPGi09VqATZ75AAAR42n7O-I039.jpg

世界模型:虚拟世界里的试炼场

如果说VLA是车子的“大脑”,那么世界模型就是它的“训练场”。因为现实世界的数据再多,也不可能覆盖所有情况,更不能无限试错。高保真的世界模型能生成各种道路场景,补充长尾数据,还能提供一个低成本、安全的闭环环境,让模型在虚拟世界里反复学习。理想的DriveDreamer4D就是一个典型案例,它能生成新轨迹视频并和真实数据对齐,用来扩展数据集;ReconDreamer则通过渐进式数据更新来减少长距离生成里的假象;OLiDM针对激光雷达数据稀缺的问题,用扩散模型来生成点云。这些名字看起来很学术,但本质上都是在做一件事,用虚拟的方式去还原真实世界的复杂性,让模型提前适应未来可能遇到的情况。

在训练范式上,VLA和世界模型也发生了很多变化。过去大家依赖行为克隆,即让模型模仿人类驾驶,但这种方法在遇到没见过的情况时往往会失效。现在更多采用三阶段闭环,先用行为克隆做起步,保证模型有个基础,再用逆强化学习从专家数据中学习奖励函数,最后通过世界模型里的强化学习不断迭代优化。这种方式让模型不仅会模仿,还能自己探索更优解,逐渐超越人类示范的水平。

wKgZO2i09VuALlHeAAASG3BOmsQ625.jpg

产业视角:车企为何抢跑?

把大语言模型放到自动驾驶里并不是把车变成聊天机器人那么简单。VLA的核心在于“多模态”和“动作生成”,视觉编码器要能把图像、视频、甚至点云编码成对语言友好的中间表示;对齐模块要把这些视觉表示映射到语言空间;语言模型承担长时的推理和决策;解码器则把高层意图细化成车辆可执行的低层动作或者轨迹。其实汽车的任务比较单一,就是开车,场景也相对有规则,道路标线、交通灯、车辆行为都有明确约束。再加上车企自带海量车队和数据收集能力,这使得VLA更容易在车上形成规模效应。这也是为什么国内外厂商纷纷入局的原因。Waymo早期推出了EMMA系统,算是奠定了方向;国内理想正在构建完整的Mind架构,小米在量产车中测试QT-Former,小鹏在尝试端到端引入大模型,华为则在MDC平台上为未来预留了大模型接口。不同公司路线各异,但目标是一致的,让车子具备更强的理解和推理能力。

wKgZPGi09VuAEtCsAABil4raMsE133.jpg

EMMA模型架构

wKgZPGi09VyAV-n6AAASAJELks8832.jpg

写在最后

总的来说,VLA与世界模型的结合,标志着自动驾驶正在经历一次认知层面的升级。它们不仅仅是算法改良,而是范式的转变,从“能看会开”走向“能想会推理”。这条路当然不轻松,三维表征、记忆机制、算力约束和仿真保真度,每一项都是难题。但随着架构逐步成熟、世界模型越来越逼真、闭环训练越发完善,我们有理由相信,未来的自动驾驶不只是冷冰冰的感知与控制机器,而是一个能理解环境、能解释行为、能与人类逻辑对接的“驾驶智能体”。谁能最先把这些技术变成大规模落地的体验,谁就能在下一阶段的竞争中拔得头筹。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    22

    浏览量

    5915
  • 自动驾驶
    +关注

    关注

    794

    文章

    14986

    浏览量

    181466
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    电子发烧友网综合报道 近日,小鹏汽车正式发布 X-World 生成式世界模型技术报告,并同步公开 arXiv 技术论文,这是业内面向端到端自动驾驶、可工程化落地的多摄像头可控
    的头像 发表于 04-14 10:11 5868次阅读

    理想汽车发布下一代自动驾驶基础模型MindVLA-o1

    下一代自动驾驶基础模型MindVLA-o1。MindVLA-o1通过五大技术创新,构建了面向物理世界智能的自动驾驶基础模型
    的头像 发表于 03-18 11:51 1492次阅读
    理想<b class='flag-5'>汽车</b>发布下一代<b class='flag-5'>自动驾驶</b>基础<b class='flag-5'>模型</b>MindVLA-o1

    如何构建适合自动驾驶世界模型

    提出的。那世界模型自动驾驶落地的正解吗? 什么是世界模型世界
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合<b class='flag-5'>自动驾驶</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    已有VLM,自动驾驶为什么还要探索VLA?

    时(长尾场景),因规则覆盖不足而表现僵化。 随着大语言模型和视觉语言模型(VLM)的爆发,开发者们意识到,如果车辆能像人类一样拥有常识,理解什么是“潮汐车道”,知道“救护车在后方鸣笛需要避让”,那么
    的头像 发表于 02-03 09:04 345次阅读
    已有VLM,<b class='flag-5'>自动驾驶</b>为什么还要探索<b class='flag-5'>VLA</b>?

    强化学习自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶模型训练时,有的技术方案采用模仿学习,而有些采用强化学习。同样作为大模型的训练方式,强化学
    的头像 发表于 01-31 09:34 828次阅读
    强化学习<b class='flag-5'>会</b><b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>模型</b>学习更快吗?

    黄仁勋:未来十年很多汽车自动驾驶 英伟达发布Alpamayo汽车模型平台

    最看好的AI落地场景就是自动驾驶。在演讲中黄仁勋提到,未来十年,世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。你期待吗? 英伟达发布Al
    的头像 发表于 01-06 11:45 1412次阅读

    自动驾驶中常提的世界模型是什么?

    在很多厂家的技术方案中,提到世界模型的介绍。世界模型,就是自动驾驶系统内部用来表示外部
    的头像 发表于 01-05 16:23 1088次阅读

    VLA世界模型有什么不同?

    [首发于智驾最前沿微信公众号]当前自动驾驶行业,各车企的技术路径普遍选择了单车智能方向。而在实际落地过程中,不同企业选择了差异化的技术实现方式,部分车企侧重于视觉—语言—动作模型(Vision
    的头像 发表于 12-17 09:13 864次阅读
    <b class='flag-5'>VLA</b>与<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是
    的头像 发表于 12-16 09:27 1018次阅读
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>理解<b class='flag-5'>世界</b>还是预测未来?

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将
    的头像 发表于 11-25 08:53 619次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型世界模型的全新自动驾驶技术架构
    的头像 发表于 11-22 10:59 2630次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    VLA世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界
    的头像 发表于 11-05 08:55 933次阅读
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶上常提的VLA世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最
    的头像 发表于 10-18 10:15 1397次阅读

    自动驾驶中常提的世界模型是个啥?

    对外部环境进行抽象和建模的技术,自动驾驶系统在一个简洁的内部“缩影”里,对真实世界进行描述与预测,从而为感知、决策和规划等关键环节提供有力支持。 什么是世界
    的头像 发表于 06-24 08:53 1386次阅读
    <b class='flag-5'>自动驾驶</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    VLA,是完全自动驾驶的必经之路?

    芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。   那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。   VLA 和VLM  
    的头像 发表于 06-18 00:06 9738次阅读