0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VLA与世界模型,会让自动驾驶汽车走多远?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-09-01 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]在一个雨夜的十字路口,你开车行驶到路中央,前方是一辆犹豫不决的电动车,左侧有一台打着转向灯的出租车,右后方突然闪过一束远光灯。这时候你会怎么做?经验丰富的司机往往会迅速分析,电动车可能突然横穿,出租车大概率要并线,后车逼得太紧不能急刹,最稳妥的办法是先减速,给前后左右都留出余地。看似几秒钟的决定,实际上包含了感知、预测、推理和取舍。

可如果把同样的场景交给自动驾驶呢?传统的系统更多是基于规则和简单预测,它能看见电动车、检测出租车、识别远光灯,却未必能像人类一样“想明白”这些信号背后的意图和逻辑。于是,车子要么显得过度保守停在原地,要么冒进地冲出去,最终都和人类驾驶的直觉一定会有差距。也正因为如此,行业开始追问,能不能让车也拥有“理解和推理”的能力?答案正是近年来兴起的VLA(视觉—语言—动作模型)和世界模型。

其实过去十年,自动驾驶的发展像坐过山车一样起伏。早期技术方案觉得靠感知、预测、规划、控制的模块化体系,把规则写全,把数据堆够,就能让汽车自动开起来。但随着项目规模扩大,越来越多从业者意识到,这套方法天然有天花板。模块化的链条太长,每个环节之间的信息丢失严重,人工接口让系统难以联合优化,即使投入海量人力,也难以覆盖长尾复杂场景。VLA和世界模型的出现,让车子不只是“执行规则”,而是像人一样“理解和推理”。

wKgZPGi09ViAG62WAAAQo00DEvw730.jpg

VLA的逻辑:从“会看”到“会想”

VLA的本质是把自动驾驶从单纯的数据驱动,逐步引向知识驱动。过去的端到端尝试大多直接把图像输入和车辆动作输出绑定在一起,中间缺乏解释能力。而VLA则引入了多模态大模型的优势,把视觉、点云、地图、传感器信息都编码进一个统一的语义空间,再通过语言模型来进行逻辑推理和高层决策。换句话说,它让车不只是会“看”,更会“想”。视觉编码器负责从图像或点云中提取特征,对齐模块把这些特征映射到语言空间,语言模型则像人脑的“推理区”,根据上下文和逻辑得出结论,最后生成器把这种高层意图转换成车辆可以执行的轨迹或动作。可以说,VLA就是把人类驾驶的认知流程,第一次较完整地搬进了机器世界。

wKgZO2i09VmAXikHAABcp8AnFYo585.jpg

VLA模型的总体架构,包含编码器、解码器和输出动作

要让VLA真正工作起来,有三块技术难点是绕不开的。首先是三维特征的表达。车面对的是一个三维世界,二维的图像信息远远不够。近年来被频繁提到的3D Gaussian Splatting技术,正是为了解决这一问题。它用一系列高斯分布来显式表示三维点,不仅比传统的体素网格节省算力,还能达到实时渲染的水平。相比之下,像NeRF那样的隐式场景表示虽然能渲染得极其逼真,但计算量过大,几乎不可能放在车端使用。3D GS在效率和真实感之间找到了平衡,因此被很多团队作为中间特征的候选方案。不过,它也有短板,比如对初始点云的质量非常依赖,这意味着在采集数据阶段就要保证精度,否则渲染结果会受到较大影响。但从整体趋势来看,3D GS已经成为让车能更“立体”地理解世界的重要一步。

wKgZPGi09VmAQ8jGAABh5wSdcOQ600.jpg

3D GS与其余三维重建技术的区别

第二个难点是记忆与长时序推理。驾驶是一项连续任务,不是单帧的反应动作。车需要记住前方几秒钟的交通参与者行为,才能判断对方是要超车、掉头还是直行。然而传统Transformer在处理长序列时开销太大,窗口一旦超过几千步,计算就变得不可承受,同时信息还容易被稀释掉。为了解决这个问题,有技术引入了稀疏注意力和动态记忆模块。稀疏注意力通过只关注关键位置,显著降低了计算复杂度,而动态记忆则像外挂的存储器,把历史中的关键信息提取、保存,在需要时重新调出。这种方式让模型既能处理长时依赖,又不会在车端算力有限的环境下崩溃。像是小米的QT-Former就在长时记忆上做了优化,理想的Mind架构同样在探索类似的思路,说明这已经成了产业界的共识。

wKgZO2i09VqAUPsAAABn39L_ZQY532.jpg

小米QT-Former模型架构

第三个难点是推理效率。车端的算力和功耗都有限,不可能像云端一样无限堆GPU。于是量化、蒸馏、裁剪等传统模型压缩手段,成了落地必备。理想采用GPTQ等后训练量化方法,把大模型缩小到能实时运行的程度,同时探索混合专家模型MOE,通过只激活部分专家的方式来减少开销。这样的架构既能保持大模型的能力,又不会让推理速度拖慢整个系统。智驾最前沿以为,未来车端的大模型必然是“稀疏+量化”的形态,否则在能耗和成本上都不现实。

wKgZPGi09VqATZ75AAAR42n7O-I039.jpg

世界模型:虚拟世界里的试炼场

如果说VLA是车子的“大脑”,那么世界模型就是它的“训练场”。因为现实世界的数据再多,也不可能覆盖所有情况,更不能无限试错。高保真的世界模型能生成各种道路场景,补充长尾数据,还能提供一个低成本、安全的闭环环境,让模型在虚拟世界里反复学习。理想的DriveDreamer4D就是一个典型案例,它能生成新轨迹视频并和真实数据对齐,用来扩展数据集;ReconDreamer则通过渐进式数据更新来减少长距离生成里的假象;OLiDM针对激光雷达数据稀缺的问题,用扩散模型来生成点云。这些名字看起来很学术,但本质上都是在做一件事,用虚拟的方式去还原真实世界的复杂性,让模型提前适应未来可能遇到的情况。

在训练范式上,VLA和世界模型也发生了很多变化。过去大家依赖行为克隆,即让模型模仿人类驾驶,但这种方法在遇到没见过的情况时往往会失效。现在更多采用三阶段闭环,先用行为克隆做起步,保证模型有个基础,再用逆强化学习从专家数据中学习奖励函数,最后通过世界模型里的强化学习不断迭代优化。这种方式让模型不仅会模仿,还能自己探索更优解,逐渐超越人类示范的水平。

wKgZO2i09VuALlHeAAASG3BOmsQ625.jpg

产业视角:车企为何抢跑?

把大语言模型放到自动驾驶里并不是把车变成聊天机器人那么简单。VLA的核心在于“多模态”和“动作生成”,视觉编码器要能把图像、视频、甚至点云编码成对语言友好的中间表示;对齐模块要把这些视觉表示映射到语言空间;语言模型承担长时的推理和决策;解码器则把高层意图细化成车辆可执行的低层动作或者轨迹。其实汽车的任务比较单一,就是开车,场景也相对有规则,道路标线、交通灯、车辆行为都有明确约束。再加上车企自带海量车队和数据收集能力,这使得VLA更容易在车上形成规模效应。这也是为什么国内外厂商纷纷入局的原因。Waymo早期推出了EMMA系统,算是奠定了方向;国内理想正在构建完整的Mind架构,小米在量产车中测试QT-Former,小鹏在尝试端到端引入大模型,华为则在MDC平台上为未来预留了大模型接口。不同公司路线各异,但目标是一致的,让车子具备更强的理解和推理能力。

wKgZPGi09VuAEtCsAABil4raMsE133.jpg

EMMA模型架构

wKgZPGi09VyAV-n6AAASAJELks8832.jpg

写在最后

总的来说,VLA与世界模型的结合,标志着自动驾驶正在经历一次认知层面的升级。它们不仅仅是算法改良,而是范式的转变,从“能看会开”走向“能想会推理”。这条路当然不轻松,三维表征、记忆机制、算力约束和仿真保真度,每一项都是难题。但随着架构逐步成熟、世界模型越来越逼真、闭环训练越发完善,我们有理由相信,未来的自动驾驶不只是冷冰冰的感知与控制机器,而是一个能理解环境、能解释行为、能与人类逻辑对接的“驾驶智能体”。谁能最先把这些技术变成大规模落地的体验,谁就能在下一阶段的竞争中拔得头筹。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Vla
    Vla
    +关注

    关注

    0

    文章

    14

    浏览量

    5880
  • 自动驾驶
    +关注

    关注

    791

    文章

    14669

    浏览量

    176483
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VLA能解决自动驾驶中的哪些问题?

    [首发于智驾最前沿微信公众号]很多从事自动驾驶的小伙伴应该对VLA这个概念已经非常熟悉了。VLA即“Visual-Language-Action”(视觉—语言—动作)模型,它的核心是将
    的头像 发表于 11-25 08:53 177次阅读
    <b class='flag-5'>VLA</b>能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型世界模型的全新自动驾驶技术架构
    的头像 发表于 11-22 10:59 2269次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    自动驾驶汽车如何确定自己的位置和所在车道?

    比人类更多的“感官”和更强的计算能力;复杂则在于,这项工作必须做到精准(米级甚至分米级)、稳定、连续,并且要在各种极端环境下都要可靠。那自动驾驶汽车是如何确定自己的位置和所在车道的?   车辆如何感知世界
    的头像 发表于 11-18 09:03 562次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>如何确定自己的位置和所在车道?

    VLA世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界
    的头像 发表于 11-05 08:55 476次阅读
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    不同等级的自动驾驶技术要求上有何不同?

    谈到自动驾驶,不可避免地涉及到自动驾驶分级,美国汽车工程师学会(SAE)根据自动驾驶系统与人类驾驶
    的头像 发表于 10-18 10:17 2406次阅读

    自动驾驶上常提的VLA世界模型有什么区别?

    自动驾驶中常提的VLA,全称是Vision-Language-Action,直译就是“视觉-语言-动作”。VLA的目标是把相机或传感器看到的画面、能理解和处理自然语言的大模型能力,和最
    的头像 发表于 10-18 10:15 752次阅读

    自动驾驶中常提的世界模型是个啥?

    对外部环境进行抽象和建模的技术,自动驾驶系统在一个简洁的内部“缩影”里,对真实世界进行描述与预测,从而为感知、决策和规划等关键环节提供有力支持。 什么是世界
    的头像 发表于 06-24 08:53 735次阅读
    <b class='flag-5'>自动驾驶</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    VLA,是完全自动驾驶的必经之路?

    芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。   那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。   VLA 和VLM  
    的头像 发表于 06-18 00:06 8686次阅读

    自动驾驶安全基石:ODD

    电子发烧友网综合报道 自动驾驶ODD(Operational Design Domain)即设计运行域,是指自动驾驶系统被设计为安全、有效运行的具体条件范围。它定义了自动驾驶汽车在哪些
    的头像 发表于 05-19 03:52 5793次阅读

    汽车驾驶自动化分级》更适合中国自动驾驶发展吗?

    提供了有效支撑。在很长一段时间,大家对于自动驾驶的等级分类主要是依照由美国汽车工程师学会制定的J3016标准《道路机动车自动驾驶系统相关术语分类和定义》, 其中将自动驾驶分为了L0—L
    的头像 发表于 05-18 09:06 780次阅读
    《<b class='flag-5'>汽车驾驶</b><b class='flag-5'>自动</b>化分级》<b class='flag-5'>会</b>更适合中国<b class='flag-5'>自动驾驶</b>发展吗?

    感知融合如何自动驾驶汽车“看”世界更清晰?

    自动驾驶技术被认为是未来交通领域的革命性变革,其目标是通过技术手段实现安全、高效、便捷的出行体验。而在这一技术体系中,环境感知系统扮演着至关重要的角色,它不仅是自动驾驶车辆理解外部世界的“眼睛
    的头像 发表于 04-27 16:24 639次阅读
    感知融合如何<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>“看”<b class='flag-5'>世界</b>更清晰?

    自动驾驶模型中常提的Token是个啥?对自动驾驶有何影响?

    、多模态传感器数据的实时处理与决策。在这一过程中,大模型以其强大的特征提取、信息融合和预测能力为自动驾驶系统提供了有力支持。而在大模型的中,有一个“Token”的概念,有些人看到后或许
    的头像 发表于 03-28 09:16 972次阅读

    NVIDIA Halos自动驾驶汽车安全系统发布

    NVIDIA 整合了从云端到车端的安全自动驾驶开发技术套件,涵盖车辆架构到 AI 模型,包括芯片、软件、工具和服务。 物理 AI 正在为自动驾驶和机器人开发技术的交叉领域释放新的可能性,尤其是加速了
    的头像 发表于 03-25 14:51 966次阅读

    理想汽车推出全新自动驾驶架构

    2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想
    的头像 发表于 03-19 14:12 903次阅读

    自动驾驶的未来 - 了解如何无缝、可靠地完成驾驶

    汽车行业正在向自动驾驶汽车靠拢,其发展势头越来越强,其目标不仅是驾驶员的生活更简单,而且要消除道路上的碰撞。
    的头像 发表于 01-26 21:52 902次阅读
    <b class='flag-5'>自动驾驶</b>的未来 - 了解如何无缝、可靠地完成<b class='flag-5'>驾驶</b>