0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

世界模型是让自动驾驶汽车理解世界还是预测未来?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2025-12-16 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?

wKgZPGlAtYiAf3xYAAAQo00DEvw958.jpg

世界模型到底做了什么?

世界模型,其实是一个“内部表征+动态预测”的组合。简单理解,世界模型就是将感知到的东西(图像、点云、雷达、文本、动作历史)压缩成一套内部状态,然后用这套内部状态去生成、预测接下来可能出现的场景或观察。

wKgZO2lAtYmAS7HXACdE4BnKVEM069.jpg

图片源自:网络

想要实现“内部表征+动态预测”,有两个关键的技术不得不去讨论,一个是“表示”(representation),也就是把复杂的外界信息提炼成对后续推断和决策有用的结构;还有一个是“生成/预测”(generative/predictive),即基于表示去推演、采样、评估未来可能发生的序列。

早期很多研究发现,如果智能体每一步都只根据当前看到的画面直接“做反应”,其实跟条件反射差不多,缺少前瞻性。一旦场景稍微复杂,或者需要权衡几步之后的结果,这种做法就很容易失误。于是“世界模型”这个概念就被引入到强化学习中,也就是先让系统学会一个简化但可信的“世界运行方式”,也就是学清楚在某个状态下采取什么动作,环境大概率会往哪个方向发展。等这个模型学成了,策略就不再只盯着眼前这一刻,而是可以在这个“内部世界”里提前试着走几步,看看不同选择大概会带来什么后果,再决定现实中该怎么做。

这种做法的变化点在于,系统不再是“看见什么就立刻反应什么”,而是先在内部做一轮模拟和推演,再输出动作。也正因为多了这一步“提前想一想”的动作,智能体的行为便倾向于在做规划,而不是条件反射式的响应。

这也回答了为什么有人说世界模型是在“理解世界”,如果“理解”被定义为能在内部构建一个能解释因果、能预测后果、并能据此做出合理选择的表征,那么世界模型确实是一种机器理解。相对地,如果你把“理解”定义为拥有像人类一样的主观体验、常识推理和高层抽象的概念,那世界模型还远未到那一步。

其实世界模型更准确的定位应该是一种能替代部分理解功能的机器表征与预测机制,它做的是有用的理解,而不是类似人类的全方位主观理解。世界模型的更像是让大模型在内部试跑未来,再用模拟得到的后果指导现实中的行动。

wKgZPGlAtYqAObvHAAAR42n7O-I294.jpg

世界模型的三要素

将世界模型拆开剖析,其可以分为3部分,第1个是表征(representation),第2个是动力学/生成模型(dynamics/generative),第3个是利用这些能力来支持决策(planning/control)。

这三者不是独立模块简单拼凑,而是互相辅助,好的表征可以让预测更稳健,可靠的预测能让规划更安全,而规划过程也能反过来推动表征和预测的改进(例如通过闭环数据收集)。这种闭环被视为世界模型范式的核心,即大模型学习一个可用来想象未来的内部世界,然后在想象中训练和评估动作。

表征通常会把高维观测映射到一个低维或离散的潜在空间,这个潜在空间既要压缩信息,也要保留那些对未来预测和决策至关重要的结构(比如物体的速度、相对位置、可碰撞性、路面属性等)。

生成/动力学模块则在这个潜在空间上学习时间演化规则,给定当前潜在状态和动作,预测下一步潜在状态或直接生成下一帧观测。一旦这套机制可用,就能在内部做轨迹采样、比较不同动作序列的后果,进而选择一个看起来更安全、更高收益的动作。这种“先想后做”的模式,正是世界模型在机器人和自动控制里被看好的核心原因。

当然,世界模型并不是生成像素级的逼真画面,而是在某种抽象层面上保留因果和可操作的信息。换言之,对于世界模型来说,能不能预测未来的高层结构(哪个物体会碰到哪个物体,速度会如何变化,行人的意图是不是要横穿马路)比单纯把画面渲染得漂亮更重要。这也是为什么有些工作不做原始像素的逐帧生成,而是去预测四维占据(4Doccupancy)、几何表示、BEV(bird-eyeview)轨迹或更紧凑的行为意图。

wKgZPGlAtYuANgMAAAASG3BOmsQ632.jpg

世界模型到底是在“理解”还是“预测”?

如果非要在“理解世界”与“预测未来”之间选一项作为世界模型的本质,智驾最前沿以为,世界模型本质上是为了预测而构建的表征系统,但这种预测是为决策服务的,因此它等同于一种可操作的理解。也就是说,世界模型通过预测未来(短期或中期)的能力来体现对世界的理解,但这种理解是功能性的、以行为为导向的,而不是哲学意义上的知道世界为什么存在的那种理解。

其实对于世界模型来说,预测是手段不是目的,世界模型的最终目的是改善决策效果,而预测未来只是实现该目的的方式。“理解”对于世界模型也只是一种可操作的形式,它不是词典式的定义或人文式的领悟,而是把有用的因果、动力学、约束编码进模型,使模型在遇到新情况时能推测后果并选择更优行动。此外,世界模型的理解也只是一个工程目标,其能否把预测变成安全的、鲁棒的决策依据,比其能不能进行人类化的理解更关键,也更实际。

wKgZO2lAtZCAMi37AAASAJELks8234.jpg

对自动驾驶的影响

在传统自动驾驶系统里,感知负责识别和定位,预测负责给出轨迹或意图的分布,决策/规划再根据这些输入做路径选择。引入世界模型后,系统可以在内部模拟各种动作序列和外界响应,评估不同策略在模拟未来中的长期效果,使自动驾驶系统不再只依赖短期轨迹预测。这意味着系统能在更长时间尺度上权衡风险和收益,而不是根据每一帧的数据做短期判断。

世界模型也为自动驾驶提供了一项关键技术方案,在模拟环境里,世界模型可批量生成极端情况,用于训练和验证,减少了现实路测需要费时费力且非常危险的问题。如自动驾驶大模型GAIA-1就利用视频、文本和动作的联合建模,合成了多样的驾驶场景,用于训练更鲁棒的策略。当然,这一方案需要注意合成场景必须高质量并且覆盖真实分布的关键薄弱点,否则训练出来的策略在真实世界中将无法使用。因此对于自动驾驶来说,世界模型是一种强补充手段,而不是完全替代真实路测的工具。

世界模型可以给自动驾驶带来前瞻性的预测,但这种前瞻性并非无误。自动驾驶系统在依赖世界模型做决策时,必须有明确的不确定性度量与回退策略,在模型信心不足或预测分布过于分散时,系统应退回更保守的控制策略或请求人工干预。

wKgZO2lAtZGAIh1ZAAARwcz1hbg686.jpg

世界模型如何处理长尾问题?

对于自动驾驶来说,真实交通环境是非常复杂的,无论是对于哪种模型来说,想在学习阶段就搜集所有的数据是完全不可能的。那世界模型是如何处理这一问题的?

世界模型会先用真实数据学习表征和基本动力学,再用生成式或模拟方法扩展到稀有场景。近年来就有一些生成式世界模型(例如把视频、动作、文本联合建模的那类)用无监督或自监督手段来学习高层结构,然后用这些模型合成数据来训练策略或进行安全测试。

这种方式的好处是能在模拟中“压缩”长尾风险的出现频率,加速策略在极端情况的鲁棒性提升;其坏处就是合成分布和现实分布的差异可能引入偏差或假象,导致训练结果与现实有偏差。

很多技术方案中会用不同模态(视觉、雷达、激光、地图)融合进表征,用基于潜在变量的生成模型或基于JEPA的预测架构来学习时间一致性的表示,再用规划器或强化学习算法在潜在空间里做闭环训练。

这样做的目的是减小原始观测维度的噪声影响,把决策问题放在更稳定的抽象层上。最新的一些技术甚至把世界模型做成离散token序列的形式,把预测问题变为序列生成问题,借助大规模序列模型的力量来提升长时序的稳定性。

无论是哪种技术路线,其核心都是用内部模型来替代部分真实交互,以节省成本并提升安全性。

wKgZO2lAtZKAf_g4AAATCLDSk7w645.jpg

最后的话

回到最开始的问题,世界模型是理解世界还是预测未来?答案是二者兼有。世界模型通过学习内部表征来提高对未来的预测能力,而这些预测主要是为决策和行动服务的。

世界模型通过提供一个可理解、可推理的世界表征,赋予了自动驾驶系统预测未来的能力。理解是预测的基础,预测是理解的延伸与应用。二者紧密耦合,让自动驾驶从“感知-反应”模式,进化到“理解-推演-决策”的更高层次,这正是其技术变革性的关键所在。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型世界模型的全新自动驾驶技术架构
    的头像 发表于 11-22 10:59 2301次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    自动驾驶汽车如何确定自己的位置和所在车道?

    比人类更多的“感官”和更强的计算能力;复杂则在于,这项工作必须做到精准(米级甚至分米级)、稳定、连续,并且要在各种极端环境下都要可靠。那自动驾驶汽车是如何确定自己的位置和所在车道的?   车辆如何感知世界
    的头像 发表于 11-18 09:03 613次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>如何确定自己的位置和所在车道?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型
    的头像 发表于 11-05 08:55 501次阅读
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    自动驾驶汽车如何处理“鬼探头”式的边缘场景?

    [首发于智驾最前沿微信公众号]自动驾驶遇到“鬼探头”式的边缘场景时应该如何处理?其实对于自动驾驶汽车来说,无论是常规场景,还是边缘场景,它都是要先看见、再
    的头像 发表于 08-29 11:11 560次阅读
    <b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>如何处理“鬼探头”式的边缘场景?

    自动驾驶是为了“增强人”,还是为了“替代人”?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的日益成熟,人们对它的定位也在不断演进,究竟是要打造一个能为驾驶者提供更佳体验的“智能副驾”,还是完全替代人类驾驶员,
    的头像 发表于 06-25 11:07 505次阅读

    自动驾驶中常提的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。
    的头像 发表于 06-24 08:53 811次阅读
    <b class='flag-5'>自动驾驶</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    感知融合如何自动驾驶汽车“看”世界更清晰?

    自动驾驶技术被认为是未来交通领域的革命性变革,其目标是通过技术手段实现安全、高效、便捷的出行体验。而在这一技术体系中,环境感知系统扮演着至关重要的角色,它不仅是自动驾驶车辆理解外部
    的头像 发表于 04-27 16:24 670次阅读
    感知融合如何<b class='flag-5'>让</b><b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>“看”<b class='flag-5'>世界</b>更清晰?

    NVIDIA Cosmos加速机器人和自动驾驶汽车物理AI发展

    NVIDIA Cosmos 通过可预测未来世界状态的世界基础模型加速物理 AI 的发展。
    的头像 发表于 04-24 11:01 960次阅读
    NVIDIA Cosmos加速机器人和<b class='flag-5'>自动驾驶</b><b class='flag-5'>汽车</b>物理AI发展

    自动驾驶模型中常提的Token是个啥?对自动驾驶有何影响?

    近年来,人工智能技术迅速发展,大规模深度学习模型(即大模型)在自然语言处理、计算机视觉、语音识别以及自动驾驶等多个领域取得了突破性进展。自动驾驶作为
    的头像 发表于 03-28 09:16 1007次阅读

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ”“大模型圈的大黑马”“硅谷震惊了”“来自中国的学霸级AI”…… 从智能手机到自动驾驶,从数据中心到物联网,FPGA 正悄然改变着我们的生活。未来,FPGA 又将如何塑造世界?Dee
    发表于 03-03 11:21

    自动驾驶未来 - 了解如何无缝、可靠地完成驾驶

    汽车行业正在向自动驾驶汽车靠拢,其发展势头越来越强,其目标不仅是驾驶员的生活更简单,而且要消除道路上的碰撞。
    的头像 发表于 01-26 21:52 931次阅读
    <b class='flag-5'>自动驾驶</b>的<b class='flag-5'>未来</b> - 了解如何无缝、可靠地完成<b class='flag-5'>驾驶</b>

    NVIDIA Cosmos世界基础模型平台的主要功能

    随着机器人技术和自动驾驶汽车的发展,加快物理 AI 的开发工作变得至关重要。物理 AI 使自主机器能够感知、理解并执行物理世界中的复杂操作,而这些系统的核心是
    的头像 发表于 01-15 11:03 1481次阅读
    NVIDIA Cosmos<b class='flag-5'>世界</b>基础<b class='flag-5'>模型</b>平台的主要功能

    华为、理想、特斯拉、商汤的世界模型是做什么用的

    上的可视化数据,再用这些视频训练传统或端到端的自动驾驶模型,几乎没有人研究直接用世界模型自动驾驶的。即便是视频生成,也
    的头像 发表于 01-14 09:27 1815次阅读
    华为、理想、特斯拉、商汤的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    英伟达发布Cosmos世界基础模型

    自动驾驶汽车、机器人等物理AI系统的开发进程。 Cosmos平台的核心在于其强大的生成世界基础模型,这一模型能够模拟和
    的头像 发表于 01-09 10:23 953次阅读

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和机器人等物理 AI
    的头像 发表于 01-08 10:39 1058次阅读