[首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车得以理解世界,还是为其提供了预测未来的视角?

世界模型到底做了什么?
世界模型,其实是一个“内部表征+动态预测”的组合。简单理解,世界模型就是将感知到的东西(图像、点云、雷达、文本、动作历史)压缩成一套内部状态,然后用这套内部状态去生成、预测接下来可能出现的场景或观察。

图片源自:网络
想要实现“内部表征+动态预测”,有两个关键的技术不得不去讨论,一个是“表示”(representation),也就是把复杂的外界信息提炼成对后续推断和决策有用的结构;还有一个是“生成/预测”(generative/predictive),即基于表示去推演、采样、评估未来可能发生的序列。
早期很多研究发现,如果智能体每一步都只根据当前看到的画面直接“做反应”,其实跟条件反射差不多,缺少前瞻性。一旦场景稍微复杂,或者需要权衡几步之后的结果,这种做法就很容易失误。于是“世界模型”这个概念就被引入到强化学习中,也就是先让系统学会一个简化但可信的“世界运行方式”,也就是学清楚在某个状态下采取什么动作,环境大概率会往哪个方向发展。等这个模型学成了,策略就不再只盯着眼前这一刻,而是可以在这个“内部世界”里提前试着走几步,看看不同选择大概会带来什么后果,再决定现实中该怎么做。
这种做法的变化点在于,系统不再是“看见什么就立刻反应什么”,而是先在内部做一轮模拟和推演,再输出动作。也正因为多了这一步“提前想一想”的动作,智能体的行为便倾向于在做规划,而不是条件反射式的响应。
这也回答了为什么有人说世界模型是在“理解世界”,如果“理解”被定义为能在内部构建一个能解释因果、能预测后果、并能据此做出合理选择的表征,那么世界模型确实是一种机器理解。相对地,如果你把“理解”定义为拥有像人类一样的主观体验、常识推理和高层抽象的概念,那世界模型还远未到那一步。
其实世界模型更准确的定位应该是一种能替代部分理解功能的机器表征与预测机制,它做的是有用的理解,而不是类似人类的全方位主观理解。世界模型的更像是让大模型在内部试跑未来,再用模拟得到的后果指导现实中的行动。

世界模型的三要素
将世界模型拆开剖析,其可以分为3部分,第1个是表征(representation),第2个是动力学/生成模型(dynamics/generative),第3个是利用这些能力来支持决策(planning/control)。
这三者不是独立模块简单拼凑,而是互相辅助,好的表征可以让预测更稳健,可靠的预测能让规划更安全,而规划过程也能反过来推动表征和预测的改进(例如通过闭环数据收集)。这种闭环被视为世界模型范式的核心,即大模型学习一个可用来想象未来的内部世界,然后在想象中训练和评估动作。
表征通常会把高维观测映射到一个低维或离散的潜在空间,这个潜在空间既要压缩信息,也要保留那些对未来预测和决策至关重要的结构(比如物体的速度、相对位置、可碰撞性、路面属性等)。
生成/动力学模块则在这个潜在空间上学习时间演化规则,给定当前潜在状态和动作,预测下一步潜在状态或直接生成下一帧观测。一旦这套机制可用,就能在内部做轨迹采样、比较不同动作序列的后果,进而选择一个看起来更安全、更高收益的动作。这种“先想后做”的模式,正是世界模型在机器人和自动控制里被看好的核心原因。
当然,世界模型并不是生成像素级的逼真画面,而是在某种抽象层面上保留因果和可操作的信息。换言之,对于世界模型来说,能不能预测未来的高层结构(哪个物体会碰到哪个物体,速度会如何变化,行人的意图是不是要横穿马路)比单纯把画面渲染得漂亮更重要。这也是为什么有些工作不做原始像素的逐帧生成,而是去预测四维占据(4Doccupancy)、几何表示、BEV(bird-eyeview)轨迹或更紧凑的行为意图。

世界模型到底是在“理解”还是“预测”?
如果非要在“理解世界”与“预测未来”之间选一项作为世界模型的本质,智驾最前沿以为,世界模型本质上是为了预测而构建的表征系统,但这种预测是为决策服务的,因此它等同于一种可操作的理解。也就是说,世界模型通过预测未来(短期或中期)的能力来体现对世界的理解,但这种理解是功能性的、以行为为导向的,而不是哲学意义上的知道世界为什么存在的那种理解。
其实对于世界模型来说,预测是手段不是目的,世界模型的最终目的是改善决策效果,而预测未来只是实现该目的的方式。“理解”对于世界模型也只是一种可操作的形式,它不是词典式的定义或人文式的领悟,而是把有用的因果、动力学、约束编码进模型,使模型在遇到新情况时能推测后果并选择更优行动。此外,世界模型的理解也只是一个工程目标,其能否把预测变成安全的、鲁棒的决策依据,比其能不能进行人类化的理解更关键,也更实际。

对自动驾驶的影响
在传统自动驾驶系统里,感知负责识别和定位,预测负责给出轨迹或意图的分布,决策/规划再根据这些输入做路径选择。引入世界模型后,系统可以在内部模拟各种动作序列和外界响应,评估不同策略在模拟未来中的长期效果,使自动驾驶系统不再只依赖短期轨迹预测。这意味着系统能在更长时间尺度上权衡风险和收益,而不是根据每一帧的数据做短期判断。
世界模型也为自动驾驶提供了一项关键技术方案,在模拟环境里,世界模型可批量生成极端情况,用于训练和验证,减少了现实路测需要费时费力且非常危险的问题。如自动驾驶大模型GAIA-1就利用视频、文本和动作的联合建模,合成了多样的驾驶场景,用于训练更鲁棒的策略。当然,这一方案需要注意合成场景必须高质量并且覆盖真实分布的关键薄弱点,否则训练出来的策略在真实世界中将无法使用。因此对于自动驾驶来说,世界模型是一种强补充手段,而不是完全替代真实路测的工具。
世界模型可以给自动驾驶带来前瞻性的预测,但这种前瞻性并非无误。自动驾驶系统在依赖世界模型做决策时,必须有明确的不确定性度量与回退策略,在模型信心不足或预测分布过于分散时,系统应退回更保守的控制策略或请求人工干预。

世界模型如何处理长尾问题?
对于自动驾驶来说,真实交通环境是非常复杂的,无论是对于哪种模型来说,想在学习阶段就搜集所有的数据是完全不可能的。那世界模型是如何处理这一问题的?
世界模型会先用真实数据学习表征和基本动力学,再用生成式或模拟方法扩展到稀有场景。近年来就有一些生成式世界模型(例如把视频、动作、文本联合建模的那类)用无监督或自监督手段来学习高层结构,然后用这些模型合成数据来训练策略或进行安全测试。
这种方式的好处是能在模拟中“压缩”长尾风险的出现频率,加速策略在极端情况的鲁棒性提升;其坏处就是合成分布和现实分布的差异可能引入偏差或假象,导致训练结果与现实有偏差。
很多技术方案中会用不同模态(视觉、雷达、激光、地图)融合进表征,用基于潜在变量的生成模型或基于JEPA的预测架构来学习时间一致性的表示,再用规划器或强化学习算法在潜在空间里做闭环训练。
这样做的目的是减小原始观测维度的噪声影响,把决策问题放在更稳定的抽象层上。最新的一些技术甚至把世界模型做成离散token序列的形式,把预测问题变为序列生成问题,借助大规模序列模型的力量来提升长时序的稳定性。
无论是哪种技术路线,其核心都是用内部模型来替代部分真实交互,以节省成本并提升安全性。

最后的话
回到最开始的问题,世界模型是理解世界还是预测未来?答案是二者兼有。世界模型通过学习内部表征来提高对未来的预测能力,而这些预测主要是为决策和行动服务的。
世界模型通过提供一个可理解、可推理的世界表征,赋予了自动驾驶系统预测未来的能力。理解是预测的基础,预测是理解的延伸与应用。二者紧密耦合,让自动驾驶从“感知-反应”模式,进化到“理解-推演-决策”的更高层次,这正是其技术变革性的关键所在。
审核编辑 黄宇
-
自动驾驶汽车
+关注
关注
4文章
383浏览量
41944
发布评论请先 登录
自动驾驶汽车如何确定自己的位置和所在车道?
VLA和世界模型,谁才是自动驾驶的最优解?
自动驾驶汽车如何处理“鬼探头”式的边缘场景?
自动驾驶是为了“增强人”,还是为了“替代人”?
自动驾驶中常提的世界模型是个啥?
感知融合如何让自动驾驶汽车“看”世界更清晰?
自动驾驶大模型中常提的Token是个啥?对自动驾驶有何影响?
FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......
NVIDIA Cosmos世界基础模型平台的主要功能

世界模型是让自动驾驶汽车理解世界还是预测未来?
评论