0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何构建适合自动驾驶的世界模型?

智驾最前沿 来源:智驾最前沿 作者:智驾最前沿 2026-02-18 08:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

[首发于智驾最前沿微信公众号]世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才提出的。那世界模型是自动驾驶落地的正解吗?

wKgZO2mVBEyAGVAHAAAQo00DEvw332.jpg

什么是世界模型?

世界模型对于自动驾驶汽车来说,更像是给汽车大脑里绘制一张地图,可以将环境的现状和未来可能的演变都表示出来,让自动驾驶系统不只是“看见当下”,还能“想一想接下来可能发生什么”。

简单理解就是,世界模型不仅可以让自动驾驶汽车知道哪里有车道、红绿灯和障碍物,更可以预测这些障碍物的未来变化,这对于确保自动驾驶系统安全,是非常重要的。

世界模型能够将传感器(如摄像头、雷达、激光雷达和车载定位系统等)采集的原始观测数据,转化为一种低维、抽象的“隐状态”(latent state)作为内部表示。

模型学习该隐状态随时间演变的规律(即动力学),并基于此进行预测或规划。世界模型可以是显式的物理模型或概率模型,也可以是基于学习得到的神经网络模型;它不仅可以用于直接回放未来场景(仿真模拟),也可以仅生成下一时刻的概率分布以辅助决策。

wKgZO2mVBE2AV74VAAAR42n7O-I562.jpg

世界模型在自动驾驶中的核心作用

对于自动驾驶系统来说,世界模型可以应用在预测、规划与验证等三个方面。预测是世界模型最直观的用途,传统感知可以把周围物体识别出来并定位,但这只是“静态”信息。

世界模型通过学习交通参与者的行为模式和场景的动力学,能够给出更长时域的、多步的预测。如可以在十几秒的时间尺度上,判断骑着自行车的如是否会靠近路口,或一辆并线的车是否会与本车发生交叉轨迹等。

这样的预测不是简单的匀速延伸,而是包含了对意图、交互和环境约束的理解。

规划需要评估不同动作的后果,选择既安全又舒适的轨迹,是规划的主要目的。世界模型可以依托内置的“模拟环境”,把候选轨迹在模型里“演练”几次,比较它们在未来几秒内的风险和收益。

比起只靠规则或短时预测,这种基于世界模型的规划更能处理如窄路会车、密集并线或不守规则的交通参与者等复杂的多主体交互场景。它还能帮助车辆做出更保守或更激进的策略选择,并把不确定性带进决策中。

训练和验证自动驾驶系统需要大量场景、尤其是罕见或危险场景。真实世界里采集这些场景不仅昂贵而且很危险。

世界模型可以生成高质量的合成场景或作为数字孪生的一部分,用来做大规模的虚拟测试。通过在模型中反复模拟,就可以发现自动驾驶系统在长尾场景下的弱点,避免把危险行为部署到实车。

wKgZO2mVBE2AMU71AAASG3BOmsQ261.jpg

世界模型如何被构建?

要让模型有“想象未来”的能力,一定要喂给它大量合适的数据。自动驾驶的世界模型可以依托摄像头提供丰富的视觉细节,激光雷达给出精确的三维几何信息,毫米波雷达对恶劣天气更鲁棒,车载定位和CAN总线送来车辆自身状态等数据进行学习。

把这些数据融合后,模型要学会抽取有用的表示,这一步叫表示学习。一个好的表示不仅可以保留对决策重要的细节(例如相对速度、可通过空间),还能压缩冗余信息,方便后续预测和规划使用。

表示之后是要进行动力学建模,也就是学习隐状态如何随时间变化。这里有两类主流做法。

一类是基于物理或图模型的显式方法,通过写出规则或物理方程来描述车辆与行人的运动,再把观测通过滤波器或贝叶斯推断与这些模型结合。显式方法好处是可解释、易于验证,但面对复杂的人类行为时往往力不从心。

另一类是端到端学习的方式,使用循环神经网络、变分自编码器或近期流行的时序Transformer来直接学习从过去观测到未来隐状态的映射。学习型方法在复杂交互上更有表现力,但需要大量训练数据和注意不确定性的表达。

但无论采用哪种架构,不确定性建模都非常关键。

世界不是确定的,行人会犹豫、司机会突然变道。把预测做成带概率的形式(例如把未来位置用概率分布表示,或生成若干可能的未来轨迹并给出置信度)能让决策器更稳健。把因果推理或意图推断融入世界模型,不仅可以预测位置,还能推断“为什么会这样”,这对处理前所未有的情况很重要。

wKgZO2mVBE6AC0eNAAASAJELks8717.jpg

实际应用中的几个典型场景

一直都说概念,那世界模型对于自动驾驶的具体应用场景有哪些?可以想象一下,若车辆右侧有一辆停着的货车,货车后面可能有行人准备穿行。

单纯靠感知可能看不到那名行人,但世界模型可以结合道路环境、过往行人出现的位置规律以及路边停放车辆的用途,给出“可能有人从后面出来”的预测,从而促使决策器放慢速度并给出预留空间。

在高速并道时,两辆车互相示意并线的行为充满着博弈意味。世界模型这时候就能观察双方的速度与加速度变化、转向幅度等,估计对方的意图并预测多个可能的并线结果,从而选择一种在时间和空间上更安全的并线策略,或者选择先放慢再并线。

在施工、临时交通指引或其他异常标志的情况下,规则驱动的系统容易出错。世界模型可以把临时的交通锥、施工车与交通参与者的行为模式联系起来,判断这是一个临时改道的道路,并在短时内学习到新的可行策略,而不是盲目遵循过往的规则。

wKgZO2mVBE6ASWmvAAARwcz1hbg131.jpg

最后的话

把世界模型放在自动驾驶的全局来理解,它的核心价值是把现时感知和未来决策连接起来。其不是简单的把感知结果当作事实,而是在内心(模型)里构建一个短期可运行的“虚拟世界”,并在这个虚拟世界里反复试错、评估风险、选择动作。这样做能显著提升系统对复杂交互场景、遮挡、长尾事件的处理能力,也能为离线的大规模验证提供重要工具。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动驾驶
    +关注

    关注

    794

    文章

    14988

    浏览量

    181506
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏发布 X-World 世界模型:已全面应用第二代VLA

    第二代 VLA 自动驾驶系统的研发、仿真与验证,标志着自动驾驶从 路测驱动 迈入 世界模型驱动 的新阶段。 何为 X-World? X-World 是基于视频扩散生成技术
    的头像 发表于 04-14 10:11 5899次阅读

    理想汽车发布下一代自动驾驶基础模型MindVLA-o1

    下一代自动驾驶基础模型MindVLA-o1。MindVLA-o1通过五大技术创新,构建了面向物理世界智能的自动驾驶基础
    的头像 发表于 03-18 11:51 1495次阅读
    理想汽车发布下一代<b class='flag-5'>自动驾驶</b>基础<b class='flag-5'>模型</b>MindVLA-o1

    2026年,3DGS和世界模型,在自动驾驶仿真中的组合应用

    写在前面:作为自动驾驶仿真的核心支撑,3DGS与世界模型的技术落地一直备受关注。我们看到了车路漫漫的一篇文章,探讨了3DGS与世界模型的路线
    的头像 发表于 02-03 17:32 3515次阅读
    2026年,3DGS和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,在<b class='flag-5'>自动驾驶</b>仿真中的组合应用

    Transformer如何让自动驾驶模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4390次阅读

    自动驾驶中常提的模仿学习是什么?

    当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿学习,就是把人类司机在各种路况下的行为做成范例,记录下看到了什么
    的头像 发表于 01-16 16:41 2151次阅读

    黄仁勋:未来十年很多汽车是自动驾驶 英伟达发布Alpamayo汽车大模型平台

    最看好的AI落地场景就是自动驾驶。在演讲中黄仁勋提到,未来十年,世界上很大一部分汽车将是自动驾驶或高度自动驾驶的。你期待吗? 英伟达发布Alpamayo汽车大
    的头像 发表于 01-06 11:45 1420次阅读

    自动驾驶中常提的世界模型是什么?

    在很多厂家的技术方案中,会提到世界模型的介绍。世界模型,就是自动驾驶系统内部用来表示外部世界并预
    的头像 发表于 01-05 16:23 1093次阅读

    世界模型是让自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车
    的头像 发表于 12-16 09:27 1019次阅读
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是让<b class='flag-5'>自动驾驶</b>汽车理解<b class='flag-5'>世界</b>还是预测未来?

    VLA能解决自动驾驶中的哪些问题?

    、语言表达和动作控制这三者整合到一个统一的模型框架中。 与传统自动驾驶系统将感知、预测、规划、控制拆解为多个独立模块的做法不同,VLA可以缩短“看见什么”和“如何行动”之间的鸿沟,构建一个能直接将视觉输入和语言描述映射到具体动作
    的头像 发表于 11-25 08:53 622次阅读
    VLA能解决<b class='flag-5'>自动驾驶</b>中的哪些问题?

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    2024年7月,理想汽车发布的基于端到端模型、VLM视觉语言模型世界模型的全新自动驾驶技术架构标志着其全栈自研的智能
    的头像 发表于 11-22 10:59 2630次阅读
    大<b class='flag-5'>模型</b>中常提的快慢思考会对<b class='flag-5'>自动驾驶</b>产生什么影响?

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小鹏、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界模型
    的头像 发表于 11-05 08:55 937次阅读
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是<b class='flag-5'>自动驾驶</b>的最优解?

    为什么自动驾驶端到端大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,端到端(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶系统中的模块化结构,端到端模型尝试直接从感知输
    的头像 发表于 07-04 16:50 1027次阅读
    为什么<b class='flag-5'>自动驾驶</b>端到端大<b class='flag-5'>模型</b>有黑盒特性?

    自动驾驶中常提的世界模型是个啥?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术的不断成熟,车辆需要在复杂多变的道路环境中安全地行驶,这就要求系统不仅能“看见”周围的世界,还要能“理解”和“推测”未来的变化。世界模型
    的头像 发表于 06-24 08:53 1398次阅读
    <b class='flag-5'>自动驾驶</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是个啥?

    《汽车驾驶自动化分级》会更适合中国自动驾驶发展吗?

    提供了有效支撑。在很长一段时间,大家对于自动驾驶的等级分类主要是依照由美国汽车工程师学会制定的J3016标准《道路机动车自动驾驶系统相关术语分类和定义》, 其中将自动驾驶分为了L0—L5共6个等级。 SAE J3016
    的头像 发表于 05-18 09:06 1099次阅读
    《汽车<b class='flag-5'>驾驶</b><b class='flag-5'>自动</b>化分级》会更<b class='flag-5'>适合</b>中国<b class='flag-5'>自动驾驶</b>发展吗?

    新能源车软件单元测试深度解析:自动驾驶系统视角

    焦点是否落在目标物体上。某自动驾驶公司借此发现模型在夜间过度关注路灯而非行人。 ‌ 实时性保障: ‌时间感知测试框架(TAF)注入时间戳探针,监控函数执行耗时。例如,某路径规划算法因内存泄漏导致响应
    发表于 05-12 15:59