0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小鹏汽车正式发布世界模型X-World技术报告

小鹏汽车 来源:小鹏汽车 2026-04-02 10:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,小鹏汽车正式发布世界模型X-World技术报告,从数据、模型、训练、验证及应用等多层面详解X-World的构建与使用。

X-World是一个基于视频扩散生成技术(Video Diffusion)构建的、服务于自动驾驶的可控多视角生成式世界模型,具备多视角下即时响应与持续生成的能力。

技术报告还展示了X-World在小鹏汽车自动驾驶中的实际应用价值,该模型已投入到闭环仿真测试、在线强化学习、数据生成等实际生产环节。

在近期向用户陆续推送的第二代VLA的研发与验证过程中,X-World 也已被大量用于环境仿真与模型评估。

自动驾驶系统的评估主要依赖真实道路测试与仿真测试。其中,仿真测试具备成本更低、效率更高、场景覆盖更广、可重复验证等优势。传统仿真评估大量采用基于 3D 高斯溅射(3DGS)的技术路线,这类方法能够在一定程度上复现真实场景,但当自动驾驶模型产生大幅变道、绕行等明显偏离原始采集轨迹的行为时,这种方法往往难以对超出既有重建范围的后续场景进行有效生成与评估。因此,行业内仍高度依赖实车道路测试,而这种方式存在着成本高、场景覆盖有限、难以复现指定情况等问题。

为了解决这些瓶颈,小鹏生成世界模型团队试图构建一个“现实世界模拟器”,让它能够在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。在这一背景下,X-World应运而生,通过输入多摄像头的历史视频流和待执行的驾驶动作(或动作序列),便可生成对应的未来多摄像头视频流。X-World可以被视为一个会“思考”驾驶场景的物理AI系统,它能够根据当前的路况和驾驶操作,想象出数秒后路况的变化。

架构层面,X-World 基于当前领先的视频生成模型 WAN 2.2 构建,沿用其潜空间视频生成范式,将视频VAE与基于DiT的潜空间去噪器相结合。底层采用高压缩比 3D 因果自编码器(VAE),大幅降低计算与内存开销,支持长时序视频建模,从而更好地捕捉丰富的时空依赖关系,同时降低延迟、加快推理速度。模型骨干为定制化的DiT骨干网络,通过视角-时间自注意力机制,实现时间维度和视角维度的联合建模,从而确保7路摄像头视角间的一致性。X-World 还提供了一套全面的条件控制接口,包括自车动作、动态交通参与者、静态道路元素(如车道线、道路边界)、摄像头内外参,可对驾驶场景的生成过程进行细粒度调控。这些设计共同实现了多输入条件下的可控多视角生成。

742d33f8-2cfe-11f1-90a1-92fbcf53809c.png

X-World 模型(框架如上图所示)

在本篇技术报告中,小鹏团队围绕X-World实际落地过程中遇到的技术难点做了分享,核心在于如何实现跨视角3D一致性、多条件受控生成准确、长时序画面生成。除了模型架构上的新颖尝试,在训练层面,团队采用了两个阶段的训练方式:

第一阶段,将一个大型预训练视频生成模型,改造为完全可控的多摄像头世界模型。

第二阶段,通过“分块因果架构”和“少步自强制学习”,结合滚动键值缓存,将模型转换为流式自回归模拟器。

与传统的双向视频扩散模型不同,X-World 采用流式自回归的方式运行,可以逐步生成未来视频画面以进行实时交互,这一设计使得模型能够天然适用于闭环场景,既可为端到端策略的可扩展评估提供支撑,也可应用于在线强化学习训练。

实验结果显示,X-World实现了高质量的多视角视频生成。总体而言,它具备以下三大核心优势:

实现了较强的跨视角一致性,确保各摄像头间(7路环视摄像头)的几何信息与目标特征一致;

严格的动作跟随性,生成的未来画面与指令要求的自车行为高度匹配;

具备长视频推演能力,可在较长的时间跨度内实现稳定的预测。上述特性让生成式世界模型更接近实用的 “现实世界仿真器” 形态,能够为VLA自动驾驶系统提供可复现的基准测试、可扩展的回归测试与交互式学习支撑。

在具体的应用场景上,X-World不仅仅是一个视频生成模型,更是一个高保真、交互式、可控的底层基础平台,服务于小鹏汽车第二代VLA的开发与验证。目前,X-World已经在小鹏汽车自动驾驶的闭环仿真测试、在线强化学习、数据生成等环节起到支撑作用。

依托X-World,小鹏构建面向第二代VLA的闭环评估引擎。区别于传统的基于3D重建的技术路线,X-World可进行交互式推演,并支持对安全关键指标进行评估。例如,在 X-World 中运行第二代VLA,可在高度贴近真实世界视觉分布的虚拟环境中,评估碰撞率、目标达成进度、乘坐舒适性等性能指标。目前,小鹏自动驾驶仿真场景从一年前的3万增加到50多万个,每日仿真测试里程等效于3000万公里实车测试。

X-World可充当在线强化学习的仿真平台。可利用X-World的可控性,针对自动驾驶中的难点场景进行专项优化,例如重点优化模型在路口遭遇行人“鬼探头”、 拥堵路段变道犹豫等场景的表现。

X-World可实现大规模数据生成与增强。X-World作为生成式数据工厂,既可以生成缺失的长尾场景数据,提升第二代VLA应对长尾场景(Corner Case)的能力,也能生成海外数据用于模型训练,加速小鹏自动驾驶全球化落地进程。

操作控制演示

支持指令控制画面。

例如输入"左转"、"加速"。

多车场景控制

支持控制画面中其他车辆的行为。

例如让它们加速、减速、变道。

长距离预测

支持连续生成几十秒的画面,

且画面始终保持稳定和连贯。

风格变换

支持改变天气和时间。

例如"雨天"、"黑夜"、"德国的街道"

3月19日起,小鹏第二代VLA面向用户陆续推送。从前沿技术探索到工程化落地,小鹏汽车持续以先进科技与强大技术实力,为用户带来全场景、更安心和高效的智驾体验,让更安全、更智能的自动驾驶普及到每一条道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181352
  • 小鹏汽车
    +关注

    关注

    4

    文章

    648

    浏览量

    16836

原文标题:小鹏首发世界模型技术报告,已应用于第二代VLA模型的研发验证

文章出处:【微信号:XPENGMOTORS,微信公众号:小鹏汽车】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发布 X-World 世界模型:已全面应用第二代VLA

    电子发烧友网综合报道 近日,小汽车正式发布 X-World 生成式世界模型
    的头像 发表于 04-14 10:11 5781次阅读

    小马智行发布PonyWorld世界模型2.0

    4月10日,小马智行正式发布其在物理AI领域的最新技术成果——PonyWorld世界模型2.0。
    的头像 发表于 04-10 17:21 1083次阅读

    如何构建适合自动驾驶的世界模型

    [首发于智驾最前沿微信公众号]世界模型经历了系统动力学阶段(1960年~2000年)、认知科学阶段(2001年~2017年)、深度学习阶段(2018年至今),但将其应用到自动驾驶汽车上,还是近几年才
    的头像 发表于 02-18 08:14 1.1w次阅读
    如何构建适合自动驾驶的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    中航光电荣获小汽车2025年度品质保障奖

    12月16日,以“新起点,新征程”为主题的2026年小汽车全球合作伙伴大会在广州隆重召开。中航光电凭借卓越的产品品质、稳定可靠的供货保障及持续迭代的技术创新能力,荣获小
    的头像 发表于 12-18 18:06 1357次阅读

    VLA与世界模型有什么不同?

    Language Action,VLA),另一些则致力于构建并应用世界模型World Model)。这两种路径有什么不同? 什么是VLA,什么是世界
    的头像 发表于 12-17 09:13 854次阅读
    VLA与<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型是让自动驾驶汽车理解世界还是预测未来?

      [首发于智驾最前沿微信公众号]世界模型在自动驾驶技术中已有广泛应用。但当谈及它对自动驾驶的作用时,难免会出现分歧。它到底是让自动驾驶汽车得以理解
    的头像 发表于 12-16 09:27 1008次阅读
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是让自动驾驶<b class='flag-5'>汽车</b>理解<b class='flag-5'>世界</b>还是预测未来?

    汽车迎来第100万台整车正式下线

    11月21日,小汽车迎来第100万台整车正式下线。小汽车在广州工厂举行了第100万台下线暨首批X9超级增程车主交付,数百家海内外媒体和
    的头像 发表于 11-25 10:00 584次阅读

    VLA和世界模型,谁才是自动驾驶的最优解?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术发展,其实现路径也呈现出两种趋势,一边是以理想、小、小米为代表的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为主导的世界
    的头像 发表于 11-05 08:55 917次阅读
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,谁才是自动驾驶的最优解?

    汽车与阿里云签署后量子安全技术合作协议

    9月24日,小汽车与阿里云在云栖大会正式签署后量子安全技术合作协议。小汽车高级总监林蓬蓬、阿里云数据安全产品线总监杨永代表双方签约。根据
    的头像 发表于 09-30 14:09 956次阅读

    汽车亮相2025慕尼黑国际车展

    、2025款小G9、小X9、小P7+等五款车型亮相,并同步展出人形机器人、飞行汽车、陆地航母模型
    的头像 发表于 09-08 16:29 1141次阅读

    汽车新总部正式亮灯

    8月26日,小汽车新总部——小科技园正式亮灯,这座总建筑面积36万平方米的科技园区以步步高“X”造型亮相,成为广州新能源产业的新地标。
    的头像 发表于 08-27 10:24 1307次阅读

    WAIC2025:澳发布新一代技术平台矩阵 助力大模型垂直应用落地

    上海2025年7月30日 /美通社/ -- 在刚刚落幕的2025世界人工智能大会(WAIC 2025)上,全球领先的AI数据服务提供商澳Appen(中国)携全新技术平台矩阵及九大垂类数据服务
    的头像 发表于 07-31 09:54 886次阅读
    WAIC2025:澳<b class='flag-5'>鹏</b><b class='flag-5'>发布</b>新一代<b class='flag-5'>技术</b>平台矩阵 助力大<b class='flag-5'>模型</b>垂直应用落地

    X9正式登陆印尼市场

    汽车近日在印尼雅加达宣布旗舰车型小×9正式登陆印尼市场,起售价9.9亿(990,000,000)印尼盾,其首个海外本地化生产项目同步进入投产倒计时。小
    的头像 发表于 07-03 16:56 1012次阅读

    现代汽车电动车INSTER荣膺2025世界年度电动车大奖

    近日,在2025世界汽车大奖(World Car Awards,WCA)颁奖典礼上,现代汽车电动车INSTER荣膺“2025世界年度电动车(
    的头像 发表于 05-08 15:28 1359次阅读

    看点:小机器人IRON现身小展台 比亚迪调整分红方案 全世界都在“围剿”谷歌

    ;小机器人IRON赚满眼球。 据悉小机器人IRON采用AI端到端大模型+最新自研图灵AI芯片,达到3000T算力,可实现思考、记忆和自主控制肢体。搭载天玑AIOS,可流畅对话,有记忆并且可以进行推理。 比亚迪调整分红方案 据
    的头像 发表于 04-23 17:19 1054次阅读