小鹏汽车正式发布世界模型X-World技术报告-电子发烧友网

近日，小鹏汽车正式发布世界模型X-World技术报告，从数据、模型、训练、验证及应用等多层面详解X-World的构建与使用。

X-World是一个基于视频扩散生成技术（Video Diffusion）构建的、服务于自动驾驶的可控多视角生成式世界模型，具备多视角下即时响应与持续生成的能力。

技术报告还展示了X-World在小鹏汽车自动驾驶中的实际应用价值，该模型已投入到闭环仿真测试、在线强化学习、数据生成等实际生产环节。

在近期向用户陆续推送的第二代VLA的研发与验证过程中，X-World 也已被大量用于环境仿真与模型评估。

自动驾驶系统的评估主要依赖真实道路测试与仿真测试。其中，仿真测试具备成本更低、效率更高、场景覆盖更广、可重复验证等优势。传统仿真评估大量采用基于 3D 高斯溅射（3DGS）的技术路线，这类方法能够在一定程度上复现真实场景，但当自动驾驶模型产生大幅变道、绕行等明显偏离原始采集轨迹的行为时，这种方法往往难以对超出既有重建范围的后续场景进行有效生成与评估。因此，行业内仍高度依赖实车道路测试，而这种方式存在着成本高、场景覆盖有限、难以复现指定情况等问题。

为了解决这些瓶颈，小鹏生成世界模型团队试图构建一个“现实世界模拟器”，让它能够在给定动作条件下生成符合物理约束的未来视频，同时在持续生成过程中保持良好的可控性与稳定性。在这一背景下，X-World应运而生，通过输入多摄像头的历史视频流和待执行的驾驶动作（或动作序列），便可生成对应的未来多摄像头视频流。X-World可以被视为一个会“思考”驾驶场景的物理AI系统，它能够根据当前的路况和驾驶操作，想象出数秒后路况的变化。

架构层面，X-World 基于当前领先的视频生成模型 WAN 2.2 构建，沿用其潜空间视频生成范式，将视频VAE与基于DiT的潜空间去噪器相结合。底层采用高压缩比 3D 因果自编码器（VAE），大幅降低计算与内存开销，支持长时序视频建模，从而更好地捕捉丰富的时空依赖关系，同时降低延迟、加快推理速度。模型骨干为定制化的DiT骨干网络，通过视角-时间自注意力机制，实现时间维度和视角维度的联合建模，从而确保7路摄像头视角间的一致性。X-World 还提供了一套全面的条件控制接口，包括自车动作、动态交通参与者、静态道路元素（如车道线、道路边界）、摄像头内外参，可对驾驶场景的生成过程进行细粒度调控。这些设计共同实现了多输入条件下的可控多视角生成。

X-World 模型（框架如上图所示）

在本篇技术报告中，小鹏团队围绕X-World实际落地过程中遇到的技术难点做了分享，核心在于如何实现跨视角3D一致性、多条件受控生成准确、长时序画面生成。除了模型架构上的新颖尝试，在训练层面，团队采用了两个阶段的训练方式：

第一阶段，将一个大型预训练视频生成模型，改造为完全可控的多摄像头世界模型。

第二阶段，通过“分块因果架构”和“少步自强制学习”，结合滚动键值缓存，将模型转换为流式自回归模拟器。

与传统的双向视频扩散模型不同，X-World 采用流式自回归的方式运行，可以逐步生成未来视频画面以进行实时交互，这一设计使得模型能够天然适用于闭环场景，既可为端到端策略的可扩展评估提供支撑，也可应用于在线强化学习训练。

实验结果显示，X-World实现了高质量的多视角视频生成。总体而言，它具备以下三大核心优势：

实现了较强的跨视角一致性，确保各摄像头间（7路环视摄像头）的几何信息与目标特征一致；

严格的动作跟随性，生成的未来画面与指令要求的自车行为高度匹配；

具备长视频推演能力，可在较长的时间跨度内实现稳定的预测。上述特性让生成式世界模型更接近实用的 “现实世界仿真器” 形态，能够为VLA自动驾驶系统提供可复现的基准测试、可扩展的回归测试与交互式学习支撑。

在具体的应用场景上，X-World不仅仅是一个视频生成模型，更是一个高保真、交互式、可控的底层基础平台，服务于小鹏汽车第二代VLA的开发与验证。目前，X-World已经在小鹏汽车自动驾驶的闭环仿真测试、在线强化学习、数据生成等环节起到支撑作用。

依托X-World，小鹏构建面向第二代VLA的闭环评估引擎。区别于传统的基于3D重建的技术路线，X-World可进行交互式推演，并支持对安全关键指标进行评估。例如，在 X-World 中运行第二代VLA，可在高度贴近真实世界视觉分布的虚拟环境中，评估碰撞率、目标达成进度、乘坐舒适性等性能指标。目前，小鹏自动驾驶仿真场景从一年前的3万增加到50多万个，每日仿真测试里程等效于3000万公里实车测试。

X-World可充当在线强化学习的仿真平台。可利用X-World的可控性，针对自动驾驶中的难点场景进行专项优化，例如重点优化模型在路口遭遇行人“鬼探头”、拥堵路段变道犹豫等场景的表现。

X-World可实现大规模数据生成与增强。X-World作为生成式数据工厂，既可以生成缺失的长尾场景数据，提升第二代VLA应对长尾场景（Corner Case）的能力，也能生成海外数据用于模型训练，加速小鹏自动驾驶全球化落地进程。

操作控制演示

支持指令控制画面。

例如输入"左转"、"加速"。

多车场景控制

支持控制画面中其他车辆的行为。

例如让它们加速、减速、变道。

长距离预测

支持连续生成几十秒的画面，

且画面始终保持稳定和连贯。

风格变换