0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为、理想、特斯拉、商汤的世界模型是做什么用的

佐思汽车研究 来源:佐思汽车研究 2025-01-14 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近世界模型(World Model)很火,甚至有人说世界模型是终极自动驾驶解决方案,实际上它只是端到端大模型的一种,和VLM没有本质区别。目前的研究基本都集中在用世界模型生成视频或其他连续时间序列上的可视化数据,再用这些视频训练传统或端到端的自动驾驶模型,几乎没有人研究直接用世界模型做自动驾驶的。即便是视频生成,也还是处于实验室的学术研究阶段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

为什么要做世界模型,它实际上是端到端自动驾驶的闭环仿真,世界模型可以看做VLM的逆向工程,用prompt这些文字提示输出视频。世界模型和端到端模型是一个互相帮助的过程,世界模型生成的视频交给车端大模型,车端大模型通过它的规划执行接下来的动作,接下来的动作产生新的场景、新的视角,再通过世界模型继续生成新的数据,进行闭环仿真的测试。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

不同于CARLA这些测试型仿真,世界模型是训练型仿真,它要达到海量规模才有价值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

世界模型生成视频可以是自监督的,无需3D标签,可以使用海量网络汽车驾驶视频。最重要的是它可以生成现实世界中极难采集到的长尾视频,这是其核心价值。换句话说它生成的视频价值是现实世界采集到的视频数据的价值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

所谓世界模型就是视频生成加prompt控制。视频生成有四大类型,包括基于对抗网络GAN的,基于扩散模型的,基于自回归模型(基本上就是transformer)和基于掩码的。其中,扩散模型再分为Stable Video Diffusion (SVD)和Stable Diffusion (SD)两种,它们还有一种共同的称呼即隐扩散模型(Latent Diffusion Model, LDM)。目前也有结合diffusion和transformer的模型即DiT,但它本质上还是扩散模型,只不过用transformer替换了扩散模型中的Unet。大名鼎鼎的SORA则是复合型,Sora模型的核心组成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT负责从噪声数据中恢复出原始的视频数据,VAE用于将视频数据压缩为潜在表示,而ViT则用于将视频帧转换为特征向量以供DiT处理。据说特斯拉就是用的SVD。

基于世界模型的端到端训练

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

生成视频的质量分为两部分,一是视频本身的准确度,主要指标有三个,一个是FID/FVD,另一个是CLIP得分。FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量,计算每个集合的特征向量的均值和协方差矩阵,并做对比,都是高等数学的课程,这里就不展开说了。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。最后一个是北大提出来的,就是Trajectory Agent IoU (NTA-IoU),与设定轨迹的交并比,Novel Trajectory Lane IoU (NTL-IoU),与设定车道的交并比。

二是视频本身的长度、帧率和分辨率,要尽可能与传统自动驾驶训练视频达到一致的帧率和分辨率。

目前世界模型生成视频的方向有两个,一个是追求更长、更多视角、更高分辨率,代表作有商汤的《InfinityDrive: Breaking Time Limits in Driving World Models》,华为的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平线的DrivingWorld。另一个是追求近乎真实的3D场景渲染,理想在这方面情有独钟,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是这个方向,也是这个领域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

特斯拉用的什么世界模型,自然是未知,也许它根本就没用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

图片来源:商汤论文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

图片来源:华为的MagicDriveDiT

华为不仅能生成超高分辨率,还能生成多个角度的视频。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

数据来源:地平线的DrivingWorld,数据尺度比较大,分辨率也很高

我们再来看另一条3D渲染线,它的核心应该说有点偏离世界模型的本来意义了,它是追求接近真实的3D渲染,基本上是理想汽车的独角戏。三个比较有价值的模型基本都有理想汽车的身影,第一个是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大学和理想汽车合作,九位作者,其中来自理想汽车的作者占四位。第二个是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出,十二位作者两位来自理想汽车。第三个是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,总共十六位作者,其中来自理想汽车的多达八位,来自极佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上图可以看到,理想汽车与极佳科技合作的最新成果就是ReconDremaer,纯粹StreetGaussians的话,一旦偏离中心视角,容易出现空洞或鬼影,车道线也出现扭曲。

ReconDreamer整体框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成视频,还有生成激光雷达点云视频,如理想与澳门大学合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,还有生成语义分割图的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整体框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上图中,世界模型生成激光雷达点云视频,再拿这个去训练激光雷达的识别能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

数据来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有两三个点的提升,已经是非常难得了,现在在nuScenes上0.001的提升都需要一年半以上的时间。

世界模型一点也不神秘,不仅是端到端自动驾驶,它对传统自动驾驶也有明显的提升,自动驾驶的数据成本也大幅度下降至少95%以上,那些所谓影子模式变得毫无价值,实际上没有世界模型生成视频,影子模式本身也毫无价值,这也是马斯克说他用扩散模式生成视频的原因,如果影子模式真有价值,何必多此一举?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    35800

    浏览量

    260726
  • 特斯拉
    +关注

    关注

    66

    文章

    6404

    浏览量

    131006
  • 商汤
    +关注

    关注

    0

    文章

    82

    浏览量

    4269

原文标题:华为、理想、特斯拉、商汤的世界模型是做什么用的?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤医疗以世界模型重塑智慧医疗未来图景

    近日,一场以“智启新生,医领未来”为主题的启航盛典正式拉开帷幕。这不仅是商汤医疗完成新一轮融资后的首次公开亮相,更是一次对智慧医疗未来图景的深度诠释与前瞻展望。
    的头像 发表于 12-08 11:22 287次阅读

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 226次阅读
    <b class='flag-5'>商汤</b>科技正式发布并开源全新多模态<b class='flag-5'>模型</b>架构NEO

    商汤绝影亮相汽车之家全球AI科技大会

    近日,由汽车之家主办的「汽车之家全球AI科技大会」在北京举行。商汤科技联合创始人、执行董事、CTO、商汤绝影CEO王晓刚出席大会,并发表《世界模型:智能驾驶范式演进新路标》主题演讲,分
    的头像 发表于 09-29 14:09 423次阅读

    商汤科技发布悟能具身智能平台

    近日,由全国工商联人工智能委员会倾力主办,商汤科技承办的“大爱无疆·模塑未来” WAIC 2025大模型论坛上,商汤科技正式发布「悟能」具身智能平台,从开悟世界
    的头像 发表于 07-31 16:35 1101次阅读

    商汤科技日日新大模型SenseNova上线声网云市场

    日前,商汤科技日日新大模型SenseNova即将正式上线声网云市场,开发者和企业用户可通过声网的实时互动云服务进行调用,将商汤领先的模型能力集成到各类应用场景中,快速构建基于日日新大
    的头像 发表于 04-08 17:24 1317次阅读

    在Deepseek AI眼中,配电室是做什么用的?

    DEEPSEEK眼中的配电室什么样?嗯,用户问配电室是做什么用的,我需要先理解配电室的基本功能。配电室听起来像是和电力分配有关的地方,对吧?可能和电力系统有关,比如建筑物或者工厂里的电力分配。首先,我应该明确配电室的主要作用是什么。
    的头像 发表于 03-05 09:38 654次阅读

    AI开源模型库有什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型库有什么用
    的头像 发表于 02-24 11:50 884次阅读

    理想同学App接入DeepSeek大模型

    2025年2月19日,理想汽车旗下人工智能助手理想同学App全面接入DeepSeek R1&V3 671B满血版,并实现与理想自研MindGPT大模型的双向自由切换。
    的头像 发表于 02-20 09:13 955次阅读

    商汤大装置接入DeepSeek系列模型

    即日起,企业客户和开发者可在商汤大装置万象平台中,快速部署DeepSeek-V3、DeepSeek-R1等模型,可享受3个月内1000万tokens免费使用权益。
    的头像 发表于 02-10 10:16 1334次阅读

    请问ADS1282中SYNC是做什么用的,和读写程序有关系吗?

    请问ADS1282中SYNC是做什么用的,和读写程序有关系吗?我现在只是给接到了上拉3.3V电阻,不知道这是否和我的程序不一直读0有关系?
    发表于 02-08 09:16

    商汤科技与广东移动中标越秀集团AI中台大模型能力建设项目

    近日,广州越秀企业集团最新“AI中台大模型能力建设项目”招标结果公告:商汤科技与广东移动联合体中标。
    的头像 发表于 02-07 17:13 953次阅读

    商汤“日日新”融合大模型荣获双料冠军

    近日,商汤科技正式推出了其创新力作——“日日新”融合大模型。该模型在技术上实现了原生融合模态的突破,使得其深度推理能力和多模态信息处理能力均得到了显著提升。这一成果的发布,标志着商汤
    的头像 发表于 01-13 16:10 839次阅读

    商汤科技推出“日日新”融合大模型

    刚刚,商汤正式推出“日日新”融合大模型,领先实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为“双冠王”。
    的头像 发表于 01-10 15:59 1123次阅读

    dac7624 data output timing是做什么用的?

    1:请问左侧的 data output timing 是做什么用的?右侧的是写数字输入的时序吧。2:这款dac可以单纯的IO模拟时序通信吧3:这个t CSD 要求最大不能超过160ns 很多单片机都达不到吧。单纯的翻转下IO,实际
    发表于 01-01 07:52

    商汤日日新多模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1498次阅读