0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为、理想、特斯拉、商汤的世界模型是做什么用的

佐思汽车研究 来源:佐思汽车研究 2025-01-14 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近世界模型(World Model)很火,甚至有人说世界模型是终极自动驾驶解决方案,实际上它只是端到端大模型的一种,和VLM没有本质区别。目前的研究基本都集中在用世界模型生成视频或其他连续时间序列上的可视化数据,再用这些视频训练传统或端到端的自动驾驶模型,几乎没有人研究直接用世界模型做自动驾驶的。即便是视频生成,也还是处于实验室的学术研究阶段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

为什么要做世界模型,它实际上是端到端自动驾驶的闭环仿真,世界模型可以看做VLM的逆向工程,用prompt这些文字提示输出视频。世界模型和端到端模型是一个互相帮助的过程,世界模型生成的视频交给车端大模型,车端大模型通过它的规划执行接下来的动作,接下来的动作产生新的场景、新的视角,再通过世界模型继续生成新的数据,进行闭环仿真的测试。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

不同于CARLA这些测试型仿真,世界模型是训练型仿真,它要达到海量规模才有价值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

世界模型生成视频可以是自监督的,无需3D标签,可以使用海量网络汽车驾驶视频。最重要的是它可以生成现实世界中极难采集到的长尾视频,这是其核心价值。换句话说它生成的视频价值是现实世界采集到的视频数据的价值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

所谓世界模型就是视频生成加prompt控制。视频生成有四大类型,包括基于对抗网络GAN的,基于扩散模型的,基于自回归模型(基本上就是transformer)和基于掩码的。其中,扩散模型再分为Stable Video Diffusion (SVD)和Stable Diffusion (SD)两种,它们还有一种共同的称呼即隐扩散模型(Latent Diffusion Model, LDM)。目前也有结合diffusion和transformer的模型即DiT,但它本质上还是扩散模型,只不过用transformer替换了扩散模型中的Unet。大名鼎鼎的SORA则是复合型,Sora模型的核心组成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT负责从噪声数据中恢复出原始的视频数据,VAE用于将视频数据压缩为潜在表示,而ViT则用于将视频帧转换为特征向量以供DiT处理。据说特斯拉就是用的SVD。

基于世界模型的端到端训练

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

生成视频的质量分为两部分,一是视频本身的准确度,主要指标有三个,一个是FID/FVD,另一个是CLIP得分。FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量,计算每个集合的特征向量的均值和协方差矩阵,并做对比,都是高等数学的课程,这里就不展开说了。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。最后一个是北大提出来的,就是Trajectory Agent IoU (NTA-IoU),与设定轨迹的交并比,Novel Trajectory Lane IoU (NTL-IoU),与设定车道的交并比。

二是视频本身的长度、帧率和分辨率,要尽可能与传统自动驾驶训练视频达到一致的帧率和分辨率。

目前世界模型生成视频的方向有两个,一个是追求更长、更多视角、更高分辨率,代表作有商汤的《InfinityDrive: Breaking Time Limits in Driving World Models》,华为的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平线的DrivingWorld。另一个是追求近乎真实的3D场景渲染,理想在这方面情有独钟,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是这个方向,也是这个领域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

特斯拉用的什么世界模型,自然是未知,也许它根本就没用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

图片来源:商汤论文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

图片来源:华为的MagicDriveDiT

华为不仅能生成超高分辨率,还能生成多个角度的视频。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

数据来源:地平线的DrivingWorld,数据尺度比较大,分辨率也很高

我们再来看另一条3D渲染线,它的核心应该说有点偏离世界模型的本来意义了,它是追求接近真实的3D渲染,基本上是理想汽车的独角戏。三个比较有价值的模型基本都有理想汽车的身影,第一个是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大学和理想汽车合作,九位作者,其中来自理想汽车的作者占四位。第二个是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出,十二位作者两位来自理想汽车。第三个是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,总共十六位作者,其中来自理想汽车的多达八位,来自极佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上图可以看到,理想汽车与极佳科技合作的最新成果就是ReconDremaer,纯粹StreetGaussians的话,一旦偏离中心视角,容易出现空洞或鬼影,车道线也出现扭曲。

ReconDreamer整体框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成视频,还有生成激光雷达点云视频,如理想与澳门大学合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,还有生成语义分割图的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整体框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上图中,世界模型生成激光雷达点云视频,再拿这个去训练激光雷达的识别能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

数据来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有两三个点的提升,已经是非常难得了,现在在nuScenes上0.001的提升都需要一年半以上的时间。

世界模型一点也不神秘,不仅是端到端自动驾驶,它对传统自动驾驶也有明显的提升,自动驾驶的数据成本也大幅度下降至少95%以上,那些所谓影子模式变得毫无价值,实际上没有世界模型生成视频,影子模式本身也毫无价值,这也是马斯克说他用扩散模式生成视频的原因,如果影子模式真有价值,何必多此一举?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36284

    浏览量

    262993
  • 特斯拉
    +关注

    关注

    66

    文章

    6428

    浏览量

    131567
  • 商汤
    +关注

    关注

    0

    文章

    97

    浏览量

    4439

原文标题:华为、理想、特斯拉、商汤的世界模型是做什么用的?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技发布日日新SenseNova 6.7 Flash-Lite模型

    今天,我们正式推出新一代轻量化多模态智能体模型——商汤日日新SenseNova 6.7 Flash-Lite。
    的头像 发表于 05-08 16:30 604次阅读
    <b class='flag-5'>商汤</b>科技发布日日新SenseNova 6.7 Flash-Lite<b class='flag-5'>模型</b>

    商汤科技办公小浣熊接入SenseNova U1系列模型

    商汤办公小浣熊接入SenseNova U1模型,全新功能「一图读懂」正式上线。
    的头像 发表于 05-08 16:28 217次阅读

    昆仑芯科技完成商汤日日新SenseNova U1系列大模型极速适配

    近日,商汤正式发布并开源原生理解生成统一模型——商汤日日新SenseNova U1系列。在模型发布当日,昆仑芯即完成对SenseNova U1的极速适配,成为率先完成该
    的头像 发表于 05-06 10:55 575次阅读

    避繁就简!商汤日日新大模型灵性巧解数学难题,获赞“机器的审美”

    模型也能拥有某种数学家“直觉”! 在近日举办的第十届世界华人数学家大会“人工智能与数学”夜话活动上,由菲尔兹奖得主丘成桐院士引领,集结国内四大顶尖模型团队,上海人工智能实验室、商汤
    的头像 发表于 01-12 11:41 477次阅读
    避繁就简!<b class='flag-5'>商汤</b>日日新大<b class='flag-5'>模型</b>灵性巧解数学难题,获赞“机器的审美”

    商汤科技日日新Seko系列模型与寒武纪成功适配

    12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集生成智能体。该智能体在多剧集视频生成的一致性方面展现出显著优势,其背后依托的是商汤自研的日日新Seko系列模型,包括Sek
    的头像 发表于 12-17 14:06 673次阅读

    商汤医疗以世界模型重塑智慧医疗未来图景

    近日,一场以“智启新生,医领未来”为主题的启航盛典正式拉开帷幕。这不仅是商汤医疗完成新一轮融资后的首次公开亮相,更是一次对智慧医疗未来图景的深度诠释与前瞻展望。
    的头像 发表于 12-08 11:22 4589次阅读

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1241次阅读
    <b class='flag-5'>商汤</b>科技正式发布并开源全新多模态<b class='flag-5'>模型</b>架构NEO

    商汤绝影开悟世界模型综合能力位列中国第一

    2025年9月23日,全球知名增长咨询公司弗若斯特沙利文(Frost & Sulllivan,简称“沙利文”)发布《2025年中国世界模型发展白皮书》报告。
    的头像 发表于 09-29 14:13 1209次阅读

    商汤绝影亮相汽车之家全球AI科技大会

    近日,由汽车之家主办的「汽车之家全球AI科技大会」在北京举行。商汤科技联合创始人、执行董事、CTO、商汤绝影CEO王晓刚出席大会,并发表《世界模型:智能驾驶范式演进新路标》主题演讲,分
    的头像 发表于 09-29 14:09 837次阅读

    商汤日日新V6.5多模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass多模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5
    的头像 发表于 09-10 09:55 1040次阅读

    商汤日日新大模型赋能紫光汉图打造激光多功能一体机

    商汤日日新大模型赋能紫光汉图,为一线教师打造全新教学生产力。
    的头像 发表于 08-19 15:51 1133次阅读
    <b class='flag-5'>商汤</b>日日新大<b class='flag-5'>模型</b>赋能紫光汉图打造激光多功能一体机

    商汤大装置算力Mall重磅发布

    近日,商汤科技联合华为、库帕思、海光、寒武纪、曦望Sunrise、壁仞科技、麒麟软件、摩尔线程等十余家国产生态伙伴,共同发布“商汤大装置算力Mall”。
    的头像 发表于 08-05 10:05 1355次阅读

    商汤大装置发布基于DeepLink的异构混合调度方案

    日前,在2025世界人工智能大会(WAIC)期间,商汤大装置发布基于DeepLink的异构混合调度方案,将DeepLink深度融入商汤大装置核心能力体系。该方案针对当前国产算力资源碎片化、异构芯片
    的头像 发表于 08-05 10:01 1303次阅读

    商汤科技发布悟能具身智能平台

    近日,由全国工商联人工智能委员会倾力主办,商汤科技承办的“大爱无疆·模塑未来” WAIC 2025大模型论坛上,商汤科技正式发布「悟能」具身智能平台,从开悟世界
    的头像 发表于 07-31 16:35 1484次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型中,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1632次阅读