商汤绝影亮相汽车之家全球AI科技大会-电子发烧友网

来源：绝影智能SenseAuto

近日，由汽车之家主办的「汽车之家全球AI科技大会」在北京举行。商汤科技联合创始人、执行董事、CTO、商汤绝影CEO王晓刚出席大会，并发表《世界模型：智能驾驶范式演进新路标》主题演讲，分享了“绝影开悟”世界模型给智能驾驶带来的技术变迁。

演讲中他谈到三个核心点：

第一，世界模型“生成式智驾”带来智能驾驶3.0阶段。智能驾驶从依赖人工标注的“规则式智驾”1.0阶段，发展到把人类行为积累转化成为模型的“端到端智驾”2.0阶段，最终正迈向通过世界模型和强化学习带来超越人类的“生成式智驾”3.0阶段。

第二，“绝影开悟”世界模型推动智能驾驶在三个方面取得突破。一是突破数据瓶颈，通过世界模型能够生成无限长尾场景；二是有更加确定的技术安全边界，通过仿真模拟物理世界，在仿真环境中不断尝试；三是通过自主进化达到超越人类驾驶的体验。

第三，“绝影开悟”世界模型实现全场景覆盖，推动智能驾驶、具身智能跨越式发展。世界模型积累百万级数据集，覆盖各种复杂的场景，实现高保真、多视角时空一致性、4D实时互动。同时，世界模型在自动驾驶场景里开发出来的技术体系，也将赋能具身智能发展。

以下为主题演讲内容：

各位领导、各位同仁、各位嘉宾，大家下午好！

非常感谢汽车之家的邀请，来参加全球AI科技大会，也能够有机会和大家分享世界模型——通用人工智能给自动驾驶带来的技术的变迁。

世界模型“生成式智驾”带来智能驾驶3.0阶段

首先，我们认为自动驾驶技术演进的频率是非常快的。自动驾驶作为人工智能非常重要的组成部分，它的技术变迁也反映了人工智能发展的三个阶段。大家比较熟悉的基于规则的智能驾驶，是自动驾驶的第一个阶段。这一阶段通过AI输出感知的结果，建立各种规则，并预定义这些逻辑，再根据优化物理模型实现规控。基于上述现象，我们在人工智能发展的每个阶段会问这样一个问题：智能到底是从哪里来？实际上，在第一个阶段，很多的智能来自于人工。人类需要大量标注各类感知数据，然后得到它的输出，并人工书写各式各样的规则。所以在上述阶段有一句话：有多少人工就有多少的智能。而这个阶段很像人工智能1.0发展的阶段，例如我们会做很多人脸识别的视频分析；我们会针对安防的场景，人工输入智能的数据。

第二个阶段是大模型的出现，这是人工智能领域2.0，代表产品如ChatGPT。在互联网上出现了过去很多年人类行为的数据积累，比如各种文章、代码，这些都是人类行为智能的体现。在自动驾驶领域，对应的是人类的驾驶行为，也就是第二阶段行业内推动的端到端自动驾驶。端到端自动驾驶把过去长时间人类行为积累的智能转化成为模型的智能，这时候就出现了很大的智能和体验上的跃迁。但是其自身也有瓶颈，那便是人类的行为就是智能的天花板，同时这种智能依赖大量高质量数据。从自动驾驶发展来看，今天的大模型发展也遇到了上述瓶颈，因为我们在互联网上积累起来的数据价值面临枯竭境地。

因此，便进入了第三个阶段，通过世界模型，通过生成式智驾，通过强化学习做出进一步的突破。举一个非常典型的例子，2015年在围棋领域出现了AIphaGo。之后又出现了AIphaZero，相较于AIphaGo，AIphaZero不需要任何人类知识的输入，它也能够产生大量的智能。现如今在自动驾驶领域，大家都希望有一个世界模型，这个模型就像在围棋里面，能够创造棋盘和人类定义的围棋规则，这便是更高阶的智能。对照围棋的例子，我们希望自动驾驶也能够通过强化学习来突破人类行为上限。要达成这个目标，我们就需要一个世界模型。让世界模型来模拟物理世界的规律、人类行为的法则和规律。在仿真的世界模型环境里面，机器通过强化学习做到不断的提升，以及突破人类驾驶的上限。

我们可以看到今天在人工智能3.0的发展中，人们还提出了具身智能，这是从原来互联网数据走出来，通过跟物理世界交互产生的新智能。在具身智能领域，世界模型也会扮演非常重要的角色。

“绝影开悟”世界模型推动智能驾驶在三个方面取得突破

回到端到端自动驾驶所面临的问题，主要有三个方面。一是需要大量的数据。特斯拉拥有几百万台车，而且这些车的传感器配置是一致的，所以能够回流大量的数据。而我们面临的问题是没有如此规模的数据。二是对于各种危险复杂的场景，尤其是Corner Case，这些场景获得成本是非常高的，风险也是非常高的。怎么获得这些高质量的数据是我们需要解决的问题。第三个是安全的边界。现在端到端自动驾驶中发现一个问题场景，我们就需要采集很多跟这个场景所类似的其他数据，重新训练模型。但是模型训练完之后也不能够确定这个场景是否真正被解决，因为端到端技术有不确定性在。

针对这些问题，我们要把世界模型、强化学习，以及端到端技术相结合。在这里，核心是要有一个端到端的多模态大模型。这个模型的输入可能是各种视觉的、激光的、语言文字导航的信息，输出是车辆的行为。端到端大模型会预测车辆的轨迹，基于预测的轨迹反馈给世界模型，世界模型就能够模拟仿真出物理世界将会怎样的变化，给我们反馈基于世界模型合成的视频，这些反馈将重新训练端到端模型。而且这个方法会告诉我们，什么样的仿真模型是好的，如此循环往复的迭代，不断提升端到端的性能。同时，在这个仿真环境里面可以无数次的试错，有了问题场景以后，通过无数次的尝试一定能够解决我们所关心的问题，而且还能做到举一反三、举一反十、甚至反百。当下的世界模型并不是无中生有，而是针对问题场景，我们通过复现物理场景，把现实里不能改变的各种要素，如天气、道路、车速等，通过模拟仿真场景，比较彻底地解决类似问题。

接下来我给大家举一个例子，看一看我们是怎么用世界模型和强化学习来解决问题的。这里展示的是一个问题场景。前方有一个施工占道场景出现，我们需要急刹，大家想一想完成这个动作需要几步？第一步需要做4D仿真的复现，通过3DGS和静态场景复现，依托世界模型对它进行修复，就能够得到更高质量的4D空间。在4D空间里就可以尝试各种不同驾驶的行为，调整端到端模型，尝试各种不同的驾驶行为，直到在这个环境里找到最佳的驾驶行为。我们有一套完善的办法去评价什么样的驾驶行为是好的。

在上述单一场景里我们得到模型的更新和验证后，接下来我们需要得到它进一步的多个泛化场景。现实世界中有很多类似的场景，比如说复杂的施工区域，需要换道通行，遇到围栏需要减速等。这些不同的场景都是通过世界模型所生成出来的各类泛化场景。我们的模型在这些泛化场景里面做进一步的学习，以及进行测试。

所以说现在的世界模型已经可以推动自动驾驶在三个方面取得突破。一是数据瓶颈，可以通过世界模型产生无限长尾场景。二是能够得到验证的技术边界，通过仿真模拟恢复物理的世界，在仿真环境不断的尝试。三是通过强化学习达到超越人类驾驶的体验。

“绝影开悟”世界模型实现全场景覆盖，推动智能驾驶、具身智能跨越式发展

要解决这些问题，背后核心是需要有个非常强大、质量非常高的世界模型来重构万千世界，让安全有更多的确定性。我们对世界模型会有哪些要求呢？一是生成的数据应该是能够面向量产的，能够有更多的场景，而且能够一键生成复杂可控的场景。二是场景里面有各种因素，可以针对各种因素进行编辑，能够把各种因素通过自由组合方式，实现更多的拓展。三是实时，在一定空间里面有非常高效的推理效率，促使在世界模型里面进行实时互动。

这里我们给大家看一个例子。我们坐车里遇到Cut-in这样比较危险的场景。我们可以看到车里有7个摄像头，每个摄像头都在记录。而要生成一个好的世界模型，就要保持多个摄像头下的时空一致性。早在2024年，Sora模型就可以完成各种视频的生成，现如今用世界模型做自动驾驶的话，它的难点在哪里？那便是生成有连续性的视频比图像更难。生成用在自动驾驶环境里视频需要面临很多困难，面对有众多的摄像头，模型要保持多个摄像头的时空一致性。比如说面对车牌、道路的限行情况，各个摄像头里的内容应该是一致的。另外，还有空间的几何关系得是一致的，这样生成的视频才能够有效的用作自动驾驶的训练和测试。

基于此，我们可以针对刚刚提到的打车Cut-in场景改变各种要素，比如换不同的天气条件、不同的道路路形、插入的大车车型、车速和Cut-in的距离。有了这些之后，模型完全可以做到举一反十、反一百、反一千。而且大家可以看到，这里一键生成了更加复杂的场景，例如车祸和碰撞的场景。

在这里我们还需要对场景里面的各种要素做到任意编辑，比如任意替换不同的车型、增加车辆、减少相应的车辆，模拟不同的驾驶环境。

而且模型也需要能够做到实时的推理，这里我们展示的是在上海市区场景，在这个场景里可以自由地开车、加减速、转弯。大家所看到的这些视频都与真实世界的物理环境非常接近。

世界模型产品化，开放API后，用户可以描述他所想采用的数据，然后一键生成形成各种各样所期待的视频。我们现在积累的百万级数据集，覆盖各种复杂的场景，能够实现高保真。现如今每一个Clips有150s，车辆有7个摄像头就能保持比1080P更好的图像质量。

再说到基础设施，现在各地政府也建立了实训场，能够提供算力的平台，真实采集实车的数据。另外，有一半的数据也是通过世界模型模拟仿真进行生成，两组数据相结合可以提供给车企进行端到端模型的训练。

最后说下，在自动驾驶场景里使用的世界模型所开发出来的所有技术体系，其实也可以用到具身智能里。具身智能对世界模型的需求更加迫切。因为机器人的数量比车辆数量更少，而且每个机器人硬件的配置千差万别。我们希望在具身智能领域里，世界模型能够做到多模态、数据对齐，能够得到4D空间，能够进行快速的推理。我给大家举两个例子，一是输入一条指令让机器人能够在公园里进行跳跃，就会自动地生成机器人的骨骼、姿态、动作的变化，基于这个能够生成机器人第一视角看到视频的数据和第三视角的数据。另外输入指令让机器臂切黄瓜，同样可以生成第一和第三视角的数据。未来我们可以用这些大量的模拟仿真数据，来推动自动驾驶和具身智能跨越到下一个阶段。

谢谢大家！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
91

文章
41115

浏览量
302602
模型

模型

+关注

关注
1

文章
3818

浏览量
52269
智能驾驶

智能驾驶

+关注

关注
5

文章
3042

浏览量
51379
商汤

商汤

+关注

关注
0

文章
95

浏览量
4422

原文标题：商汤王晓刚：世界模型带来智能驾驶3.0阶段

文章出处：【微信号：SenseTime2017，微信公众号：商汤科技SenseTime】欢迎添加关注！文章转载请注明出处。

搜索历史

商汤绝影亮相汽车之家全球AI科技大会

评论