0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤绝影亮相汽车之家全球AI科技大会

商汤科技SenseTime 来源:商汤科技SenseTime 2025-09-29 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:绝影智能SenseAuto

近日,由汽车之家主办的「汽车之家全球AI科技大会」在北京举行。商汤科技联合创始人、执行董事、CTO、商汤绝影CEO王晓刚出席大会,并发表《世界模型:智能驾驶范式演进新路标》主题演讲,分享了“绝影开悟”世界模型给智能驾驶带来的技术变迁。

演讲中他谈到三个核心点:

第一,世界模型“生成式智驾”带来智能驾驶3.0阶段。智能驾驶从依赖人工标注的“规则式智驾”1.0阶段,发展到把人类行为积累转化成为模型的“端到端智驾”2.0阶段,最终正迈向通过世界模型和强化学习带来超越人类的“生成式智驾”3.0阶段。

第二,“绝影开悟”世界模型推动智能驾驶在三个方面取得突破。一是突破数据瓶颈,通过世界模型能够生成无限长尾场景;二是有更加确定的技术安全边界,通过仿真模拟物理世界,在仿真环境中不断尝试;三是通过自主进化达到超越人类驾驶的体验。

第三,“绝影开悟”世界模型实现全场景覆盖,推动智能驾驶、具身智能跨越式发展。世界模型积累百万级数据集,覆盖各种复杂的场景,实现高保真、多视角时空一致性、4D实时互动。同时,世界模型在自动驾驶场景里开发出来的技术体系,也将赋能具身智能发展。

以下为主题演讲内容:

各位领导、各位同仁、各位嘉宾,大家下午好!

非常感谢汽车之家的邀请,来参加全球AI科技大会,也能够有机会和大家分享世界模型——通用人工智能给自动驾驶带来的技术的变迁。

世界模型“生成式智驾”带来智能驾驶3.0阶段

首先,我们认为自动驾驶技术演进的频率是非常快的。自动驾驶作为人工智能非常重要的组成部分,它的技术变迁也反映了人工智能发展的三个阶段。大家比较熟悉的基于规则的智能驾驶,是自动驾驶的第一个阶段。这一阶段通过AI输出感知的结果,建立各种规则,并预定义这些逻辑,再根据优化物理模型实现规控。基于上述现象,我们在人工智能发展的每个阶段会问这样一个问题:智能到底是从哪里来?实际上,在第一个阶段,很多的智能来自于人工。人类需要大量标注各类感知数据,然后得到它的输出,并人工书写各式各样的规则。所以在上述阶段有一句话:有多少人工就有多少的智能。而这个阶段很像人工智能1.0发展的阶段,例如我们会做很多人脸识别的视频分析;我们会针对安防的场景,人工输入智能的数据。

第二个阶段是大模型的出现,这是人工智能领域2.0,代表产品如ChatGPT。在互联网上出现了过去很多年人类行为的数据积累,比如各种文章、代码,这些都是人类行为智能的体现。在自动驾驶领域,对应的是人类的驾驶行为,也就是第二阶段行业内推动的端到端自动驾驶。端到端自动驾驶把过去长时间人类行为积累的智能转化成为模型的智能,这时候就出现了很大的智能和体验上的跃迁。但是其自身也有瓶颈,那便是人类的行为就是智能的天花板,同时这种智能依赖大量高质量数据。从自动驾驶发展来看,今天的大模型发展也遇到了上述瓶颈,因为我们在互联网上积累起来的数据价值面临枯竭境地。

因此,便进入了第三个阶段,通过世界模型,通过生成式智驾,通过强化学习做出进一步的突破。举一个非常典型的例子,2015年在围棋领域出现了AIphaGo。之后又出现了AIphaZero,相较于AIphaGo,AIphaZero不需要任何人类知识的输入,它也能够产生大量的智能。现如今在自动驾驶领域,大家都希望有一个世界模型,这个模型就像在围棋里面,能够创造棋盘和人类定义的围棋规则,这便是更高阶的智能。对照围棋的例子,我们希望自动驾驶也能够通过强化学习来突破人类行为上限。要达成这个目标,我们就需要一个世界模型。让世界模型来模拟物理世界的规律、人类行为的法则和规律。在仿真的世界模型环境里面,机器通过强化学习做到不断的提升,以及突破人类驾驶的上限。

我们可以看到今天在人工智能3.0的发展中,人们还提出了具身智能,这是从原来互联网数据走出来,通过跟物理世界交互产生的新智能。在具身智能领域,世界模型也会扮演非常重要的角色。

“绝影开悟”世界模型推动智能驾驶在三个方面取得突破

回到端到端自动驾驶所面临的问题,主要有三个方面。一是需要大量的数据。特斯拉拥有几百万台车,而且这些车的传感器配置是一致的,所以能够回流大量的数据。而我们面临的问题是没有如此规模的数据。二是对于各种危险复杂的场景,尤其是Corner Case,这些场景获得成本是非常高的,风险也是非常高的。怎么获得这些高质量的数据是我们需要解决的问题。第三个是安全的边界。现在端到端自动驾驶中发现一个问题场景,我们就需要采集很多跟这个场景所类似的其他数据,重新训练模型。但是模型训练完之后也不能够确定这个场景是否真正被解决,因为端到端技术有不确定性在。

针对这些问题,我们要把世界模型、强化学习,以及端到端技术相结合。在这里,核心是要有一个端到端的多模态大模型。这个模型的输入可能是各种视觉的、激光的、语言文字导航的信息,输出是车辆的行为。端到端大模型会预测车辆的轨迹,基于预测的轨迹反馈给世界模型,世界模型就能够模拟仿真出物理世界将会怎样的变化,给我们反馈基于世界模型合成的视频,这些反馈将重新训练端到端模型。而且这个方法会告诉我们,什么样的仿真模型是好的,如此循环往复的迭代,不断提升端到端的性能。同时,在这个仿真环境里面可以无数次的试错,有了问题场景以后,通过无数次的尝试一定能够解决我们所关心的问题,而且还能做到举一反三、举一反十、甚至反百。当下的世界模型并不是无中生有,而是针对问题场景,我们通过复现物理场景,把现实里不能改变的各种要素,如天气、道路、车速等,通过模拟仿真场景,比较彻底地解决类似问题。

接下来我给大家举一个例子,看一看我们是怎么用世界模型和强化学习来解决问题的。这里展示的是一个问题场景。前方有一个施工占道场景出现,我们需要急刹,大家想一想完成这个动作需要几步?第一步需要做4D仿真的复现,通过3DGS和静态场景复现,依托世界模型对它进行修复,就能够得到更高质量的4D空间。在4D空间里就可以尝试各种不同驾驶的行为,调整端到端模型,尝试各种不同的驾驶行为,直到在这个环境里找到最佳的驾驶行为。我们有一套完善的办法去评价什么样的驾驶行为是好的。

在上述单一场景里我们得到模型的更新和验证后,接下来我们需要得到它进一步的多个泛化场景。现实世界中有很多类似的场景,比如说复杂的施工区域,需要换道通行,遇到围栏需要减速等。这些不同的场景都是通过世界模型所生成出来的各类泛化场景。我们的模型在这些泛化场景里面做进一步的学习,以及进行测试。

所以说现在的世界模型已经可以推动自动驾驶在三个方面取得突破。一是数据瓶颈,可以通过世界模型产生无限长尾场景。二是能够得到验证的技术边界,通过仿真模拟恢复物理的世界,在仿真环境不断的尝试。三是通过强化学习达到超越人类驾驶的体验。

“绝影开悟”世界模型实现全场景覆盖,推动智能驾驶、具身智能跨越式发展

要解决这些问题,背后核心是需要有个非常强大、质量非常高的世界模型来重构万千世界,让安全有更多的确定性。我们对世界模型会有哪些要求呢?一是生成的数据应该是能够面向量产的,能够有更多的场景,而且能够一键生成复杂可控的场景。二是场景里面有各种因素,可以针对各种因素进行编辑,能够把各种因素通过自由组合方式,实现更多的拓展。三是实时,在一定空间里面有非常高效的推理效率,促使在世界模型里面进行实时互动。

这里我们给大家看一个例子。我们坐车里遇到Cut-in这样比较危险的场景。我们可以看到车里有7个摄像头,每个摄像头都在记录。而要生成一个好的世界模型,就要保持多个摄像头下的时空一致性。早在2024年,Sora模型就可以完成各种视频的生成,现如今用世界模型做自动驾驶的话,它的难点在哪里?那便是生成有连续性的视频比图像更难。生成用在自动驾驶环境里视频需要面临很多困难,面对有众多的摄像头,模型要保持多个摄像头的时空一致性。比如说面对车牌、道路的限行情况,各个摄像头里的内容应该是一致的。另外,还有空间的几何关系得是一致的,这样生成的视频才能够有效的用作自动驾驶的训练和测试。

基于此,我们可以针对刚刚提到的打车Cut-in场景改变各种要素,比如换不同的天气条件、不同的道路路形、插入的大车车型、车速和Cut-in的距离。有了这些之后,模型完全可以做到举一反十、反一百、反一千。而且大家可以看到,这里一键生成了更加复杂的场景,例如车祸和碰撞的场景。

在这里我们还需要对场景里面的各种要素做到任意编辑,比如任意替换不同的车型、增加车辆、减少相应的车辆,模拟不同的驾驶环境。

而且模型也需要能够做到实时的推理,这里我们展示的是在上海市区场景,在这个场景里可以自由地开车、加减速、转弯。大家所看到的这些视频都与真实世界的物理环境非常接近。

世界模型产品化,开放API后,用户可以描述他所想采用的数据,然后一键生成形成各种各样所期待的视频。我们现在积累的百万级数据集,覆盖各种复杂的场景,能够实现高保真。现如今每一个Clips有150s,车辆有7个摄像头就能保持比1080P更好的图像质量。

再说到基础设施,现在各地政府也建立了实训场,能够提供算力的平台,真实采集实车的数据。另外,有一半的数据也是通过世界模型模拟仿真进行生成,两组数据相结合可以提供给车企进行端到端模型的训练。

最后说下,在自动驾驶场景里使用的世界模型所开发出来的所有技术体系,其实也可以用到具身智能里。具身智能对世界模型的需求更加迫切。因为机器人的数量比车辆数量更少,而且每个机器人硬件的配置千差万别。我们希望在具身智能领域里,世界模型能够做到多模态、数据对齐,能够得到4D空间,能够进行快速的推理。我给大家举两个例子,一是输入一条指令让机器人能够在公园里进行跳跃,就会自动地生成机器人的骨骼、姿态、动作的变化,基于这个能够生成机器人第一视角看到视频的数据和第三视角的数据。另外输入指令让机器臂切黄瓜,同样可以生成第一和第三视角的数据。未来我们可以用这些大量的模拟仿真数据,来推动自动驾驶和具身智能跨越到下一个阶段。

谢谢大家!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296694
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51716
  • 智能驾驶
    +关注

    关注

    5

    文章

    2947

    浏览量

    50965
  • 商汤
    +关注

    关注

    0

    文章

    82

    浏览量

    4269

原文标题:商汤王晓刚:世界模型带来智能驾驶3.0阶段

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2026联想创新科技大会即将启幕

    联想创新科技大会(Lenovo Tech World @ CES)官网于近日正式上线(点击“阅读原文”),这场史上最大规模的全球科技盛宴将于1月6日登陆拉斯维加斯地标场馆Sphere,重磅亮相
    的头像 发表于 11-14 15:15 464次阅读

    临港汽车软件联盟正式成立!于2025软件大会开启“软件定义汽车”新篇章|新闻速递

    裘薇为首批成员单位授牌。联盟由RT-Thread睿赛德、宁德时代智能、滴水智行、商汤、知从科技等企业共同发起,旨在推动临港新片区汽车软件产业协同创新,构建开放
    的头像 发表于 11-13 19:06 5763次阅读
    临港<b class='flag-5'>汽车</b>软件联盟正式成立!于2025软件<b class='flag-5'>大会</b>开启“软件定义<b class='flag-5'>汽车</b>”新篇章|新闻速递

    润芯微科技亮相2025荣耀全球开发者大会

    10 月 23 日,2025 荣耀全球开发者大会AI 终端生态大会在深圳盛大开幕。作为智能终端领域的重要参与者,润芯微科技携核心产品与技术亮相
    的头像 发表于 10-28 16:58 511次阅读

    QNX亮相2025未来汽车AI计算大会

    由盖世汽车主办的第五届未来汽车AI计算大会于9月10日至11日成功举行。本次大会历时一天半,大会
    的头像 发表于 09-16 16:26 837次阅读

    商汤亮相2025长安汽车科技生态大会

    9月5日-8日,商汤受邀参加2025世界智能产业博览会「长安汽车科技生态大会」,作为长安汽车
    的头像 发表于 09-10 16:33 1411次阅读

    台达于2025中国智算产业绿色科技大会推出全球可持续AI报告

    台达受邀出席"2025中国智算产业绿色科技大会",全方位分享台达在智算领域的前沿洞见与绿色解决方案。台达-中达电通总经理宫鸿华在大会主论坛上以《从电网到芯片:台达在AI变革下
    的头像 发表于 08-30 15:10 1282次阅读

    商汤携手NVIDIA亮相第三届链博会

    近日,第三届中国国际供应链促进博览会(以下简称链博会)在北京隆重开幕,全球人工智能领军企业NVIDIA(英伟达)首次参展链博会,亮相NVIDIA展台。
    的头像 发表于 07-30 10:40 1011次阅读

    西井科技亮相2025全球航运科技大会

    近日,由航运界网主办的2025全球航运科技大会在上海成功举行。西井科技荣获大会颁布的2025年航运界十大科技创新应用奖;西井科技副总裁俞铭琪受邀出席大会,并在 “智能港口建设与运营”
    的头像 发表于 06-20 14:45 896次阅读

    燧弘华创亮相2025联想创新科技大会

    近日,联想Tech World 2025创新科技大会在上海世博中心隆重举行。本届大会以“让AI成为创新生产力”为主题,聚焦混合式人工智能,从个人到企业,全方位展示联想在AI领域的前沿成
    的头像 发表于 05-10 14:16 1241次阅读

    工信部辛国斌到访上海车展商汤影展台

    近日,工业和信息化部副部长辛国斌一行到访上海车展商汤影展台。商汤科技联合创始人、首席科学家、商汤
    的头像 发表于 04-30 11:51 601次阅读

    商汤亮相2025上海车展

    近日,第二十一届上海国际汽车工业展览会(下称“2025上海车展”)隆重开幕,商汤携系列生成式AI汽车
    的头像 发表于 04-27 10:44 714次阅读

    2025年联想创新科技大会即将开幕

    正式定档!2025年联想创新科技大会(Tech World),将于5月7日在上海世博中心精彩开幕。大会以“Smarter AI for all 让AI成为创新生产力”为主题,将聚焦混合
    的头像 发表于 04-15 15:58 723次阅读

    商汤王晓刚亮相NVIDIA GTC 2025并发表主题演讲

    商汤科技联合创始人、首席科学家、商汤CEO王晓刚在NVIDIA GTC 2025发表演讲《激发通用人工智能的创造力,引领智能汽车走向全新
    的头像 发表于 03-21 14:37 971次阅读

    四维图新亮相首届大军山·智能汽车科技大会

    近日,由武汉经济技术开发区管委会、中国电动汽车百人会和中国国际贸易促进委员会机械行业分会联合主办的大军山·智能汽车科技大会(2024)在武汉举办。会议以“迎接汽车全面智能化时代”为主题
    的头像 发表于 12-24 17:06 983次阅读

    东软集团亮相首届大军山·智能汽车科技大会

    近日,由中国电动汽车百人会主办的大军山·智能汽车科技大会(2024)在武汉成功举办。作为智能汽车领域的重要盛会,大会以“迎接
    的头像 发表于 12-24 09:42 663次阅读