0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

佐思汽车研究 来源:佐思汽车研究 2025-01-14 11:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CES 2025展会上,英伟达推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。

物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。

为加速机器人自动驾驶汽车行业的工作,Cosmos 模型将以开放模型许可证的方式提供。开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC 目录或 Hugging Face下载整个系列的模型和微调框架。

Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。

Cosmos主要功能,生成虚拟世界状态:Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态,适用于自动驾驶和机器人应用。

生成式模型:平台基于生成式模型快速生成与真实世界场景相似的数据,帮助开发者训练和评估现有的AI模型。

高级标记器和数据处理:Cosmos集成了高级标记器和加速视频处理管道,生成的数据在后续的模型训练中发挥更大的作用。

安全与合规:平台还提供了安全防护机制,确保数据的安全与合规。

开放模型许可:Cosmos将以开放模型许可的形式在Hugging Face和NVIDIA NGC目录中提供,支持开发者进行定制化应用。

Cosmos的技术原理

生成式世界基础模型(WFM):Cosmos使用先进的生成式模型技术,模型包括扩散模型和自回归Transformer模型,能生成与真实世界高度一致的场景。

驾驶环境模拟:Cosmos能生成各种天气和路况条件下的合成数据,为自动驾驶系统的训练提供丰富的场景。

策略模型优化:通过生成大量逼真的驾驶场景,Cosmos可以帮助自动驾驶系统在模拟环境中进行强化学习,优化决策策略模型,测试在不同场景下的性能。

复杂环境适应性训练:Cosmos可以为机器人提供复杂环境的实时模拟,使其感知系统通过合成数据进行训练。

导航与任务执行:基于Cosmos生成的虚拟世界状态,机器人可以更好地理解和适应周围环境,实现更精准的导航和任务执行。

逼真场景生成:Cosmos能生成高度仿真的虚拟世界状态,适用于虚拟现实游戏和仿真训练。例如,开发者可以使用Omniverse创建三维场景,然后通过Cosmos将其转换为逼真的场景,使机器人在模拟环境中进行训练。

工业数字孪生:结合NVIDIA的Omniverse和Cosmos,可以创建工业数字孪生环境,用于工厂和仓库的模拟、测试和优化。这使得在复杂生产设施和配送中心网络中,能更好地进行手动设计、操作和优化。

Cosmos的应用案例

Uber自动驾驶开发:Uber作为首批采用Cosmos的公司之一,基于生成式AI能力,加速了安全、可扩展的自动驾驶解决方案的进程。为Uber的自动驾驶系统提供了丰富的合成数据,帮助其在不同驾驶场景下进行模型训练和优化,提升自动驾驶技术的安全性和可靠性。

小鹏汽车模拟训练:小鹏汽车也采用了Cosmos平台,通过生成各种天气和路况条件下的合成驾驶数据,对自动驾驶算法进行模拟训练。例如,在模拟雨、雪、雾、霾等恶劣天气下,以及城市道路、高速公路等不同路况的场景中,自动驾驶系统可以学习如何更好地感知环境、做出决策和执行操作,提高算法在真实街景中的表现。

1X机器人动态规划:1X公司用Cosmos的仿真引擎,为机器人提供了高保真的力学、运动学和动态交互建模能力。通过闭环模拟,1X机器人可以在虚拟环境中进行动态规划与环境适应性优化,在实际应用场景中实现更精准的导航和任务执行。

Waabi是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。

Wayve是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。

自动驾驶汽车工具链提供商Foretellix将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。

我们来具体看一下Cosmos,英伟达搜集了2000万小时的视频,这些视频数据筛选或者说编审(curation)管线借助许多经过预训练的图像/视频理解模型,从中抽出1亿个2-60秒的片段,每个片段使用VLM视觉语言模型,每256帧提供一个视觉解说(caption),英伟达采用自回归即transformer和扩散diffusion两种模式来生成尽可能多的可用于训练的视频。英伟达使用一万张H100显卡,用时三个月,训练出了Cosmos,当然这个模型会一直升级,英伟达的运算资源自然是不成问题的。

英伟达打造了一种Ray-based orchestration的管线,用于端到端特别是强化学习训练中。

强化学习训练

422e7d62-d08e-11ef-9310-92fbcf53809c.png

图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架构

4249faa6-d08e-11ef-9310-92fbcf53809c.png

图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos实例

42603d98-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

预训练的Cosmos WFM生成高质量的3D视频并且包含正确的物理世界分布与反应。使用连续和分离潜在表示(latent representation)来训练视频。

42972326-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

WFM是基石,再根据下游具体应用做出对应的定制数据集,再进行训练。

华为DriveGPT4

42a6d6ea-d08e-11ef-9310-92fbcf53809c.png

图片来源:华为DriveGPT4论文

这和自动驾驶领域将LLM微调一样,华为使用的是META开源的LLaMA 2,使用BDD-X和ChatGPT做指令微调。这些指令实际就是prompt,它包括动作命令、轨迹规划和具体指令。这些prompt需要从现实物理世界中搜集,并做一一对应。

Cosmos构成

42b48f24-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos视频筛选步骤

42c69b24-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

42e04b82-d08e-11ef-9310-92fbcf53809c.png

上面是Cosmos视频类型构成,驾驶类占了11%,手动作和物体操纵占16%,人类动作和活动占10%,空间认知和导航占16%,第一人称视角占8%,自然动态占20%。由此看出,Cosmos主要还是面向机器人和具身智能的。

Cosmos的Tokenizer

430731e8-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos的Tokenizer可以对应各种类型的输入。

Cosmos扩散WFM模型1.0版架构

4320e552-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos扩散WFM模型1.0版架构,tokenizer分的很细,且是3D的,国内受限于计算资源,都尽量减少token数量,这会导致准确率下降。英伟达自然是丝毫不在意计算资源的。

Cosmos生成多个视角视频

43339260-d08e-11ef-9310-92fbcf53809c.png

Text-conditioned samples generated by Cosmos-1.0-Diffusion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Diffusion-7B-Video2World-Sample-MultiView.

图片来源:英伟达

多视角视频目前国内已知的只有华为的MagicDriveDiT。

434462e8-d08e-11ef-9310-92fbcf53809c.png

Trajectory-conditioned generated samples from Cosmos-1.0-Diffusion-7B-Text2World-SampleMultiView-TrajectoryCond.,给定轨迹,生成需要的视频,同样是多视角的,图片只显示了前摄像头视角。

图片来源:英伟达

436ebe44-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

轨迹误差即TFE的单位是厘米,与真实即groundtruth的误差小于7厘米。

4380b55e-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

视频生成质量指标主要是FID和FVD,FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量。计算每个集合的特征向量的均值和协方差矩阵,并做对比。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。

43919c70-d08e-11ef-9310-92fbcf53809c.png

注:这里的Ours指商汤的InfinityDrive

图片来源:商汤科技

商汤的要比英伟达优秀很多,但英伟达是3D且是多视角,能达到中上游水平已经是相当优秀了,英伟达在3D方面实力是最强的,没有之一。

Cosmos的数据保护

43aa5ae4-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

视频可能牵涉的隐私和安全问题,英伟达已经替你想过了,完全不用担心。

英伟达Cosmos的推出对于智能驾驶特别是端到端智能驾驶有了极大的帮助,厂家的数据成本下降至少95%,数据的质量还更好,对于那些靠搜集真实数据的纯数据集公司来说是灭顶之灾,对于极佳、商汤和华为之流世界模型厂家则提出了严峻的挑战。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31386

    浏览量

    223540
  • AI
    AI
    +关注

    关注

    91

    文章

    40920

    浏览量

    302511
  • 英伟达
    +关注

    关注

    23

    文章

    4112

    浏览量

    99595

原文标题:英伟达推出基石世界模型Cosmos,彻底解决智驾与机器人具身智能训练数据问题

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    破解柔性生产难题:知识驱动智能工业机器人的实战应用指南

    在工业4.0迈向工业5.0的进程中,传统的“固定编程”机器人已无法满足多品种、小批量、高柔性的生产需求。随着人工智能与大模型技术的爆发,
    的头像 发表于 03-06 15:49 267次阅读
    破解柔性生产难题:知识驱动<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工业<b class='flag-5'>机器人</b>的实战应用指南

    Robo.ai子公司获首笔智能机器人数据采集订单

    数据订单,将向美国 DaBoss.AI Inc.(以下简称"DaBoss")提供总计 30,000 小时的智能机器人
    的头像 发表于 02-14 20:16 9042次阅读

    NVIDIA Cosmos世界基础模型如何塑造机器人未来

    在这一演进过程中,世界模型逐渐成为连接高层智能与底层执行的关键基础设施。通过对环境状态及其时间演化进行建模,世界模型使
    的头像 发表于 01-22 16:38 787次阅读
    NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>世界</b>基础<b class='flag-5'>模型</b>如何塑造<b class='flag-5'>机器人</b>未来

    智能交流会

    。展会汇聚 90%+ 核心部件国产化供应链,可快速实现技术落地,坐享粤港澳大湾区 “机器人谷” 核心红利。 2 、同期多展联动 与工业自动化展、机器视觉展同期举办,形成 “感知(视觉)→决策(
    发表于 01-22 09:55

    资讯速递 | 智能PMC(筹)发布“零成本”开源鸿蒙智能机器人系统

    面向智能机器人系统与应用开发,Ubuntu 等操作系统可以用 ROS2 生态、机器人仿真器、英伟
    的头像 发表于 01-05 16:24 781次阅读
    资讯速递 | <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>PMC(筹)发布“零成本”开源鸿蒙<b class='flag-5'>智能</b><b class='flag-5'>机器人</b>系统

    大晓机器人发布开悟3.0,国产世界模型机器人拥有“超级大脑”

    机器人的使命就是让每个机器人都拥有一个聪明的大脑,洞察万物,学会与视觉精准交互。   在此背景下,大晓机器人凭借其原创的“世界模型”技术体系
    的头像 发表于 12-25 09:25 2752次阅读
    大晓<b class='flag-5'>机器人</b>发布开悟3.0,国产<b class='flag-5'>世界</b><b class='flag-5'>模型</b>让<b class='flag-5'>机器人</b>拥有“超级大脑”

    【前瞻技术布局】咖啡机器人智能技术首阶段探索与实践

    -动作”大模型等方法研究。本文主要以第一阶段 咖啡机器人 任务场景为切入点,来阐述所取得的技术突破,以及后续技术优化方向。如下是机器人全程自主完成打咖啡的视频。 二、问题定义和路径选择
    的头像 发表于 12-23 18:56 174次阅读
    【前瞻技术布局】咖啡<b class='flag-5'>机器人</b>:<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>技术首阶段探索与实践

    银河通用机器人拿下1000 台机器人订单,推进智能工业场景深度应用

    模型技术+场景深耕的双轮驱动,银河通用机器人成中国第一 北京2025年12月23日 /美通社/ -- 12月22日,银河通用机器人(以
    的头像 发表于 12-23 18:24 1836次阅读
    银河通用<b class='flag-5'>机器人</b>拿下1000 台<b class='flag-5'>机器人</b>订单,推进<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工业场景深度应用

    【「AI芯片:科技探索与AGI愿景」阅读体验】+智能芯片

    。 决策层: 决策层是智能的第三个主要层次,负责根据已有信息做出决策或行动。 包括各种规则引擎、决策配套系统等。它的作用是根据已有信息做出最优决策或行动。决策层可以使用各种控制器,如机器人
    发表于 09-18 11:45

    英伟发布机器人 “新大脑”,黄仁勋:人形机器人三年普及

    英伟机器人技术领域取得重大突破,推出开源物理 AI 模型 Cosmos Reason,这一进
    的头像 发表于 08-25 18:34 522次阅读

    机器人十大发展趋势

    高保真的训练环境,世界模型可以提供环境当中比较本质的内部特征。三者融合既可以保证丰富、有效、真实的环境,也可以用于训练
    的头像 发表于 08-12 13:22 2093次阅读
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>机器人</b>十大发展趋势

    利用NVIDIA Cosmos模型训练通用机器人

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础
    的头像 发表于 08-05 16:22 2235次阅读
    利用NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b><b class='flag-5'>训练</b>通用<b class='flag-5'>机器人</b>

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的
    的头像 发表于 07-14 11:49 1256次阅读
    通过NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增强<b class='flag-5'>机器人</b>学习

    盘点#机器人开发平台

    图,电子技术资料网站智能机器人****开发平台——Fibot广和通发布机器人开发平台-电子发烧友网NVIDIA Isaac
    发表于 05-13 15:02

    智能时代来临,灵途科技助力人形机器人“感知升级”

    4月22日至24日,生产设备暨微电子工业展(NEPCON China 2025)在上海如期开展。本届展会重磅推出“人形机器人拆解展区”,汇聚35+家具智能产业链领军企业,围绕机械结构
    的头像 发表于 04-28 09:31 804次阅读
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>时代来临,灵途科技助力人形<b class='flag-5'>机器人</b>“感知升级”