0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Cosmos-Reason1 模型深度解读

eeDesigner 2025-03-29 23:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达近期发布的Cosmos-Reason1模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言模型,它通过融合视觉感知与复杂逻辑推理,重新定义了AI对物理世界的理解边界。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读:

Cosmos-Reason 1:从物理 AI 常识到具体决策

物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Reason1 模型,该模型可以理解物理世界并通过长链推理过程以自然语言生成适当的具体决策(例如,下一步行动)。我们首先定义物理 AI 推理的关键功能,重点介绍物理常识和具身推理。为了表示物理常识,我们使用了分层本体,它捕获了有关空间、时间和物理学的基本知识。对于具身推理,我们依赖于一个二维本体论,它泛化了不同的物理体现。基于这些功能,我们开发了两个多模态大型语言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据和训练我们的模型:视觉预训练、一般监督微调 (SFT)、物理 AI SFT 和物理 AI 强化学习 (RL) 作为后训练。为了评估我们的模型,我们根据我们的本体为物理常识和具体推理构建了全面的基准。评估结果表明,Physical AI SFT 和强化学习带来了显著的改进。为了促进物理 AI 的开发,我们将在 NVIDIA 开放模型许可下提供我们的代码和预训练模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。

作者

林宗义刘明宇

出版日期

2025 年 3 月 18 日,星期二

研究领域

自动驾驶汽车

生成式 AI

物理 AI

机器人

上传的文件:*附件:Cosmos_Reason1_Paper.pdf

一、技术架构:混合架构突破物理推理瓶颈

Cosmos-Reason1采用 Mamba-MLP-Transformer混合架构 ,这是英伟达对物理AI领域的一次重要创新:

  1. 视觉编码器 :使用InternViT-300M-V2.5处理图像/视频,将视觉信息压缩为256个token,保留全局上下文。
  2. 模态对齐 :通过两层MLP投影器,将视觉token映射到文本嵌入空间,实现视觉与语言模态的统一处理。
  3. 混合解码器 :结合Mamba架构(擅长空间关系建模)与Transformer(长程依赖捕捉),弥补纯Transformer在空间理解上的短板。

该架构支持80亿(8B)和560亿(56B)参数两种规模,训练时分别采用张量并行(TP=4)和流水线并行(TP=8+PP=2),可处理长达32帧的视频输入。

二、训练策略:四阶段强化物理常识

模型训练分为四个递进阶段,体现英伟达在物理AI数据构建上的深度思考:

  1. 视觉预训练
    • 使用1.3亿图像文本对(含模型生成字幕)对齐视觉与语言模态。
    • 仅训练MLP投影器,冻结LLM主干以保留语言理解能力。
  2. 通用监督微调(SFT)
    • 在600万图像+200万视频文本数据上微调,增强基础视觉语言任务能力。
    • 数据覆盖字幕生成、视觉问答等通用任务。
  3. 物理AI监督微调
    • 创新构建物理常识与具身推理专用数据集,包含:
      • 物理常识VQA :通过模型生成假设性问题(如“若视频中的扳手松动,会如何运动?”),并提取推理轨迹。
      • 具身推理SFT :从人机协作视频中分解短时动作片段,标注任务完成验证、行动可行性等推理标签
  4. 强化学习(RL)后训练
    • 设计基于物理规则的奖励机制,优化复杂场景下的推理能力。例如:
      • 时间箭头检测 :判断视频是否正序播放。
      • 空间谜题 :推理物体在遮挡后的位置。
      • 物体永久性 :理解被遮挡物体持续存在的物理法则。

三、核心能力:三维物理世界的“牛顿式”推理

模型在物理常识与具身推理基准测试上表现出色,具体体现在:

  1. 物理法则内化
    • 通过16层知识图谱编码重力、惯性等基础物理定律。例如:
      • 能计算“暴雨中卡车打滑需提前0.3秒修正方向”。
      • 预判“机械臂扭矩超限可能导致设备损坏”。
  2. 长链思考能力
    • 生成包含37步的维修操作思维链,细节精确到“砂石地面禁用千斤顶”。
    • 自动驾驶场景中,200毫秒内完成“后视镜影像识别→相对速度计算→碰撞预判→决策延迟变道”的完整推理。
  3. 跨模态一致性
    • 统一处理图像、视频、文本模态。例如:
      • 通过热成像视频判断火灾现场承重墙状态,规划逃生路径。
      • 解析“用扳手敲击玻璃”的视频后,能推理出“玻璃可能破裂”的结论。

四、行业影响:物理世界的决策革命

Cosmos-Reason1的突破将重塑多个领域:

  1. 自动驾驶
    • 超越传统视觉识别,实现物理预判。例如:
      • 预判道路施工并提前规划变道,计算车流间隙是否满足2.3秒变道时间。
  2. 工业机器人
    • 使机械臂具备“物理直觉”。如:
      • 抓取零件时主动预警“当前扭矩超出轴承极限”,建议功率下调15%。
  3. 物理模拟与训练
    • 可生成高真实度虚拟场景,加速机器人训练。例如:
      • 在模拟的十万次车祸中优化应急决策算法
  4. 开源生态布局
    • 英伟达开放8B模型及训练框架,吸引开发者进入CUDA生态。企业若需更高性能,可能转向其DGX服务器和Blackwell芯片。

总结:物理AI的“认知飞轮”

Cosmos-Reason1通过混合架构、强化学习、物理法则编码三大创新,构建了从感知到推理的完整闭环。它不再是被动的“观察者”,而是能主动运用物理法则进行决策的“参与者”。这种能力可能催生新一代具身智能体,在物理世界中展现出更接近人类的智能行为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3656

    浏览量

    51753
  • 英伟达
    +关注

    关注

    23

    文章

    4047

    浏览量

    97762
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    。 **英伟Blackwell架构在数据中心方面的应用有哪些?** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的 AI 大
    发表于 05-13 17:16

    超越英伟Pascal五倍?揭秘英特尔深度学习芯片架构 精选资料推荐

    在被英特尔收购两年之后,深度学习芯片公司 Nervana 终于准备将代号为「Lake Crest」的架构转化为实际的产品了。对于英特尔来说,现在入局或许有些迟到,英伟已经占据深度学习
    发表于 07-26 07:04

    英伟DPU的过“芯”之处

    ,AI硬件正成为越来越多数据中心扩容建设的关键所在。当超强AI算力成为数据中心的刚需,英伟GPU凭借强大的并行计算和浮点能力,突破了深度学习的算力瓶颈,成为AI硬件的首选。这一契机才使得英伟
    发表于 03-29 14:42

    英伟推出AI模型推理服务NVIDIA NIM

    英伟近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万英伟
    的头像 发表于 06-04 09:15 1231次阅读

    英伟Cosmos AI项目曝光:构建先进视频模型

    近日,英伟内部一项名为Cosmos的AI项目浮出水面,引起了业界的广泛关注。该项目尚处于保密阶段,未向公众正式发布,但其雄心勃勃的目标已初露端倪。Cosmos旨在构建一个集光传输、物
    的头像 发表于 08-07 16:51 1063次阅读

    英伟推出Eagle系列模型

    英伟最新推出的Eagle系列模型,以其1024×1024像素的高分辨率处理能力,重新定义了视觉信息处理的边界。该模型通过多专家视觉编码器架构,每个编码器专注于特定任务训练,极大地增强
    的头像 发表于 09-03 16:13 1085次阅读

    英伟发布Cosmos世界基础模型

    近日,在2025年1月6日于拉斯维加斯拉开帷幕的国际消费类电子产品展览会(CES)上,英伟宣布了一项重大创新——Cosmos世界基础模型
    的头像 发表于 01-09 10:23 951次阅读

    英伟推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    CES 2025展会上,英伟推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。 物理
    的头像 发表于 01-14 11:04 2142次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>推出基石世界<b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解决智驾与机器人具身智能训练数据问题

    英伟GROOT N1 全球首个开源人形机器人基础模型

    英伟GROOT N1 全球首个开源人形机器人基础大模型
    的头像 发表于 03-20 11:05 1750次阅读

    英伟GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    模型可实现物理 AI 的预测、可控世界生成和推理。 两款全新Blueprint为机器人和自动驾驶汽车后训练提供海量物理 AI 合成数据生成技术。 1X、Agility Robotics
    的头像 发表于 03-20 19:01 1192次阅读

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期发布了 Cosmos Reason-1 的 7B 和 56B 两款多模态大语言模型 (MLLM),它们经过了“物理 AI 监督微调”和“物理 AI 强化学习”两个阶段的训练。其中
    的头像 发表于 06-04 13:43 717次阅读

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 开源其物理 AI 平台 NVIDIA Cosmos 中的关键模型——NVIDIA Cosmos Reason-1-7B。这款先进的多模态大
    的头像 发表于 07-09 10:17 587次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理
    的头像 发表于 09-23 15:19 898次阅读

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Cosmos
    的头像 发表于 12-01 09:25 584次阅读

    今日看点:象帝先推出首款量产Imagination DXD GPU显卡;小米汽车累计交付突破 50 万台

    ,能够同时处理文本与图像信息,使车辆能够“看见”周围环境,并基于所感知的内容做出决策。   该新模型基于英伟此前推出的 Cosmos-Reason 推理
    发表于 12-02 10:24 750次阅读