英伟达近期发布的Cosmos-Reason1模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言模型,它通过融合视觉感知与复杂逻辑推理,重新定义了AI对物理世界的理解边界。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读:
Cosmos-Reason 1:从物理 AI 常识到具体决策
物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Reason1 模型,该模型可以理解物理世界并通过长链推理过程以自然语言生成适当的具体决策(例如,下一步行动)。我们首先定义物理 AI 推理的关键功能,重点介绍物理常识和具身推理。为了表示物理常识,我们使用了分层本体,它捕获了有关空间、时间和物理学的基本知识。对于具身推理,我们依赖于一个二维本体论,它泛化了不同的物理体现。基于这些功能,我们开发了两个多模态大型语言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据和训练我们的模型:视觉预训练、一般监督微调 (SFT)、物理 AI SFT 和物理 AI 强化学习 (RL) 作为后训练。为了评估我们的模型,我们根据我们的本体为物理常识和具体推理构建了全面的基准。评估结果表明,Physical AI SFT 和强化学习带来了显著的改进。为了促进物理 AI 的开发,我们将在 NVIDIA 开放模型许可下提供我们的代码和预训练模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。
作者
出版日期
2025 年 3 月 18 日,星期二
研究领域
一、技术架构:混合架构突破物理推理瓶颈
Cosmos-Reason1采用 Mamba-MLP-Transformer混合架构 ,这是英伟达对物理AI领域的一次重要创新:
- 视觉编码器 :使用InternViT-300M-V2.5处理图像/视频,将视觉信息压缩为256个token,保留全局上下文。
- 模态对齐 :通过两层MLP投影器,将视觉token映射到文本嵌入空间,实现视觉与语言模态的统一处理。
- 混合解码器 :结合Mamba架构(擅长空间关系建模)与Transformer(长程依赖捕捉),弥补纯Transformer在空间理解上的短板。
该架构支持80亿(8B)和560亿(56B)参数两种规模,训练时分别采用张量并行(TP=4)和流水线并行(TP=8+PP=2),可处理长达32帧的视频输入。
二、训练策略:四阶段强化物理常识
模型训练分为四个递进阶段,体现英伟达在物理AI数据构建上的深度思考:
- 视觉预训练 :
- 使用1.3亿图像文本对(含模型生成字幕)对齐视觉与语言模态。
- 仅训练MLP投影器,冻结LLM主干以保留语言理解能力。
- 通用监督微调(SFT) :
- 在600万图像+200万视频文本数据上微调,增强基础视觉语言任务能力。
- 数据覆盖字幕生成、视觉问答等通用任务。
- 物理AI监督微调 :
- 创新构建物理常识与具身推理专用数据集,包含:
- 物理常识VQA :通过模型生成假设性问题(如“若视频中的扳手松动,会如何运动?”),并提取推理轨迹。
- 具身推理SFT :从人机协作视频中分解短时动作片段,标注任务完成验证、行动可行性等推理标签。
- 创新构建物理常识与具身推理专用数据集,包含:
- 强化学习(RL)后训练 :
- 设计基于物理规则的奖励机制,优化复杂场景下的推理能力。例如:
- 时间箭头检测 :判断视频是否正序播放。
- 空间谜题 :推理物体在遮挡后的位置。
- 物体永久性 :理解被遮挡物体持续存在的物理法则。
- 设计基于物理规则的奖励机制,优化复杂场景下的推理能力。例如:
三、核心能力:三维物理世界的“牛顿式”推理
模型在物理常识与具身推理基准测试上表现出色,具体体现在:
- 物理法则内化 :
- 通过16层知识图谱编码重力、惯性等基础物理定律。例如:
- 能计算“暴雨中卡车打滑需提前0.3秒修正方向”。
- 预判“机械臂扭矩超限可能导致设备损坏”。
- 通过16层知识图谱编码重力、惯性等基础物理定律。例如:
- 长链思考能力 :
- 跨模态一致性 :
- 统一处理图像、视频、文本模态。例如:
- 通过热成像视频判断火灾现场承重墙状态,规划逃生路径。
- 解析“用扳手敲击玻璃”的视频后,能推理出“玻璃可能破裂”的结论。
- 统一处理图像、视频、文本模态。例如:
四、行业影响:物理世界的决策革命
Cosmos-Reason1的突破将重塑多个领域:
- 自动驾驶 :
- 超越传统视觉识别,实现物理预判。例如:
- 预判道路施工并提前规划变道,计算车流间隙是否满足2.3秒变道时间。
- 超越传统视觉识别,实现物理预判。例如:
- 工业机器人 :
- 使机械臂具备“物理直觉”。如:
- 抓取零件时主动预警“当前扭矩超出轴承极限”,建议功率下调15%。
- 使机械臂具备“物理直觉”。如:
- 物理模拟与训练 :
- 开源生态布局 :
总结:物理AI的“认知飞轮”
Cosmos-Reason1通过混合架构、强化学习、物理法则编码三大创新,构建了从感知到推理的完整闭环。它不再是被动的“观察者”,而是能主动运用物理法则进行决策的“参与者”。这种能力可能催生新一代具身智能体,在物理世界中展现出更接近人类的智能行为。
-
模型
+关注
关注
1文章
3656浏览量
51753 -
英伟达
+关注
关注
23文章
4047浏览量
97762
发布评论请先 登录
进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片
超越英伟达Pascal五倍?揭秘英特尔深度学习芯片架构 精选资料推荐
英伟达DPU的过“芯”之处
英伟达推出AI模型推理服务NVIDIA NIM
英伟达Cosmos AI项目曝光:构建先进视频模型
英伟达推出Eagle系列模型
英伟达发布Cosmos世界基础模型
英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

英伟达Cosmos-Reason1 模型深度解读
评论