什么是AI模型的推理能力-电子发烧友网

NVIDIA 的数据工厂团队为NVIDIACosmos Reason 等 AI 模型奠定了基础，该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。

AI 模型正以惊人的速度与规模不断发展。

但它们缺少了人类与生俱来的哪种能力呢？答案是“常识”。常识是一种通过现实生活经验形成的认知：比如鸟类无法倒着飞、镜子能够反射、冰会融化成水。

对人类而言，这些常识显而易见。但对于需要精准回答复杂问题、在工业仓库或道路等不可预测的物理环境中运行的 AI 模型来说，这些知识必须通过“教学”才能掌握。

为解决这一难题，NVIDIA 正在开发一套测试方案，旨在教会 AI 模型认知物理世界的运行边界。简言之，就是教会 AI 常识。

这些测试被用于开发推理模型，比如NVIDIA Cosmos Reason。这是一款用于物理 AI 应用的开源视觉语言推理模型（VLM），能够生成具有时间关联性的响应。目前，Cosmos Reason 已在 Hugging Face 的物理推理模型排行榜中位居第一。

相较于传统视觉语言模型，NVIDIACosmos Reason 的独特价值在于：它专为加速机器人、自动驾驶汽车及智能空间等物理 AI 的开发而设计，能够基于物理常识知识，对之前没有经历过的场景进行推理。

要让 AI 模型真正理解工业空间、实验室等复杂环境，需从基础认知开始构建。例如，在下方展示的测试中，NVIDIACosmos Reason 需要回答关于视频中和相对运动有关的选择题。

NVIDIACosmos Reason 评估数据集的示例

什么是 AI 模型的推理能力？

为提升模型的推理能力，NVIDIA 采用‌强化学习‌的方式，让模型学习关于现实世界的物理常识。

举例说明，机器人无法凭直觉分辨左、右、上、下，它们需要通过训练才能理解这些时空概念；用于安全测试，比如汽车碰撞测试的 AI 驱动机器人，也必须经过训练才能理解自身物理形态如何与周围环境互动。

如果在训练过程中没有教会机器人常识，在实际部署时就可能出现问题。

NVIDIA Cosmos Reason 研究科学家 Yin Cui 表示：“如果缺乏对物理世界的基础认知，机器人可能跌倒，或者导致意外损毁物品，进而对人员及环境的安全构成威胁。”

NVIDIA 正通过将人类对物理世界的常识“注入”AI 模型，推动下一代 AI 的发展。

NVIDIA 数据工厂团队由来自生物工程、商业和语言学等多元背景的全球分析师构成，他们致力于开发、分析并整合数十万条数据单元，为生成式 AI 的推理训练提供核心数据支撑。

数据整理流程

NVIDIA 数据工厂团队的核心项目之一，是开发面向物理 AI 应用的世界基础模型。这些虚拟环境能构建深度学习神经网络，基于仿真场景为推理模型训练提供更安全、更高效的支持。

NVIDIA 数据标注团队率先启动流程，他们基于真实世界视频数据设计问答对。视频内容涵盖各类场景，从鸡在鸡舍中活动，到汽车在乡间道路行驶。

例如，某个标注员可能会针对下面的视频提出问题：“画面中的人是用哪只手切意大利面？”

NVIDIACosmos Reason 评估数据集的示例

随后，标注员会给出 A、B、C、D 四个选项。模型获取这些数据后，进行推理并选择正确答案。

Yin Cui 表示：“我们本质上是在给模型设计测试题。所有问题都采用选择题形式，就像学生在学校考试中遇到的题目一样。”

这些问答对随后由 Michelle Li 等 NVIDIA 的分析师进行质量检查。

Li 拥有公共卫生和数据分析学背景，这让她能够从更宏观的角度看待所分析的数据。

她说：“对于物理 AI ，我们的特定目标是训练模型理解物理世界，这一目标让我在审核问答对和问题类型时，始终保持全局视角。我会问自己，这些问答对是否符合项目的目标和准则要求？”

之后，数据会由项目的数据工厂负责人审核，确保其符合质量标准并可交付至NVIDIACosmos Reason 研究团队。科学家们随后将数十万条数据单元（即问答对）输入模型，通过强化学习训练其理解物理世界的边界和限制。

推理型 AI 有哪些应用场景？

推理模型的优势在于，它们既能理解自身所处的时空环境，也能预测结果。这类模型可分析情境，生成可能结果的逻辑思维网络，并推断出最可能的场景。

简而言之，推理式 AI 展现了类似人类的思维。它会展示思考过程，让用户能够理解其响应背后的逻辑。

用户可要求模型分析视频内容，如两辆车在路上行驶的场景。当被问到“如果这两辆车在同一车道上相向而行会发生什么？”时，模型能够推理并判定该假设情景的最可能结果，比如两车相撞。

NVIDIA Cosmos Reason 团队首席研究科学家 Tsung-Yi Lin 表示：“我们正在开发一种以物理 AI 为核心的突破性推理模型。“

随着 NVIDIA 持续推进推理模型创新，数据工厂团队的高质量数据生产能力，将对开发能安全与现实世界交互的自主的智能体以及物理 AI 系统起到关键作用。

您可以在 Hugging Face 和 GitHub 预览或下载 NVIDIA Cosmos-Reason1 模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：人类如何教会 AI 模型学会推理？

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

什么是AI模型的推理能力