NVIDIA 的数据工厂团队为NVIDIACosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
AI 模型正以惊人的速度与规模不断发展。
但它们缺少了人类与生俱来的哪种能力呢?答案是“常识”。常识是一种通过现实生活经验形成的认知:比如鸟类无法倒着飞、镜子能够反射、冰会融化成水。
对人类而言,这些常识显而易见。但对于需要精准回答复杂问题、在工业仓库或道路等不可预测的物理环境中运行的 AI 模型来说,这些知识必须通过“教学”才能掌握。
为解决这一难题,NVIDIA 正在开发一套测试方案,旨在教会 AI 模型认知物理世界的运行边界。简言之,就是教会 AI 常识。
这些测试被用于开发推理模型,比如NVIDIA Cosmos Reason。这是一款用于物理 AI 应用的开源视觉语言推理模型(VLM),能够生成具有时间关联性的响应。目前,Cosmos Reason 已在 Hugging Face 的物理推理模型排行榜中位居第一。
相较于传统视觉语言模型,NVIDIACosmos Reason 的独特价值在于:它专为加速机器人、自动驾驶汽车及智能空间等物理 AI 的开发而设计,能够基于物理常识知识,对之前没有经历过的场景进行推理。
要让 AI 模型真正理解工业空间、实验室等复杂环境,需从基础认知开始构建。例如,在下方展示的测试中,NVIDIACosmos Reason 需要回答关于视频中和相对运动有关的选择题。
NVIDIACosmos Reason 评估数据集的示例
什么是 AI 模型的推理能力?
为提升模型的推理能力,NVIDIA 采用强化学习的方式,让模型学习关于现实世界的物理常识。
举例说明,机器人无法凭直觉分辨左、右、上、下,它们需要通过训练才能理解这些时空概念;用于安全测试,比如汽车碰撞测试的 AI 驱动机器人,也必须经过训练才能理解自身物理形态如何与周围环境互动。
如果在训练过程中没有教会机器人常识,在实际部署时就可能出现问题。
NVIDIA Cosmos Reason 研究科学家 Yin Cui 表示:“如果缺乏对物理世界的基础认知,机器人可能跌倒,或者导致意外损毁物品,进而对人员及环境的安全构成威胁。”
NVIDIA 正通过将人类对物理世界的常识“注入”AI 模型,推动下一代 AI 的发展。
NVIDIA 数据工厂团队由来自生物工程、商业和语言学等多元背景的全球分析师构成,他们致力于开发、分析并整合数十万条数据单元,为生成式 AI 的推理训练提供核心数据支撑。
数据整理流程
NVIDIA 数据工厂团队的核心项目之一,是开发面向物理 AI 应用的世界基础模型。这些虚拟环境能构建深度学习神经网络,基于仿真场景为推理模型训练提供更安全、更高效的支持。
NVIDIA 数据标注团队率先启动流程,他们基于真实世界视频数据设计问答对。视频内容涵盖各类场景,从鸡在鸡舍中活动,到汽车在乡间道路行驶。
例如,某个标注员可能会针对下面的视频提出问题:“画面中的人是用哪只手切意大利面?”
NVIDIACosmos Reason 评估数据集的示例
随后,标注员会给出 A、B、C、D 四个选项。模型获取这些数据后,进行推理并选择正确答案。
Yin Cui 表示:“我们本质上是在给模型设计测试题。所有问题都采用选择题形式,就像学生在学校考试中遇到的题目一样。”
这些问答对随后由 Michelle Li 等 NVIDIA 的分析师进行质量检查。
Li 拥有公共卫生和数据分析学背景,这让她能够从更宏观的角度看待所分析的数据。
她说:“对于物理 AI ,我们的特定目标是训练模型理解物理世界,这一目标让我在审核问答对和问题类型时,始终保持全局视角。我会问自己,这些问答对是否符合项目的目标和准则要求?”
之后,数据会由项目的数据工厂负责人审核,确保其符合质量标准并可交付至NVIDIACosmos Reason 研究团队。科学家们随后将数十万条数据单元(即问答对)输入模型,通过强化学习训练其理解物理世界的边界和限制。
推理型 AI 有哪些应用场景?
推理模型的优势在于,它们既能理解自身所处的时空环境,也能预测结果。这类模型可分析情境,生成可能结果的逻辑思维网络,并推断出最可能的场景。
简而言之,推理式 AI 展现了类似人类的思维。它会展示思考过程,让用户能够理解其响应背后的逻辑。
用户可要求模型分析视频内容,如两辆车在路上行驶的场景。当被问到“如果这两辆车在同一车道上相向而行会发生什么?”时,模型能够推理并判定该假设情景的最可能结果,比如两车相撞。
NVIDIA Cosmos Reason 团队首席研究科学家 Tsung-Yi Lin 表示:“我们正在开发一种以物理 AI 为核心的突破性推理模型。“
随着 NVIDIA 持续推进推理模型创新,数据工厂团队的高质量数据生产能力,将对开发能安全与现实世界交互的自主的智能体以及物理 AI 系统起到关键作用。
您可以在 Hugging Face 和 GitHub 预览或下载 NVIDIA Cosmos-Reason1 模型。
-
NVIDIA
+关注
关注
14文章
5496浏览量
109067 -
AI
+关注
关注
89文章
38087浏览量
296413 -
模型
+关注
关注
1文章
3648浏览量
51701
原文标题:人类如何教会 AI 模型学会推理?
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
大模型推理显存和计算量估计方法研究
基于RAKsmart云服务器的AI大模型实时推理方案设计
首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手
谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命
Qwen大模型助力开发低成本AI推理方案
OpenAI即将推出o3 mini推理AI模型
新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

什么是AI模型的推理能力
评论