0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA发布Nemotron 3 Nano Omni开放式多模态模型

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-05-08 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这一领先的开放式全模态推理模型可提供更高的效率和准确性,能够为计算机操作、文档智能和音频-视频推理等智能体工作流提供动力。

如今的 AI 智能体系统需要分别调用视觉、语音和语言模型 —— 而在模型间传递数据的过程中,不仅耗时,还会丢失上下文信息。

今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像和文本进行高级推理,从而提供更快、更智能的响应。这一出色的模型为企业和开发者提供了一条生产路径,帮助其构建更高效且更准确的多模态 AI 智能体,并赋予他们完全的部署灵活性与控制权。

Nemotron 3 Nano Omni 凭借其较高的准确性和成本优势,为开放式多模态模型设定了新的效率边界,并在复杂文档智能以及视频和音频理解领域的六项榜单中名列前茅。

目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir 和Pyler,同时戴尔科技、Docusign、Infosys、K-Dense、Lila、Oracle 和Zefr正在评估该模型。

H Company 首席执行官 Gautier Cloix 表示:“要构建实用的智能体,不能花几秒钟等待模型来解析屏幕。我们的智能体基于 Nemotron 3 Nano Omni 进行构建,可以快速解析全高清屏幕录制内容 —— 而这在过去是无法实现的。这不仅仅是速度上的提升,也改变了我们的智能体实时感知和与数字环境交互的方式。

Nemotron 3 Nano Omni 助力打造更快、更精简的多模态智能体

试想一个客户支持 AI 智能体在处理屏幕录制内容的同时,还需要分析上传的通话音频并检查数据日志;或是一个财务 AI 智能体需要负责解析多个 PDF、电子表格、图表和语音笔记。如今,大多数智能体系统都通过独立的视觉、语音和语言模型来完成这些任务。

这种方法会因为重复推理而增加延迟,导致不同模态之间的上下文碎片化,并随时间推移增加成本和误差性。
通过在其 30B-A3B 的混合专家模型 (MoE)架构中结合视觉和音频编码器,Nemotron 3 Nano Omni 无需独立的感知模型,从而大规模提高推理效率。它将这种效率与强大的多模态感知准确性相结合,使 AI 系统在保持相同交互性能的情况下,实现比其他开放式全模态模型高 9 倍的吞吐量。因此,其能够在不牺牲响应速度或质量的前提下降低成本并提高可扩展性。

在智能体系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型,例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra,同时也可结合其他供应商的专有模型协同工作,来支持计算机操作、文档智能和音频-视频推理等智能体工作流中的子智能体。

计算机操作智能体 ——Nemotron 3 Nano Omni 为智能体提供感知回路,帮助其在图形用户界面导航、对屏幕内容进行推理,并理解随时间变化的用户界面状态。H Company 最新推出的由 Nemotron 3 Nano Omni 驱动的计算机操作智能体,采用 1920×1080 像素的原生输入分辨率,以实现高保真视觉推理。在对 OSWorld 基准测试的初步评估中,这种集成在导航复杂图形界面上实现了重大飞跃,并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。

文档智能 ——解析文档、图表、表格、屏幕截图和混合媒体输入,使智能体能够连贯地推理视觉结构和文本内容。这对企业分析和合规性工作流至关重要。

音频和视频理解 ——针对客户服务、研究和监测工作流,Nemotron 3 Nano Omni 能够保持音频-视频上下文,将所说、所显示和所记录的内容绑定到单个推理流中,而非毫无关联的摘要。

开放且可定制,随处可部署

Nemotron 3 Nano Omni 发布时附带开放权重、数据集和训练技术,赋予组织对模型定制和部署方式的完全透明度与控制力。

开发者可以使用诸如NVIDIA NeMo等工具来定制、评估和优化特定领域的用例。由于 Nemotron 系列模型是开放的,组织可以将其部署在符合监管、主权或数据本地化要求的环境中。

过去一年中,Nemotron 3 系列 —— 包括 Nano、Super 和 Ultra 模型 —— 下载量已超 5,000 万次。Omni 将该系列的能力扩展到多模态和智能体领域。

该模型已在Hugging Face、OpenRouter和NVIDIA 官网以 NVIDIA NIM 的形式上线,并通过广泛的NVIDIA 云合作伙伴、推理平台和云服务提供商生态系统提供支持。

其开放、轻量级的架构可支持从NVIDIA Jetson硬件、NVIDIA DGX Spark等本地系统到数据中心和云环境的一致性部署。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5707

    浏览量

    110154
  • AI
    AI
    +关注

    关注

    91

    文章

    41477

    浏览量

    302795
  • 模型
    +关注

    关注

    1

    文章

    3844

    浏览量

    52295

原文标题:NVIDIA 发布 Nemotron 3 Nano Omni 模型,融合视觉、音频和语言,助力 AI 智能体效率提升高达 9 倍

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模态模型 前沿算法与实战应用 第一季》精品课程简介

    优化 模态模型参数量大,需采用混合精度训练(FP16+FP32)和梯度累积技术减少显存占用。例如在训练视频理解模型时,可将batch size从16降至4,同时通过梯度累积模拟16的
    发表于 05-01 17:46

    NVIDIA开放模型助力构建下一代数字健康智能体

    NVIDIA Nemotron 系列开放模型NVIDIA NeMo 库正在为临床医生、研究人员和开发者提供
    的头像 发表于 03-25 09:46 473次阅读

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    新闻摘要: ● NVIDIA Nemotron Coalition 是模型构建者和 AI 实验室的首个此类全球合作项目,致力于通过共享专业知识、数据和计算来推进开放前沿基础
    的头像 发表于 03-17 11:14 353次阅读
    <b class='flag-5'>NVIDIA</b> 成立由全球领先 AI 实验室组成的 <b class='flag-5'>Nemotron</b> Coalition,推动<b class='flag-5'>开放</b>前沿<b class='flag-5'>模型</b>发展

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    新闻摘要: ●NVIDIA Nemotron 3模态理解模型 (Omni-understan
    的头像 发表于 03-17 09:18 554次阅读
    <b class='flag-5'>NVIDIA</b> 扩展<b class='flag-5'>开放</b><b class='flag-5'>模型</b>系列,推动代理式、物理和医疗 AI 下一阶段发展

    全新NVIDIA Nemotron 3 Super模型重磅发布

    一款全新的开放 1,200 亿参数混合式 MoE (mixture‑of‑experts) 模型,专为 NVIDIA Blackwell 进行了优化,可解决拖慢自主智能体工作流的长时推理和上下文爆炸的成本难题。
    的头像 发表于 03-16 16:22 561次阅读

    利用NVIDIA Nemotron开放模型构建智能文档处理系统

    基于 NVIDIA Nemotron 开放模型的 AI 驱动文档智能,增强科学研究、金融和法律等领域工作流。
    的头像 发表于 02-25 11:21 721次阅读

    NVIDIA在CES 2026发布全新开放模型、数据和工具

    为扩展开放模型生态,NVIDIA 发布全新开放模型、数据和工具,推动各行业 AI 技术的发展。
    的头像 发表于 01-09 10:42 763次阅读

    深入解析NVIDIA Nemotron 3系列开放模型

    这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构,使智能体系统能够进行快速长上下文推理。
    的头像 发表于 12-24 10:34 4380次阅读
    深入解析<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> <b class='flag-5'>3</b>系列<b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    NVIDIA 推出 Nemotron 3 系列开放模型

    新闻摘要: ● Nemotron 3 系列开放模型包含 Nano、Super 和 Ultra 三种规模,具有极高的效率和领先的精度,适用于代
    的头像 发表于 12-16 09:27 877次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Nemotron</b> <b class='flag-5'>3</b> 系列<b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRI
    的头像 发表于 12-13 09:50 1601次阅读

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova
    的头像 发表于 12-08 11:19 1207次阅读
    商汤科技正式<b class='flag-5'>发布</b>并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025构建高性能AI应用

    搜索和调用外部 AI 模型的 SQL 原生 API。NVIDIA 与微软共同将 SQL Server 2025 与 NVIDIA Nemotron RAG
    的头像 发表于 12-01 09:31 1106次阅读
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> RAG和Microsoft SQL Server 2025构建高性能AI应用

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI
    的头像 发表于 12-01 09:25 1510次阅读

    面向科学仿真的开放模型系列NVIDIA Apollo正式发布

    用于加速工业和计算工程的开放模型系列 NVIDIA Apollo 于近日举行的 SC25 大会上正式发布
    的头像 发表于 11-25 11:15 7.4w次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2068次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> <b class='flag-5'>Nano</b> 2推理<b class='flag-5'>模型</b><b class='flag-5'>发布</b>