0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为本地代理式AI加速Gemma 4开放模型

丽台科技 来源:NVIDIA英伟达 2026-05-08 09:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:NVIDIA英伟达

开放模型正在推动新一轮设备端 AI 浪潮,将创新从云端扩展到日常本地设备。随着这些模型不断进步,它们的价值愈发取决于能否访问本地实时上下文,从而将有意义的洞察转化为行动。

为顺应这一转变,Google 的 Gemma 4 家族全新引入了一类的小巧、快速且具备全模态能力的模型,能够在广泛设备上实现高效本地运行。

Google 与 NVIDIA 合作,将 Gemma 4 为 NVIDIA GPU 进行了优化,在多种系统上实现高效性能。从数据中心部署到 NVIDIA RTX 驱动的 PC 和工作站,再到 NVIDIA DGX Spark 个人 AI 超级计算机以及 NVIDIA Jetson Orin Nano 边缘 AI 模块。

Gemma 4:为 NVIDIA GPU 优化的紧凑型模型

Gemma 4 开放模型家族的最新成员涵盖 E2B、E4B、26B 和 31B 变体,专为从边缘设备到高性能 GPU 的高效部署而设计。

3739c402-41fd-11f1-90a1-92fbcf53809c.png

所有配置均采用 Q4_K_M 量化、BS = 1、ISL = 4096 和 OSL = 128,在 NVIDIA GeForce RTX 5090 和 Mac M3 Ultra 台式机上进行测量。Token 生成吞吐量基于 llama.cpp b7789,使用 llama-bench 工具测得。

新一代紧凑型模型支持多种任务,包括:

推理:在复杂问题求解任务中表现强劲。

编码:面向开发者工作流的代码生成与调试。

智能体:原生支持结构化工具调用(函数调用)。

视觉、视频和音频能力:支持对象识别、自动语音识别以及文档或视频智能等丰富的多模态交互。

交错式多模态输入:可在单个提示词中以任意顺序混合文本和图像。

多语言:开箱即用,支持超过 35 种语言,并在超过 140 种语言上进行了预训练。

E2B 和 E4B 模型专为超高效、低延迟的边缘推理而打造,可在包括 Jetson Nano 模块在内的多种设备上以接近零延迟的方式完全离线运行。

26B 和 31B 模型专为高性能推理和以开发者为中心的工作流而设计,非常适合代理式 AI 任务。这些优化模型以便捷的方式提供业界领先的推理能力,可在 NVIDIA RTX GPU 和 DGX Spark 上高效运行,为开发环境、编码助手和智能体驱动的工作流提供动力。

随着本地代理式 AI 持续升温,OpenClaw 等应用正让 RTX PC、工作站和 DGX Spark 上的长期 AI 助手成为现实。最新的 Gemma 4 模型兼容 OpenClaw,允许用户构建能够调用个人文件、应用程序和工作流上下文的本地智能体,以实现任务自动化。查看页面了解如何在 RTX GPU 和 DGX Spark 上免费运行 OpenClaw,或查看 DGX Spark OpenClaw playbook 。

查看 Google DeepMind 公告博客,了解 Gemma 4 家族最新成员的更多信息。

开始上手:在 RTX GPU 和 DGX Spark 上运行 Gemma 4

NVIDIA 已与 Ollama 和 llama.cpp 合作,为各个 Gemma 4 模型提供最佳本地部署体验。

要在本地使用 Gemma 4,用户可以下载 Ollama 来运行 Gemma 4 模型,或安装 llama.cpp 并结合 Gemma 4 的 GGUF Hugging Face checkpoint 使用。Unsloth 提供首日支持,通过 Unsloth Studio 提供经过优化和量化的模型,以实现高效的本地微调和部署。现在即可开始在 Unsloth Studio 中运行和微调 Gemma 4。

在 NVIDIA GPU 上运行 Gemma 4 家族等开放模型能够实现最佳性能。NVIDIA Tensor Core 可加速 AI 推理工作负载,从而为本地执行提供更高吞吐量和更低延迟。CUDA 软件栈可确保与主流框架和工具广泛兼容,使新模型从发布首日就能高效运行。

这套组合使得 Gemma 4 等开放模型可在广泛系统上扩展部署,从边缘侧的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark,无需深度优化即可覆盖。查看 NVIDIA 技术博客,了解如何在 NVIDIA GPU 上快速上手 Gemma 4 的更多细节,并进一步了解 NVIDIA 在开放模型方面的工作。

别错过:NVIDIA RTX AI PC 的最新进展

请查看 RTX AI Garage 博客,了解 NVIDIA GTC 期间发布的一系列关于代理式 AI 的公告,例如面向本地智能体的新开放模型。这些模型包括 NVIDIA Nemotron 3 Nano 4B、Nemotron 3 Super 120B,以及针对 Qwen 3.5 和 Mistral Small 4 的优化。

NVIDIA 最近推出了 NVIDIA NemoClaw,这是一套开源技术栈,可通过提升安全性并支持本地模型来优化 NVIDIA 设备上的 OpenClaw 体验。

Accomplish.ai 宣布推出 Accomplish FREE,一款免费版的内置模型的开源桌面 AI 智能体。它使用 NVIDIA GPU 在本地运行开放权重模型,同时通过混合路由器在本地 RTX 硬件与云端之间动态平衡工作负载,无需调用 API Key,即可实现快速、私密、零配置的执行体验。

| 作者 Michael Fukuyama

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5707

    浏览量

    110154
  • AI
    AI
    +关注

    关注

    91

    文章

    41477

    浏览量

    302795
  • 模型
    +关注

    关注

    1

    文章

    3844

    浏览量

    52295

原文标题:从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA与Google Cloud携手推进代理式与物理AI发展

    NVIDIA Blackwell GPU 以及由 NVIDIA Nemotron 和 NeMo 提供支持、基于 Gemini Enterprise Agent Platform 的代理式 A
    的头像 发表于 04-27 15:35 436次阅读

    在Google AI Edge Gallery中探索Gemma 4的Agent Skills

    前不久,Google DeepMind 推出了 Gemma 4,这是一系列业界领先的开放模型,重塑了端侧 AI 的可能性。
    的头像 发表于 04-23 09:19 555次阅读

    Google正式推出最新开放模型Gemma 4

    今天,我们正式推出 Gemma 4 —— 这是我们迄今为止最智能的开放模型Gemma 4 专为
    的头像 发表于 04-08 10:06 609次阅读
    Google正式推出最新<b class='flag-5'>开放</b><b class='flag-5'>模型</b><b class='flag-5'>Gemma</b> <b class='flag-5'>4</b>

    NVIDIA携手微软加速机器人和物理AI的发展

    在 GTC 大会上,微软宣布了其代理式和物理 AI 系统统一平台的更新,加速从实验到生产落地的进程。将 Microsoft Foundry 与 NVIDIA
    的头像 发表于 03-23 15:21 1021次阅读

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    NVIDIA BioNeMo 平台的一部分,Proteina-Complexa 模型加速蛋白质药物研发——同时推出全新开放数据集,包含数百万条由
    的头像 发表于 03-17 09:18 554次阅读
    <b class='flag-5'>NVIDIA</b> 扩展<b class='flag-5'>开放</b><b class='flag-5'>模型</b>系列,推动<b class='flag-5'>代理式</b>、物理和医疗 <b class='flag-5'>AI</b> 下一阶段发展

    NVIDIA推出代理式AI蓝图与电信推理模型

    借助全新开源大型电信模型NVIDIA Blueprint,电信运营商能够利用自有数据训练 AI 智能体,构建自主网络。
    的头像 发表于 03-06 17:37 3117次阅读

    生命科学领先企业采用 NVIDIA BioNeMo 平台加速 AI 驱动的药物研发

    Discovery、Basecamp Research、Boltz 及生态系统领先企业,将 NVIDIA BioNeMo、代理式 AI 与物理 AI 相结合,推动科学研究与药物研发规
    的头像 发表于 01-14 11:40 689次阅读
    生命科学领先企业采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平台<b class='flag-5'>加速</b> <b class='flag-5'>AI</b> 驱动的药物研发

    NVIDIA 推出 Nemotron 3 系列开放模型

    新闻摘要: ● Nemotron 3 系列开放模型包含 Nano、Super 和 Ultra 三种规模,具有极高的效率和领先的精度,适用于代理式 AI 应用开发。 ● Nemotron
    的头像 发表于 12-16 09:27 877次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 系列<b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 A
    的头像 发表于 12-01 09:25 1510次阅读

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,
    的头像 发表于 09-11 15:09 1344次阅读

    代理式 AI 重构 EDA:从对话助手到虚拟工程师

    电子发烧友网报道(文 / 吴子鹏)代理式 AI(Agentic AI)作为 AI 领域的新兴方向,是一种能够通过自主感知、推理、规划与执行,独立完成复杂多步骤任务的 
    的头像 发表于 08-28 07:54 3439次阅读

    代理式AIAI智能体在不同行业中的实际应用

    代理式 AI 的时代已经到来。如今,代理式 AI 已经驱动应用迈向深度场景融合与规模化落地。这波演进浪潮标志着 AI 能力向自主执行的跃迁。
    的头像 发表于 07-28 14:28 1437次阅读

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma
    的头像 发表于 07-16 09:16 2227次阅读

    NVIDIA全栈加速代理式AI应用落地

    在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了
    的头像 发表于 07-14 11:41 1491次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式
    的头像 发表于 05-27 14:03 1265次阅读