0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

NVIDIA英伟达企业解决方案 来源:NVIDIA 2025-08-15 20:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20b 和 gpt-oss-120b 模型的发布持续深化了双方的 AI 创新合作。NVIDIA 在 NVIDIA Blackwell 架构上优化了这两款全新的开放权重模型并实现了推理性能加速,在 NVIDIA 系统上至高达到每秒 150 万个 Token (TPS)。

这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型 (MoE) 架构和 SwigGLU 激活函数。其注意力层使用 RoPE 技术,上下文规模为 128k,交替使用完整上下文和长度为 128 个 Token 的滑动窗口。两个模型的精度为 FP4,可运行在单个 80GB 数据中心 GPU 上,并由 Blackwell 架构提供原生支持。

aa412ec8-79bb-11f0-a18e-92fbcf53809c.jpg

这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。除了NVIDIA TensorRT-LLM外,NVIDIA 还与 Hugging Face Transformers、Ollama、vLLM 等多个顶级开源框架合作,提供优化内核和模型增强。本文将介绍 NVIDIA 如何将 gpt-oss 集成到软件平台以满足开发者需求。

aa49f9f4-79bb-11f0-a18e-92fbcf53809c.png

表 1. OpenAI gpt-oss-20b 和 gpt-oss-120b 模型规格,包括总参数量、活跃参数量、专家模型数和输入上下文长度

NVIDIA 还与 OpenAI 和社区一同对性能进行优化,增加了以下功能:

Blackwell 上用于注意力预填充 (prefill)、注意力解码 (decode) 和 MoE 低延迟的 TensorRT-LLM Gen 内核。

Blackwell 上的 CUTLASS MoE 内核。

Hopper 上用于专用注意力机制的 XQA 内核。

通过适用于 LLM 的 FlashInfer 内核服务库提供优化的注意力与 MoE 路由内核。

支持 MoE 的 OpenAI Triton 内核,适用于 TensorRT-LLM 和 vLLM。

使用 vLLM 进行部署

NVIDIA 与 vLLM 合作,在共同验证准确性的同时,分析并提升了 Hopper 和 Blackwell 架构的性能。数据中心开发者可通过 FlashInfer LLM 内核服务库使用经 NVIDIA 优化的内核。

vLLM 建议使用 uv 进行 Python 依赖项管理。用户可以使用 vLLM 启动一个与 OpenAI API 兼容的 Web 服务器。以下命令将自动下载模型并启动服务器。更多详细信息参见文档和 vLLM Cookbook 指南。

uv run--with vllm vllm serve openai/gpt-oss-20b

使用 TensorRT-LLM 进行部署

上述优化已包含在 NVIDIA / TensorRT-LLM GitHub 库中,开发者可根据库中的部署指南启动其高性能服务器,并按照指南从 Hugging Face 下载模型 checkpoint。NVIDIA 与 Transformers 库合作,提升了新模型的开发者体验。指南还提供 Docker 容器以及低延迟和最大吞吐量场景下性能配置的指导。

在 NVIDIA 系统上实现

每秒 100 万个 Token 以上的性能

NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA Blackwell 和 NVIDIA Hopper 平台上实现第零天 (Day 0) 性能提升。

根据早期性能测量结果,规模更大、计算需求更高的 gpt-oss-120b 模型,在 NVIDIA 系统上可实现每秒 150 万个 Token 的性能或服务约 5 万名并发用户。Blackwell 搭载了许多能够提高推理性能的架构技术,包括使用了 FP4 Tensor Core 的第二代 Transformer Engine,以及高带宽的第五代 NVIDIA NVLink 和 NVIDIA NVLink Switch,使得 72 颗 Blackwell GPU 可视作一个大型 GPU 运行。

NVIDIA 平台的性能、灵活性和创新速度使得该生态系统能够在 Day 0 便以高吞吐量和低单位 Token 成本运行最新模型。

通过 NVIDIA Launchable 试用经过优化的模型

还可以使用 Open AI Cookbook 上 JupyterLab Notebook 中的 Python API 部署 TensorRT-LLM,并将其作为NVIDIA Launchable在构建平台中使用。用户可以在预配置环境中一键部署经过优化的模型,并在多个云平台进行测试。

使用 NVIDIA Dynamo 进行部署

NVIDIA Dynamo是一个帮助开发者为大规模应用部署 OpenAI gpt-oss 等模型的开源推理服务平台。它与主流的推理后端集成,并提供 LLM 感知路由、弹性自动扩展和分离服务等功能。在应用输入序列长度 (ISL) 长的情况下,Dynamo 的分离服务可显著提升性能。在 32K ISL 场景中,Dynamo 在系统吞吐量和 GPU 预算相同的情况下,交互性能较合并服务提升了 4 倍。如需使用 Dynamo 进行部署,可参考该指南:

https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md

在 NVIDIA GeForce RTX AI PC 本地运行

开发者可在本地运行 AI ,以实现更快的迭代、更低的延迟和更可靠的数据隐私保护。两个模型均具有原生 MXFP4 精度,可在 NVIDIA RTX PRO GPU 驱动的专业工作站上运行,其中 gpt-oss-20b 可部署在任何具有不低于 16GB 显存的 GeForce RTX AI PC 上。开发者可通过 Ollama、Llama.cpp 或 Microsoft AI Foundry Local,使用其常用的应用和 SDK 体验这两个模型。如需使用,请访问 RTX AI Garage。

aa559afc-79bb-11f0-a18e-92fbcf53809c.jpg

图 1. 使用 Ollama 安装和运行模型的步骤

通过 NVIDIA NIM 简化企业部署

企业开发者可通过 NVIDIA API 目录中的NVIDIA NIM预览 API 和 Web Playground 环境试用 gpt-oss 模型。这两个模型已被打包成 NVIDIA NIM,可灵活、轻松地部署在任何 GPU 加速的基础设施上,同时保证数据隐私和提供企业级安全。

下载和部署预打包、可移植式且经过优化的 NIM:

下载 gpt-oss-120b

链接:https://www.nvidia.cn/ai/

文档:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b

下载 gpt-oss-20b

链接:https://www.nvidia.cn/ai/

文档:https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b

随着两个 gpt-oss 模型被全面集成到 NVIDIA 开发者生态系统中,开发者可选择最有效的解决方案。可在 NVIDIA API 目录用户界面或通过 OpenAI Cookbook 中的 NVIDIA 开发者指南开始使用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5721

    浏览量

    110230
  • OpenAI
    +关注

    关注

    9

    文章

    1261

    浏览量

    10314

原文标题:NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,实现 150 万 TPS 推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    显存瓶颈推理革命:vLLM 为何成为大模型服务的底层标配

    显存瓶颈推理革命:vLLM 为何成为大模型服务的底层标配 很多开发者都有一个共识:当模型基座的性能逐渐趋同,真正决定 AI 产品落地效率
    的头像 发表于 05-12 09:57 428次阅读
    <b class='flag-5'>从</b>显存瓶颈<b class='flag-5'>到</b><b class='flag-5'>推理</b>革命:vLLM 为何成为大<b class='flag-5'>模型</b>服务的底层标配

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入现实世界的各种机器中。 Orin Thor,NVIDIA Jetson 系列正
    的头像 发表于 03-16 16:27 768次阅读
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>赋能AI在<b class='flag-5'>边缘</b>端落地

    模型产品:Qwen2.5-VL在BM1684X边缘计算部署全攻略

    前言:部署意义与应用场景1.1Qwen-2-5-VL与BM1684X的组合行业意义:•边缘AI革命:大模型云端下沉
    的头像 发表于 01-13 14:17 5150次阅读
    <b class='flag-5'>从</b><b class='flag-5'>模型</b><b class='flag-5'>到</b>产品:Qwen2.5-VL在BM1684X<b class='flag-5'>边缘</b>计算<b class='flag-5'>部署</b>全攻略

    如何在NVIDIA Jetson AGX Thor上部署1200亿参数大模型

    上一期介绍了如何在 NVIDIA Jetson AGX Thor 上使用 Docker 部署 vLLM 推理服务,以及使用 Chatbox 作为前端调用 vLLM 运行的模型(上期文章
    的头像 发表于 12-26 17:06 5370次阅读
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上<b class='flag-5'>部署</b>1200亿参数大<b class='flag-5'>模型</b>

    GPT-5.1发布 OpenAI开始拼情商

    -5.1 Thinking:高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。 对于新上线的GPT-5.1大模型OpenAI 官方表示出色的 AI 不仅是要够聪明,还
    的头像 发表于 11-13 15:49 879次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    部署热门开源模型的应用场景,框架已支持 GPT-OSS、DeepSeek、Llama 2 及 Llama 3 等主流模型的端
    的头像 发表于 10-21 11:04 1534次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2124次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>发布

    Dynamo 0.4在NVIDIA Blackwell上通过PD分离将性能提升4倍

    近期,OpenAIgpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM) 创新浪潮的加速
    的头像 发表于 08-22 15:59 1820次阅读
    Dynamo 0.4在<b class='flag-5'>NVIDIA</b> Blackwell上通过PD分离将性能提升4倍

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企
    的头像 发表于 08-14 11:34 1648次阅读

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源,发布两款全新的大语言模型gpt-oss-120b和gpt-oss-20b,性能与o4-mini 水平相当,并且可以在消费级硬件上运行
    的头像 发表于 08-13 16:43 2047次阅读

    OpenAINVIDIA共同开发全新开放模型

    NVIDIAgpt-oss-120b 带来业界领先性能,在单个 NVIDIA Blackwell 系统上实现每秒 150
    的头像 发表于 08-12 15:11 1799次阅读

    亚马逊科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型实现将先进的开放权重模型与全球最广泛
    的头像 发表于 08-06 19:29 1007次阅读

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的头像 发表于 08-06 14:25 1191次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署
    的头像 发表于 07-04 14:38 2531次阅读

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署边缘设备上,利用ModbusTCP寄存器
    的头像 发表于 06-11 17:22 1199次阅读
    <b class='flag-5'>边缘</b>计算中的机器学习:基于 Linux 系统的实时<b class='flag-5'>推理模型</b><b class='flag-5'>部署</b>与工业集成!