0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Blackwell平台助力企业实现token成本的大幅降低

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-03-02 14:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通过在 NVIDIA Blackwell 平台上运行优化的推理堆栈,帮助各行业降低每 token 成本。

一次医疗领域的诊断洞察、一次互动游戏中角色的对话、一次来自客服代理的自主解决方案——这些由 AI 驱动的交互,皆基于同一智能单元:一个token。

要扩展这些 AI 交互,企业需要考虑是否能够承担更多 token 成本。答案在于更优的 Token 经济学(tokenomics)——其核心在于降低每个 token 的成本。这种下降趋势正在各行各业中显现。

近期麻省理工学院研究发现,基础设施与算法效率的提升使前沿水平性能的推理成本正逐年降低至原来的 1/10。

要理解基础设施效率如何提升 tokenomics,可以把它类比为一台高速印刷机。如果这台印刷机只需在油墨、能源和设备本身上进行小幅追加投资,就能实现 10 倍的产出,那么每页印刷成本自然会下降。同理,对 AI 基础设施的投资如果能带来远超预期的 token 产出,就会显著降低每个 token 的成本。

当 token 的产出增长超过基础设施成本增长时,每个 token 的成本就会下降。

正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在内的领先推理服务提供商纷纷采用NVIDIA Blackwell 平台。Blackwell 平台帮助这些企业将每个 token 的成本最多可降至 NVIDIA Hopper 平台的 1/10。

这些提供商托管着先进的开源模型,其智能水平现已达前沿级别。通过融合开源的前沿智能、NVIDIA Blackwell 极致的软硬件协同设计以及自主优化的推理堆栈,这些服务商正助力各行各业的企业实现 token 成本的大幅降低。

医疗领域——Baseten 与 Sully.ai 将 AI 推理成本降低 9 成

在医疗领域,诸如医疗编码、病历记录和保险表格管理等繁琐耗时的任务,会占用医生与患者交流的时间。

Sully.ai通过开发能够处理医疗编码和记录笔记等常规任务的”AI 员工”来解决这一问题。随着公司平台规模扩大,其自有的闭源模型面临着三大瓶颈:实时临床工作流程中的延迟不可预测、推理成本增长速度比收入增长更快,以及对模型质量和更新的控制不足。

Sully.ai 打造 AI 员工,帮助医生处理日常事务。

为突破这些瓶颈,Sully.ai 采用了 Baseten 的模型 API,该 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等开源模型。Baseten 采用低精度NVFP4数据格式、NVIDIA TensorRT-LLM 库及NVIDIA Dynamo推理框架以实现优化的推理。该公司选择 NVIDIA Blackwell 运行 Model API,因其每美元投入的吞吐量较 NVIDIA Hopper 平台提升 2.5 倍。

结果显示,Sully.ai的推理成本因此降低了 90%,成本降低至原来的闭源实现方案的 1/10。同时在病历生成等关键工作流的响应速度提升了 65%。该公司已为医生节省了超过 3000 万分钟的时间,这些时间原本耗费在数据录入及其他手动操作上。

游戏领域——DeepInfra 与 Latitude 将每 token 成本降至原来的 1/4

Latitude正通过其 AI 冒险故事游戏AI Dungeon及即将推出的 AI 驱动角色扮演游戏平台 Voyage,打造 AI 原生游戏的未来。玩家可在这些平台中自由创建或探索世界,选择任何行动,书写专属故事。

该公司的平台采用大型语言模型响应玩家操作——但这带来了扩展难题,因为每次玩家操作都会触发推理请求。成本随玩家参与度增长而攀升,而响应速度必须保持足够快才能确保游戏体验的流畅性。

Latitude 开发了一款名为 AI Dungeon 的文字冒险故事游戏,该游戏能在玩家探索动态故事时实时生成叙事文本与图像。

Latitude 运行的大型开源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驱动的DeepInfra 推理平台。对于大规模混合专家模型(MoE),DeepInfra 将每百万 token 的成本从 NVIDIA Hopper 平台的 0.20 美元降至 Blackwell 平台的 0.10 美元。通过迁移至 Blackwell 原生低精度 NVFP4 格式,其成本进一步降至每百万 token 0.05 美元——现每 token 成本降至之前的 1/4,同时保持了客户期望的准确性。

在 DeepInfra 基于 Blackwell 的平台上运行这些大型 MoE 模型,使 Latitude 能够以经济高效的方式提供快速可靠的响应。DeepInfra 的推理平台在保证性能的同时,还能稳定应对流量峰值,让 Latitude 得以部署更强大的模型而不影响玩家体验。

智能体聊天代理——Fireworks AI 与 Sentient Foundation 合作,将 AI 成本降低高达 50%

Sentient Labs 致力于汇聚 AI 开发者,共同构建强大的开源推理 AI 系统。其目标是通过在安全自主性、智能体架构和持续学习领域开展研究,加速 AI 解决更复杂的推理难题。

Sentient Labs 的首款应用 Sentient Chat 能够编排复杂的多智能体工作流,并整合来自社区的十余个专业 AI 智能体。正因如此,Sentient Chat 面临着巨大的计算需求——单个用户查询可能触发一系列自主交互,通常会导致高昂的基础设施开销。

为应对这种规模和复杂性任务,Sentient 采用基于 NVIDIA Blackwell 运行的 Fireworks AI 推理平台。借助 Fireworks 针对 Blackwell 优化的推理堆栈,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。

Sentient Chat 编排复杂的多智能体工作流,并整合来自社区的十余个专业 AI 智能体。

更高的每 GPU 吞吐量使该公司能够以相同成本服务更多并发用户。该平台的可扩展性支持了病毒式传播的用户增长——24 小时内新增 180 万候补用户,单周处理 560 万次查询,同时保持了稳定的低延迟表现。

客户服务——Together AI 与 Decagon 实现成本降至原来的 1/6

使用语音 AI 的客服服务通话往往令人感到挫败,因为哪怕是轻微的延迟都可能导致用户打断语音助手、挂断电话或失去信任。

Decagon 为企业客户支持构建 AI 智能体,其中 AI 驱动的语音服务要求最为苛刻。Decagon 需要一套能够在不可预测的流量负载下实现亚秒级响应的基础设施,并具备支持全天候语音部署的 tokenomics。

Decagon 为客户支持构建 AI 智能体,其中语音服务要求最为苛刻。

Together AI 在 NVIDIA Blackwell GPU 上为 Decagon 的多模型语音技术栈运行生产级推理。两家公司在多项关键优化上展开合作:采用推测解码技术,通过训练小型模型实现更快的响应速度,同时在后台由大模型验证准确性;缓存重复对话元素以加速响应;构建自动扩展机制,在应对流量激增时保持性能稳定。

Decagon 即使在每条查询处理数千个 token 的情况下,也能实现低于 400 毫秒的响应时间。与使用闭源专有模型相比,每条查询的成本(即完成一次语音交互的总成本)降低至原来的 1/6。这一成果得益于 Decagon 的多模型方案(部分采用开源模型,部分在 NVIDIA GPU 上自主训练)、NVIDIA Blackwell 芯片的极致协同设计以及 Together 平台的优化推理堆栈的协同作用。

通过极致协同设计优化 tokenomics

在医疗、游戏和客户服务等领域取得的显著成本节省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 机架式解决方案进一步扩大了这一优势,其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,实现了成本的突破性降低。

NVIDIA 涵盖了计算、网络和软件等跨各个层级堆栈的极致协同设计,以及其合作伙伴生态系统,正在大幅度降低每 token 成本。

这一势头延续至NVIDIA Rubin 平台上——通过将六款全新芯片集成于一台 AI 超级计算机中,其性能较 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。

探索NVIDIA 的全栈推理平台,深入了解其如何为 AI 推理提供更优的 tokenomics。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5727

    浏览量

    110296
  • AI
    AI
    +关注

    关注

    91

    文章

    42015

    浏览量

    303087
  • 开源
    +关注

    关注

    3

    文章

    4425

    浏览量

    46585

原文标题:领先推理提供商借助基于 NVIDIA Blackwell 平台的开源模型,将 AI 成本削减至 1/10

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 5000 Blackwell GPU多卡系统深度测评

    NVIDIA RTX PRO 5000 Blackwell 基于突破性的 NVIDIA Blackwell 架构构建,并配备 48GB 或 72GB 超高速 GDDR7 内存,有助于加
    的头像 发表于 05-25 09:19 239次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU多卡系统深度测评

    能够降低Token成本的因素有哪些

    传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其核心工作负载,它们的主要产出已转变为以 Token 形式制造的智能。
    的头像 发表于 04-27 15:45 748次阅读
    能够<b class='flag-5'>降低</b>每<b class='flag-5'>Token</b><b class='flag-5'>成本</b>的因素有哪些

    NVIDIA cuDF和cuVS获全球领先数据平台采用

    企业每年产生数百 ZB (Zettabyte) 的数据,并在争相将这些信息转化为洞察。NVIDIA cuDF 和 cuVS 作为基于 NVIDIA CUDA-X 构建的加速数据库,正在被各行业的数据
    的头像 发表于 03-19 15:46 592次阅读

    NVIDIA DRIVE AV软件平台与Halos架构助力梅赛德斯奔驰CLA车型获得最高安全评分

    NVIDIA DRIVE AV 软件平台NVIDIA Halos 架构助力 CLA 车型获得最高安全评分(top safety rating)。
    的头像 发表于 02-02 09:28 2477次阅读

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA
    的头像 发表于 01-14 09:14 1003次阅读

    NVIDIA在CES 2026发布新一代Rubin AI平台

    通过跨 NVIDIA Vera CPU、Rubin GPU、NVLink 6 交换机、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太网交换机的极致协同设计,大幅缩短训练时间,降低
    的头像 发表于 01-09 10:23 933次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 4922次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    作为 NVIDIA 专业显卡产品线中单槽性能的巅峰之作,NVIDIA RTX PRO 4000 Blackwell 在各项核心指标上均实现对前代 N
    的头像 发表于 12-29 15:30 2114次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU性能测试

    NVIDIA RTX PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 现已全面上市,将基于 NVIDIA Blackwell 架构的强大代理式与生成式 AI 能力带到更多桌面和
    的头像 发表于 12-24 10:32 1230次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU现已全面上市

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 7298次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU性能测试

    NVIDIA DGX Spark助力构建自己的AI模型

    作为个人 AI 超级计算机,为世界各地的 AI 研究人员、数据科学家和学生提供 NVIDIA Grace Blackwell 平台的强大功能。
    的头像 发表于 11-21 09:25 1690次阅读
    <b class='flag-5'>NVIDIA</b> DGX Spark<b class='flag-5'>助力</b>构建自己的AI模型

    DeepSeek R1 MTP在TensorRT-LLM中的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现
    的头像 发表于 08-30 15:47 4809次阅读
    DeepSeek R1 MTP在TensorRT-LLM中的<b class='flag-5'>实现</b>与优化

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品
    的头像 发表于 08-28 11:02 4599次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU测试分析

    OpenAI与NVIDIA共同开发全新开放模型

    NVIDIA 为 gpt-oss-120b 带来业界领先性能,在单个 NVIDIA Blackwell 系统上实现每秒 150 万个 Token
    的头像 发表于 08-12 15:11 1808次阅读

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景中的性能纪录:在 GTC 2025
    的头像 发表于 07-02 19:31 3743次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录