0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

能够降低每Token成本的因素有哪些

NVIDIA英伟达 来源:NVIDIA英伟达 2026-04-27 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其核心工作负载,它们的主要产出已转变为以 Token 形式制造的智能。

这一转变也需要对包括总体拥有成本 (TCO) 在内的 AI 基础设施的经济效益评估的方式相应地进行调整。然而,在评估 AI 基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元 FLOPS。

关键区别在于:

算力成本是企业为 AI 基础设施所支付的费用,无论是从云服务提供商租用,还是在本地自建部署。

每美元 FLOPS衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的 Token 产出。

每 Token 成本指的是企业生成并交付每一个 Token 的综合成本,通常以每百万 Token 成本来表示。

前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。

每 Token 成本决定了企业能否实现 AI 的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的 TCO 指标,而 NVIDIA 在这一指标上实现了行业最低的每 Token 成本。

能够降低每 Token 成本的因素有哪些?

要理解如何优化每 Token 成本,首先需要了解用于计算“每百万 Token 成本”的计算公式。

inference-equation-token-5115300-scaled.png

在这个公式中,许多评估 AI 基础设施的企业往往只关注分子项,即每 GPU 每小时成本。对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。然而,降低每 Token 成本的关键在于分母,即最大化实际交付的 Token 产出。

这个分母传递了两层商业含义:

最小化每 Token 成本:当 Token 产出增加被代入公式时,将降低每 Token 成本,从而提升每一次交互服务的利润空间。

最大化收入:每秒交付更多 Token,也意味着每兆瓦产出更多的 Token,这将带来更高的智能供给能力,使 AI 驱动的产品与服务能够在相同基础设施投入下创造更高收入。

因此,如果只关注分子,就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”:分子位于水面之上,直观可见且易于横向比较;而分母则隐藏在水面之下,那才是决定实际 Token 产出的关键因素。对 AI 基础设施的准确评估,应从探究水面之下的部分开始。

Inference-Iceberg-5115325_004-1-scaled.jpg

表层问题:

每 GPU 小时的成本是多少?

峰值 PetaFLOPS 性能和高带宽内存容量是多少?

每美元可获得多少 FLOPS?

深度成本分析:

每百万 Token 的成本是多少?尤其是针对大规模混合专家 (MoE) 推理模型 (当前部署最广泛的一类 AI 模型),其每百万 Token 成本是多少?

每兆瓦可交付多少 Token 产出?尤其是对本地部署而言,由于在土地、电力与基础设施上的资本投入较大,最大化每兆瓦所产生的智能产出至关重要。

纵向扩展 (scale-up) 互连是否能够支撑 MoE 模型所需的“all-to-all”通信模式?

是否支持 FP4 精度?推理栈是否能够在保持高精度的同时充分利用 FP4?

推理运行时是否支持投机解码或多 Token 预测,以提升用户交互体验?

服务层是否支持解耦服务、KV 感知路由、KV 缓存卸载以及其他优化?

平台是否支持代理式 AI 的独特工作负载需求,包括超低延迟、高吞吐以及长输入序列长度等?

平台是否支持从训练、后训练到大规模推理的完整生命周期,并覆盖所有模型架构,从而实现基础设施可互换性与高利用率?

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的,否则分母项将无法成立。一块看似“更便宜”的 GPU,如果其每秒 Token 产出数量明显更低,反而会导致更高的每 Token 成本。能够做到全栈真正优化的 AI 基础设施,才能够确保每项优化都相互增强,从而持续提升整体效率。

为什么每 Token 成本比每美元 FLOPS 更重要?

以下 DeepSeek-R1 AI 模型的数据展示了理论指标与实际商业结果之间的差异。

仅从算力成本来看,NVIDIA Blackwell 平台的成本似乎约为 NVIDIA Hopper 的 2 倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元 FLOPS 进行分析,相较于 NVIDIA Hopper 架构,NVIDIA Blackwell 仅有约 2 倍优势。然而,实际结果却呈现出数量级差异:Blackwell 每瓦的 Token 产出量是 Hopper 的 50 倍以上,每百万 Token 的成本降低至其 1/35 左右。

指标 NVIDIA Hopper
(HGX H200)
NVIDIA Blackwell (GB300 NVL72) Blackwell 相较 Hopper
GPU 每小时成本
(美元)
$1.41 $2.65 2x
每美元 FLOPS (PFLOPS) 2.8 5.6 2x
每 GPU 每秒 Token 产出 90 6,000 65x
每兆瓦 Token 产出 54K 2.8M 50x
每百万 Token 成本
(美元)
$4.20 $0.12 降为 1/35

注:数据来源于 NVIDIA 分析报道及SemiAnalysis InferenceX v2基准测试。

这一悬殊差异表明,相较于上一代 Hopper,NVIDIA Blackwell 在商业价值上实现了巨大的跃迁,其提升幅度远超系统成本的增加。

如何选择合适的 AI 基础设施?

仅凭算力成本或每美元理论 FLOPS 来比较 AI 基础设施,不仅是不充分的,也无法真实反映推理经济学。正如数据所展示的,要准确评估 AI 基础设施的营收潜力与盈利能力,需将衡量维度从输入指标转向每 Token 成本和实际 Token 产出量。

NVIDIA 通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计,实现了业内最低的 Token 成本与最高的 Token 吞吐量。此外,诸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平台构建的开源推理软件的持续优化,意味着在现有 NVIDIA 基础设施部署后,Token 产出仍可不断提升,每 Token 成本会持续下降。 领先的云服务提供商与 NVIDIA 云合作伙伴,已在规模化部署中充分体现这一优势。包括CoreWeave、Nebius、Nscale与Together AI在内的合作伙伴,已部署 NVIDIA Blackwell 基础设施,并对其技术栈进行了优化,为企业提供当前最低的 Token 成本,同时充分发挥 NVIDIA 在硬件、软件与生态系统协同设计方面的全部优势,使每一次 AI 交互的处理都建立在这一完整体系之上。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5694

    浏览量

    110118
  • 数据中心
    +关注

    关注

    18

    文章

    5773

    浏览量

    75208
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302612

原文标题:重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Token工厂加速兑现!迅策携手国家级数据交易所,深化垂类Token开发

    当中国日均Token消耗突破140万亿,当OpenAI每分钟处理150亿Token,当中国两年增长1400倍——Token,这个两年前还陌生的技术术语,正在成为AI时代的"新千瓦时"。 深圳2026
    的头像 发表于 04-13 16:26 171次阅读
    <b class='flag-5'>Token</b>工厂加速兑现!迅策携手国家级数据交易所,深化垂类<b class='flag-5'>Token</b>开发

    芯盾时代助企业破解智能体Token失控难题

    2026年,随着OpenClaw等自主智能体(Agent)技术的爆发,企业AI应用正经历从“对话问答”到“自主执行”的跃迁。为了占得智能体应用先机,企业纷纷给员工下发Token额度、鼓励全员“养龙虾”。一时之间,Token成为企业在AI战场上的“战略物资”,
    的头像 发表于 03-28 13:40 1052次阅读

    Token中文新译名:「符元」——一文七个维度讲清Token的本质定义

    拒绝“智元”走私语义,七维拆解 Token 物理本质,定义 AI 时代唯一真名:「符元」。
    的头像 发表于 03-27 15:23 770次阅读
    <b class='flag-5'>Token</b>中文新译名:「符元」——一文七个维度讲清<b class='flag-5'>Token</b>的本质定义

    数字电力帝国崛起:Token成为中国能源出口新载体

    成本碾压下的突围:Token出海改写全球AI服务格局
    的头像 发表于 03-06 16:30 1364次阅读
    数字电力帝国崛起:<b class='flag-5'>Token</b>成为中国能源出口新载体

    NVIDIA Blackwell平台助力企业实现token成本的大幅降低

    一次医疗领域的诊断洞察、一次互动游戏中角色的对话、一次来自客服代理的自主解决方案——这些由 AI 驱动的交互,皆基于同一智能单元:一个 token
    的头像 发表于 03-02 14:48 624次阅读

    影响三防漆流速的因素有哪些?

    三防漆作为一种特殊配方的涂料,主要用于保护电路板及相关设备免受潮湿、腐蚀等环境因素的侵蚀。在实际应用中,三防漆消泡困难是常见问题之一,气泡若未能及时消除,固化后会影响涂层致密性和防护效果。现在让我们
    的头像 发表于 12-20 16:57 324次阅读
    影响三防漆流速的<b class='flag-5'>因素有</b>哪些?

    贴片电阻的阻抗与什么因素有关?

    贴片电阻的阻抗(即交流电路中的综合阻抗,包含电阻、电感与电容的复合效应)受多种因素影响,这些因素可分为材料特性、几何结构、封装设计、环境条件及制造工艺五大类。以下是具体分析: 一、材料特性:阻抗
    的头像 发表于 11-27 15:46 657次阅读
    贴片电阻的阻抗与什么<b class='flag-5'>因素有</b>关?

    精密平台中重复精度的影响因素有哪些

    σ等。 雅科贝思VRG系列平台 重复定位精度受多种复杂因素影响,既有运动台自身因素,比如背隙、摩擦力、线缆扰动力、伺服抖动、刚度等,也有环境因素,比如温度漂移、地基振动、环境噪声等。我们几乎不太可能给出每一种
    的头像 发表于 10-15 11:24 968次阅读
    精密平台中重复精度的影响<b class='flag-5'>因素有</b>哪些

    影响电能质量在线监测装置校准周期的环境因素有哪些?

    影响电能质量在线监测装置校准周期的环境因素,核心是 加速设备元器件老化、破坏电路稳定性、导致测量精度漂移 的外部条件。这些因素会使装置偏离初始校准状态的速度加快,因此需根据环境恶劣程度缩短校准周期
    的头像 发表于 09-19 14:42 715次阅读

    决定自动驾驶摄像头质量的因素有哪些?

    和一条数据链路拼凑在一起,最后要得到的却是算法能稳定用、工程能长期维护的“可信图像”,那决定自动驾驶摄像头质量的因素有哪些? 摄像头质量的评价因素 讨论摄像头能力时,我们不仅要看物理量化指标,也要看这些指标在真实世
    的头像 发表于 09-14 10:59 1343次阅读
    决定自动驾驶摄像头质量的<b class='flag-5'>因素有</b>哪些?

    网线传输距离和哪些因素有

    网线的传输距离受多种因素影响,这些因素共同决定了信号在传输过程中的衰减、干扰和时延,进而限制了有效传输距离。以下是主要影响因素的详细分析: 1. 网线类型与规格 不同类别的网线在导体材质、绞距
    的头像 发表于 08-25 10:22 3511次阅读
    网线传输距离和哪些<b class='flag-5'>因素有</b>关

    降低失效成本,高精度CT检测新能源汽车功率模块

    降低失效成本,高精度CT检测新能源汽车功率模块
    的头像 发表于 08-08 15:56 857次阅读
    <b class='flag-5'>降低</b>失效<b class='flag-5'>成本</b>,高精度CT检测新能源汽车功率模块

    影响三防漆消泡的因素有哪些

    三防漆在涂覆过程中若存在气泡,会导致涂层出现针孔、空洞等缺陷,降低防护性能。消泡效果受材料特性、工艺操作及环境条件等多方面影响,下面就让我们来了解一下影响三防漆消泡的因素,以及如何改善这种情况吧
    的头像 发表于 07-18 18:10 898次阅读
    影响三防漆消泡的<b class='flag-5'>因素有</b>哪些

    电缆的阻燃程度跟什么因素有关系

    电缆的阻燃程度主要与材料配方、结构设计、制造工艺、阻燃等级标准以及外部使用环境等因素密切相关。以下是具体分析: 一、材料配方 绝缘材料: 交联聚乙烯(XLPE):基础绝缘材料,需通过添加阻燃剂(如
    的头像 发表于 07-16 09:59 872次阅读

    树莓派设备物联网解决方案,将录音设备的项目成本降低 90%!

    基于RaspberryPi设备的物联网(IoT)解决方案将“终止开关”(killswitch)成本降低了90%在RaspberryPi设备上采用新的AWSIoT解决方案,GreenCustard显著
    的头像 发表于 06-05 15:42 1059次阅读
    树莓派设备物联网解决方案,将录音设备的项目<b class='flag-5'>成本</b><b class='flag-5'>降低</b> 90%!