AI推理经济学的关键术语-电子发烧友网

解析 AI 在生产环境中的部署成本，助力用户实现性能优化和盈利能力。

随着AI模型的持续演进与应用普及，企业需要在价值最大化的目标下进行精心权衡。

这是因为推理（将数据输入模型并获取输出的运算过程）面临与模型训练截然不同的计算挑战。

预训练模型（数据导入、token化分解及模式识别的过程）本质上是单次的成本投入。但在推理过程中，模型的每个提示词 (prompt)都会生成token，而每个token都会产生成本。

这意味着，随着AI模型性能提升和应用规模扩大，token的生成量及其相关计算成本也会增加。对于希望构建AI能力的企业来说，关键在于控制计算成本的同时，以最快的速度、最高的准确性和服务质量生成尽可能多的token。

为此，AI生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破，过去一年中推理成本持续呈下降趋势，催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025年人工智能指数报告》，“2022年11月至2024年10月期间，达到GPT-3.5水平系统的推理成本降幅超280倍。硬件层面的成本年降幅30%，而能效年提升率达40%。开放权重模型也在缩小与闭源模型的差距，部分基准测试中，性能差距在一年内就从8%缩小到仅1.7%。多重趋势共同作用下先进AI的门槛正在迅速降低。”

随着模型持续演进引发需求及token量级增加，企业必须扩展其加速计算资源，以提供下一代AI逻辑推理工具，否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南，帮助企业可以建立战略定位，实现高效、高性价比且可盈利的大规模AI解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token)是AI模型中的基本数据单位，源自训练过程中的文本、图像、音频片段和视频等数据。通过token化 (tokenization)过程，原始数据被解构成最小语义单元。在训练过程中，模型会学习标记token之间的关系，从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput)指的是模型在单位时间内输出的token量，其本身是运行模型基础架构的一个函数。吞吐量通常以token/每秒为单位，吞吐量越高，意味着基础架构的回报越高。

延迟(Latency)是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括：

首 token 时延 (Time to First Token, TTFT)：用户输入提示后，模型生成第一个输出 token 所需的时间。

首 token 后，每个输出 token 的时延 (Time per Output Token, TPOT)：连续 token 之间的平均输出时间，也可以理解为，模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT和TPOT固然是重要的基准参数，但它们只是众多计算公式中的两个部分，只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素，IT领导者开始衡量“有效吞吐量(goodput)”，即在维持目标TTFT和TPOT水平的前提下，系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能，保持吞吐量、延迟和成本的最优配置，确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标，以每瓦特性能来表示。通过使用加速计算平台，组织可以在降低能耗的同时，最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律：

-预训练扩展 (Pretraining scaling)：最初的扩展定律表明，通过提升训练数据集规模、模型参数数量以及增加计算资源，能够实现模型智能水平和准确率的可预测性提升。

-后训练 (Post-training)：对模型的准确性和领域专业性进行微调，以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。

-测试时扩展 (Test-time scaling，又称“长思考”或“逻辑推理”)：在推理过程中，模型会分配额外的计算资源，以评估多种可能的结果，然后得出最佳答案。

虽然AI在不断发展，后训练和测试时扩展技术也在持续迭代，但这并不意味着预训练即将消失，它仍然是扩展模型的重要方法。要支持后训练和测试时扩展，仍需要进行预训练。

可盈利的 AI 需要全栈方案

相较于只经过预训练和后训练的模型推理，采用测试时扩展的模型会生成多个token来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性，但计算成本也会更高。

更智能的 AI 意味着生成更多 token 来解决问题，而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速，对公司和客户的实用性就越大。

企业需要扩展其加速计算资源，构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具，同时避免成本激增。

这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求，帮助解决复杂的推理问题，同时实现更高的效率。

AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件，可大规模生产智能。这些组件设计灵活、可编程，使企业能够优先关注对其模型或推理需求更关键的领域。

为了进一步简化在部署大规模 AI 逻辑推理模型时的操作，AI 工厂在高性能、低延迟的推理管理系统上运行，确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量，从而最大化提升 token 收入。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5727

浏览量
110299
AI

AI

+关注

关注
91

文章
42036

浏览量
303100
模型

模型

+关注

关注
1

文章
3875

浏览量
52341

原文标题：推理经济学如何驱动 AI 价值最大化

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

AI推理经济学的关键术语

评论