0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI推理经济学的关键术语

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-05-07 09:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

解析 AI 在生产环境中的部署成本,助力用户实现性能优化和盈利能力。

随着AI模型的持续演进与应用普及,企业需要在价值最大化的目标下进行精心权衡。

这是因为推理(将数据输入模型并获取输出的运算过程)面临与模型训练截然不同的计算挑战。

预训练模型(数据导入、token化分解及模式识别的过程)本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt)都会生成token,而每个token都会产生成本。

这意味着,随着AI模型性能提升和应用规模扩大,token的生成量及其相关计算成本也会增加。对于希望构建AI能力的企业来说,关键在于控制计算成本的同时,以最快的速度、最高的准确性和服务质量生成尽可能多的token。

为此,AI生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破,过去一年中推理成本持续呈下降趋势,催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025年人工智能指数报告》,“2022年11月至2024年10月期间,达到GPT-3.5水平系统的推理成本降幅超280倍。硬件层面的成本年降幅30%,而能效年提升率达40%。开放权重模型也在缩小与闭源模型的差距,部分基准测试中,性能差距在一年内就从8%缩小到仅1.7%。多重趋势共同作用下先进AI的门槛正在迅速降低。”

随着模型持续演进引发需求及token量级增加,企业必须扩展其加速计算资源,以提供下一代AI逻辑推理工具,否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南,帮助企业可以建立战略定位,实现高效、高性价比且可盈利的大规模AI解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token)是AI模型中的基本数据单位,源自训练过程中的文本、图像、音频片段和视频等数据。通过token化 (tokenization)过程,原始数据被解构成最小语义单元。在训练过程中,模型会学习标记token之间的关系,从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput)指的是模型在单位时间内输出的token量,其本身是运行模型基础架构的一个函数。吞吐量通常以token/每秒为单位,吞吐量越高,意味着基础架构的回报越高。

延迟(Latency)是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括:

首 token 时延 (Time to First Token, TTFT):用户输入提示后,模型生成第一个输出 token 所需的时间。

首 token 后,每个输出 token 的时延 (Time per Output Token, TPOT):连续 token 之间的平均输出时间,也可以理解为,模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT和TPOT固然是重要的基准参数,但它们只是众多计算公式中的两个部分,只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素,IT领导者开始衡量“有效吞吐量(goodput)”,即在维持目标TTFT和TPOT水平的前提下,系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能,保持吞吐量、延迟和成本的最优配置,确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标,以每瓦特性能来表示。通过使用加速计算平台,组织可以在降低能耗的同时,最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律:

-预训练扩展 (Pretraining scaling):最初的扩展定律表明,通过提升训练数据集规模、模型参数数量以及增加计算资源,能够实现模型智能水平和准确率的可预测性提升。

-后训练 (Post-training):对模型的准确性和领域专业性进行微调,以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。

-测试时扩展 (Test-time scaling,又称“长思考”或“逻辑推理”):在推理过程中,模型会分配额外的计算资源,以评估多种可能的结果,然后得出最佳答案。

虽然AI在不断发展,后训练和测试时扩展技术也在持续迭代,但这并不意味着预训练即将消失,它仍然是扩展模型的重要方法。要支持后训练和测试时扩展,仍需要进行预训练。

可盈利的 AI 需要全栈方案

相较于只经过预训练和后训练的模型推理,采用测试时扩展的模型会生成多个token来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性,但计算成本也会更高。

更智能的 AI 意味着生成更多 token 来解决问题,而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速,对公司和客户的实用性就越大。

企业需要扩展其加速计算资源,构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具,同时避免成本激增。

这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求,帮助解决复杂的推理问题,同时实现更高的效率。

AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件,可大规模生产智能。这些组件设计灵活、可编程,使企业能够优先关注对其模型或推理需求更关键的领域。

为了进一步简化在部署大规模 AI 逻辑推理模型时的操作,AI 工厂在高性能、低延迟的推理管理系统上运行,确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量,从而最大化提升 token 收入。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109102
  • AI
    AI
    +关注

    关注

    89

    文章

    38134

    浏览量

    296732
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51716

原文标题:推理经济学如何驱动 AI 价值最大化

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理创新技术UCM(
    的头像 发表于 08-13 08:58 9712次阅读
    华为破解HBM依赖!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    AI推理的存储,看好SRAM?

    电子发烧友网报道(文/黄晶晶)近几年,生成式AI引领行业变革,AI训练率先崛起,带动高带宽内存HBM一飞冲天。但我们知道AI推理的广泛应用才能推动A
    的头像 发表于 03-03 08:51 2421次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的存储,看好SRAM?

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 840次阅读

    一文看懂AI训练、推理与训推一体的底层关系

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持很多人听过“大模型”,但没搞懂两件事。我们总说AI有多强,但真正决定AI能否落地的,是它的两个阶段:训练(Training)和推理
    的头像 发表于 09-19 11:58 1595次阅读
    一文看懂<b class='flag-5'>AI</b>训练、<b class='flag-5'>推理</b>与训推一体的底层关系

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理能力,能够分析复杂信息并进行推断
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规则:三、直觉
    发表于 09-17 11:45

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI
    的头像 发表于 08-15 09:45 955次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理成本。   尤为
    发表于 08-13 09:45 3602次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    成本控制视角下MCX插头大小的制造经济学

    在MCX插头的制造经济学中,尺寸选择从来不是简单的“越小越好”,而是性能、成本、工艺的系统平衡。德索精密工业以17年技术积淀,为客户提供从0.8mm超薄型到5mm高功率型的全尺寸矩阵,用数据驱动的成本控制方案,让每一款MCX插头都成为性价比最优解。
    的头像 发表于 06-19 08:45 405次阅读
    成本控制视角下MCX插头大小的制造<b class='flag-5'>经济学</b>

    华为AI WAN在智算边缘推理网络中的关键优势

    WAN:智算边缘推理网络架构、实践及产业进展”的演讲,详细阐述了AI WAN在智算边缘推理网络中的关键优势及其对产业发展的深远意义。
    的头像 发表于 04-09 09:53 847次阅读

    AI变革正在推动终端侧推理创新

    尖端AI推理模型DeepSeek R1一经问世,便在整个科技行业引起波澜。因其性能能够媲美甚至超越先进的同类模型,颠覆了关于AI发展的传统认知。
    的头像 发表于 02-20 10:54 905次阅读

    浅谈AI Agent的发展阶段

    2025年伊始,有关AI变革潜力的讨论热度正不断攀升。人们对AI的关注焦点正从AI工具转向创建及部署AI Agent。在今年最新发布的文章中,美国数据分析与
    的头像 发表于 02-19 09:50 1461次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1328次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

    生成式AI推理技术、市场与未来

    OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理
    的头像 发表于 01-20 11:16 1254次阅读
    生成式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>技术、市场与未来