0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI推理经济学的关键术语

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-05-07 09:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

解析 AI 在生产环境中的部署成本,助力用户实现性能优化和盈利能力。

随着AI模型的持续演进与应用普及,企业需要在价值最大化的目标下进行精心权衡。

这是因为推理(将数据输入模型并获取输出的运算过程)面临与模型训练截然不同的计算挑战。

预训练模型(数据导入、token化分解及模式识别的过程)本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt)都会生成token,而每个token都会产生成本。

这意味着,随着AI模型性能提升和应用规模扩大,token的生成量及其相关计算成本也会增加。对于希望构建AI能力的企业来说,关键在于控制计算成本的同时,以最快的速度、最高的准确性和服务质量生成尽可能多的token。

为此,AI生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破,过去一年中推理成本持续呈下降趋势,催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025年人工智能指数报告》,“2022年11月至2024年10月期间,达到GPT-3.5水平系统的推理成本降幅超280倍。硬件层面的成本年降幅30%,而能效年提升率达40%。开放权重模型也在缩小与闭源模型的差距,部分基准测试中,性能差距在一年内就从8%缩小到仅1.7%。多重趋势共同作用下先进AI的门槛正在迅速降低。”

随着模型持续演进引发需求及token量级增加,企业必须扩展其加速计算资源,以提供下一代AI逻辑推理工具,否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南,帮助企业可以建立战略定位,实现高效、高性价比且可盈利的大规模AI解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token)是AI模型中的基本数据单位,源自训练过程中的文本、图像、音频片段和视频等数据。通过token化 (tokenization)过程,原始数据被解构成最小语义单元。在训练过程中,模型会学习标记token之间的关系,从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput)指的是模型在单位时间内输出的token量,其本身是运行模型基础架构的一个函数。吞吐量通常以token/每秒为单位,吞吐量越高,意味着基础架构的回报越高。

延迟(Latency)是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括:

首 token 时延 (Time to First Token, TTFT):用户输入提示后,模型生成第一个输出 token 所需的时间。

首 token 后,每个输出 token 的时延 (Time per Output Token, TPOT):连续 token 之间的平均输出时间,也可以理解为,模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT和TPOT固然是重要的基准参数,但它们只是众多计算公式中的两个部分,只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素,IT领导者开始衡量“有效吞吐量(goodput)”,即在维持目标TTFT和TPOT水平的前提下,系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能,保持吞吐量、延迟和成本的最优配置,确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标,以每瓦特性能来表示。通过使用加速计算平台,组织可以在降低能耗的同时,最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律:

-预训练扩展 (Pretraining scaling):最初的扩展定律表明,通过提升训练数据集规模、模型参数数量以及增加计算资源,能够实现模型智能水平和准确率的可预测性提升。

-后训练 (Post-training):对模型的准确性和领域专业性进行微调,以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。

-测试时扩展 (Test-time scaling,又称“长思考”或“逻辑推理”):在推理过程中,模型会分配额外的计算资源,以评估多种可能的结果,然后得出最佳答案。

虽然AI在不断发展,后训练和测试时扩展技术也在持续迭代,但这并不意味着预训练即将消失,它仍然是扩展模型的重要方法。要支持后训练和测试时扩展,仍需要进行预训练。

可盈利的 AI 需要全栈方案

相较于只经过预训练和后训练的模型推理,采用测试时扩展的模型会生成多个token来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性,但计算成本也会更高。

更智能的 AI 意味着生成更多 token 来解决问题,而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速,对公司和客户的实用性就越大。

企业需要扩展其加速计算资源,构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具,同时避免成本激增。

这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求,帮助解决复杂的推理问题,同时实现更高的效率。

AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件,可大规模生产智能。这些组件设计灵活、可编程,使企业能够优先关注对其模型或推理需求更关键的领域。

为了进一步简化在部署大规模 AI 逻辑推理模型时的操作,AI 工厂在高性能、低延迟的推理管理系统上运行,确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量,从而最大化提升 token 收入。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5727

    浏览量

    110299
  • AI
    AI
    +关注

    关注

    91

    文章

    42036

    浏览量

    303100
  • 模型
    +关注

    关注

    1

    文章

    3875

    浏览量

    52341

原文标题:推理经济学如何驱动 AI 价值最大化

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    大模型浪潮下,AI 算力正向“本地推理”与“AI 工厂”两极延伸,而传统架构在低延迟与规模化之间往往顾此失彼。RISC-V 的可定制特性,提供了一条新路径——端侧精简高效,云侧通过众核与矩阵增强向上
    发表于 05-15 12:15

    你应该知道的10个AI芯片术语

    本文转自:半导体芯闻AI芯片领域发展迅速,芯片是每一种AI体验的基础,理解软件背后的硬件从未像现在这样重要。以下是10个值得了解的术语:1.AI加速器(AIAccelerator)一类
    的头像 发表于 05-14 11:59 159次阅读
    你应该知道的10个<b class='flag-5'>AI</b>芯片<b class='flag-5'>术语</b>

    黑马-Java+AI新版V16零基础就业班百度云网盘下载+Java+AI全栈开发工程师

    传统开发升级,Java+AI 融合开发精讲——构建下一代企业级智能应用的技术栈重塑 在人工智能加速渗透至各行各业的当下,Java 开发者正面临一个关键转折点:要么被动旁观 AI 能力的边缘化集成
    发表于 05-01 11:29

    [完结15章]Java转 AI高薪领域必备-从0到1打通生产级AI Agent开发

    AI瞬间完成时,仅凭对Spring Boot框架的熟练度已无法构建职业护城河。Java工程师若想拒绝原地踏步,绝不是简单地学一Python或调用几个API,而是必须将自身深厚的工程化底座与大模型的认知
    发表于 04-30 13:46

    Java转 AI高薪领域必备 从0到1打通生产级AI Agent开发 教程资料

    告别CRUD内卷的经济学:Java程序员转型AI Agent的商业重构 在当前的IT职场生态中,一个令人不寒而栗的现象正在上演:传统Java CRUD(增删改查)开发者的薪资溢价正在被系统性抹平
    发表于 04-29 17:08

    是德科技推出全新AI推理仿真平台

    是德科技(NYSE: KEYS)近日推出KAI推理构建器(Keysight AI Inference Builder),这款仿真与分析平台旨在大规模验证针对推理进行优化的AI基础设施。
    的头像 发表于 03-20 17:27 901次阅读
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平台

    从英伟达电话会看Agentic AI推理与FPGA价值

    2026年2月,英伟达发布2026财年Q4财报:营收681亿美元,同比增长73%,数据中心业务增长75%——预期中的超预期。更值得关注的,是电话会中反复出现的几个关键词:Agentic AI推理
    的头像 发表于 03-04 17:07 1380次阅读
    从英伟达电话会看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>与FPGA价值

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类AI模型响应用户问
    的头像 发表于 02-03 17:15 3426次阅读

    使用NORDIC AI的好处

    原始传感器数据,可显著降低功耗、延长电池寿命。[Edge AI 概述; Nordic Edge AI 技术页] 降低云依赖与时延 直接在设备上做推理,很多决策可以“本地实时”完成,不必等云端响应
    发表于 01-31 23:16

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1630次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规则:三、直觉
    发表于 09-17 11:45

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI
    的头像 发表于 08-15 09:45 1472次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理成本。   尤为
    发表于 08-13 09:45 5797次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    成本控制视角下MCX插头大小的制造经济学

    在MCX插头的制造经济学中,尺寸选择从来不是简单的“越小越好”,而是性能、成本、工艺的系统平衡。德索精密工业以17年技术积淀,为客户提供从0.8mm超薄型到5mm高功率型的全尺寸矩阵,用数据驱动的成本控制方案,让每一款MCX插头都成为性价比最优解。
    的头像 发表于 06-19 08:45 711次阅读
    成本控制视角下MCX插头大小的制造<b class='flag-5'>经济学</b>