随着人工智能 (AI) 工作负载在规模和复杂性上的持续提升,AI 对算力的功耗需求正迅速攀升。当下真正的瓶颈已不在于原始算力,而是能否在功耗、散热、物理空间的固有约束内,提供高能效的计算能力。
与此同时,AI 工作负载的运行特征也在迭代演变。系统正从用户发起的短时交互模式,逐步转向自主生成、自主调度任务的持续性多阶段流程。适配这一变革,需要依托全新技术:以最大化每瓦性能、并在持续负载下维持性能稳定为核心,而非仅针对瞬时流量峰值做优化。
而工作负载运行模式的这一变革,正愈发由代理式 AI (Agentic AI)驱动。与传统推理不同,代理式 AI 不只是生成词元 (token),而是会协调一连串决策过程,包括工具调用、检索步骤、记忆访问以及模型之间的交互。这使得系统编排成为一项一级需求,而 CPU 作为负责管理并持续支撑这些复杂流程的关键系统组件,其重要性愈发凸显。
什么是代理式 AI
代理式 AI 所赋能的全新系统能够在极少人工干预的情况下,自主完成任务规划、执行并动态适配。这类系统不再局限于单次指令应答,而是将复杂任务拆解为分步流程,调用各类工具与服务,并在运行过程中持续迭代调整。
例如,一个代理式 AI 系统可以接收诸如“准备一份市场分析报告”这样的高级需求,随后自动从多个数据源收集信息、开展分析、生成报告并完成分享,全程无需人们逐步下达指令。

这清楚地表明了 AI 运行方式正在发生转变。传统 AI 系统大多是被动响应的:用户提交提示,模型生成回复,交互随即结束。相比之下,代理式 AI 系统具有持续性。它们能够运行完整工作流、协调多项流程,其运作不再局限于单次交互。
此类系统需自主调度任务、联动多模型协作并实时决策,使得系统运行负荷的增速,远超传统人工交互的节奏。最终带来系统负载的跃升,工作负载呈现持续运行、多任务并发的特点,对硬件算力与系统承载能力提出了更高要求。
代理式 AI 系统如何运作
代理式 AI 系统依靠规划、任务编排、自主学习、行动执行等一系列环节运转。每个环节都会产生前后依赖关系,必须按既定顺序依次处理,且往往需要跨多个服务协同调度。
协同编排层的重要性正日益凸显。在代理式 AI 系统中,CPU 不再只是为加速器输送数据,而是承担全局编排中枢的角色,统筹工具调用、内存访问、服务协作、任务调度,以及贯穿整个工作流的控制流决策。
随着并发任务数量持续增长,各类依赖关系逐渐暴露出传统系统架构设计的短板。工作负载容易出现分配失衡:部分资源闲置利用率偏低,另一部分资源却负载过载、趋于饱和。即便尚有富余算力,内存与 I/O 也极易成为争抢瓶颈,拖累整体执行速度。
这就导致:单纯增加线程数、扩大工作负载体量,并不总能提升系统性能。反而会让系统各处的低效损耗不断累积,拉低整体吞吐能力,同时抬高各项任务的运行成本。
对 AI 基础设施设计的启示
代理式 AI 的兴起,不仅改变了系统的构建模式,更重塑了配套基础设施的设计理念。当下 AI 工作负载多为需长期稳定运行的连续业务流程,因此基础设施设计愈发重视协同调度、持续吞吐、资源高效管理与利用率优化。
这意味着设计重心不再局限于单一组件的峰值性能,而是更看重整个系统中各组件的协同能力。性能评价标准也已升级:不再只考量单项任务的处理速度,而是要看在既定功耗与容量约束下,系统能否在海量并发工作流中保持稳定一致的任务执行能力。唯有实现计算、内存、I/O 三者均衡配比,才能在性能扩容的同时规避瓶颈。
代理式 AI 也重构了能效的衡量维度,评价重心转向:系统在每瓦功耗、单机架条件下可长期承载的有效业务量,同时在多并发工作流中维持稳定时延。能效优化不再局限于模型推理层面,已然上升为全局性的系统级挑战。
Arm 首款量产芯片产品 Arm AGI CPU,是 Arm 专为 AI 数据中心设计的 CPU,旨在为下一代 AI 基础设施破解上述挑战。通过在系统层面实现计算、内存与 I/O 的协同扩展,保障每项任务都能匹配充足资源、高效运行,从而在严格的功耗限制下,为高编排、高并发的复杂工作负载提供可预期的稳定性能。
该设计可让复杂工作流的执行更平稳连贯,使系统无需依靠冗余算力,也不用弥补技术栈各层级的资源失衡,即可稳定维持性能输出。随着代理式 AI 系统逐步大规模落地商用,能否在资源约束下持续稳定输出性能,将决定其规模化部署的实际成效。
代理式 AI:从云端延伸至边缘侧
代理式 AI 工作负载也正开始从云端和数据中心向更广阔的应用领域拓展,部分执行过程逐步向更靠近用户的终端设备迁移,从而实现更快速、更私密、且结合本地上下文的决策。
例如,在预订度假行程时,如果用户提出“规划一次 6 月为期一周的意大利之旅”,智能体可以自动查询航班、比较价格、选择住宿、规划行程并完成预订。其中一些步骤(如大规模数据检索)可能仍在云端执行,而另一些步骤(如管理用户偏好或跟踪整体流程)则可以在设备本地完成,以避免反复产生延迟。
这形成了一种分布式处理模式:任务在云端与边缘侧之间拆分执行,其核心目标是确保代理式 AI 流程中的每一个步骤都能在任何位置可靠运行。在这一过程中,CPU 的角色再次变得至关重要 —— 它不仅需要跨不同环境协调工作流,还要在端侧对 GPU、NPU 等计算单元进行编排,确保任务被分配到最合适的执行组件上,从而在设备资源受限的条件下,实现 AI 工作负载的更高效运行。
赋能 AI 发展新阶段
支持代理式 AI 工作负载,绝非单纯扩充系统容量,而是要打造能够在持续真实业务场景下高效稳定运行的架构体系。
从云端到边缘侧,Arm 面向全新计算时代的技术理念,恰好契合这一行业变革趋势。通过专注于如何在多场景、多负载形态下实现规模化算力交付,Arm 为新一代代理式 AI 系统的落地运行筑牢了底层根基。
-
cpu
+关注
关注
68文章
11362浏览量
226296 -
AI
+关注
关注
91文章
41834浏览量
302983 -
工作负载
+关注
关注
0文章
17浏览量
2131
原文标题:读懂代理式 AI:重构从云端到边缘侧的 AI 新范式
文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
Arm推进代理式AI时代基础设施演进
Arm携手Google Cloud推进代理式AI基础设施规模化落地
代理式AI系统赋能行业发展新阶段
评论