代理式AI系统赋能行业发展新阶段-电子发烧友网

随着人工智能 (AI) 工作负载在规模和复杂性上的持续提升，AI 对算力的功耗需求正迅速攀升。当下真正的瓶颈已不在于原始算力，而是能否在功耗、散热、物理空间的固有约束内，提供高能效的计算能力。

与此同时，AI 工作负载的运行特征也在迭代演变。系统正从用户发起的短时交互模式，逐步转向自主生成、自主调度任务的持续性多阶段流程。适配这一变革，需要依托全新技术：以最大化每瓦性能、并在持续负载下维持性能稳定为核心，而非仅针对瞬时流量峰值做优化。

而工作负载运行模式的这一变革，正愈发由代理式 AI (Agentic AI)驱动。与传统推理不同，代理式 AI 不只是生成词元 (token)，而是会协调一连串决策过程，包括工具调用、检索步骤、记忆访问以及模型之间的交互。这使得系统编排成为一项一级需求，而 CPU 作为负责管理并持续支撑这些复杂流程的关键系统组件，其重要性愈发凸显。

什么是代理式 AI

代理式 AI 所赋能的全新系统能够在极少人工干预的情况下，自主完成任务规划、执行并动态适配。这类系统不再局限于单次指令应答，而是将复杂任务拆解为分步流程，调用各类工具与服务，并在运行过程中持续迭代调整。

例如，一个代理式 AI 系统可以接收诸如“准备一份市场分析报告”这样的高级需求，随后自动从多个数据源收集信息、开展分析、生成报告并完成分享，全程无需人们逐步下达指令。

这清楚地表明了 AI 运行方式正在发生转变。传统 AI 系统大多是被动响应的：用户提交提示，模型生成回复，交互随即结束。相比之下，代理式 AI 系统具有持续性。它们能够运行完整工作流、协调多项流程，其运作不再局限于单次交互。

此类系统需自主调度任务、联动多模型协作并实时决策，使得系统运行负荷的增速，远超传统人工交互的节奏。最终带来系统负载的跃升，工作负载呈现持续运行、多任务并发的特点，对硬件算力与系统承载能力提出了更高要求。

代理式 AI 系统如何运作

代理式 AI 系统依靠规划、任务编排、自主学习、行动执行等一系列环节运转。每个环节都会产生前后依赖关系，必须按既定顺序依次处理，且往往需要跨多个服务协同调度。

协同编排层的重要性正日益凸显。在代理式 AI 系统中，CPU 不再只是为加速器输送数据，而是承担全局编排中枢的角色，统筹工具调用、内存访问、服务协作、任务调度，以及贯穿整个工作流的控制流决策。

随着并发任务数量持续增长，各类依赖关系逐渐暴露出传统系统架构设计的短板。工作负载容易出现分配失衡：部分资源闲置利用率偏低，另一部分资源却负载过载、趋于饱和。即便尚有富余算力，内存与 I/O 也极易成为争抢瓶颈，拖累整体执行速度。

这就导致：单纯增加线程数、扩大工作负载体量，并不总能提升系统性能。反而会让系统各处的低效损耗不断累积，拉低整体吞吐能力，同时抬高各项任务的运行成本。

对 AI 基础设施设计的启示

代理式 AI 的兴起，不仅改变了系统的构建模式，更重塑了配套基础设施的设计理念。当下 AI 工作负载多为需长期稳定运行的连续业务流程，因此基础设施设计愈发重视协同调度、持续吞吐、资源高效管理与利用率优化。

这意味着设计重心不再局限于单一组件的峰值性能，而是更看重整个系统中各组件的协同能力。性能评价标准也已升级：不再只考量单项任务的处理速度，而是要看在既定功耗与容量约束下，系统能否在海量并发工作流中保持稳定一致的任务执行能力。唯有实现计算、内存、I/O 三者均衡配比，才能在性能扩容的同时规避瓶颈。

代理式 AI 也重构了能效的衡量维度，评价重心转向：系统在每瓦功耗、单机架条件下可长期承载的有效业务量，同时在多并发工作流中维持稳定时延。能效优化不再局限于模型推理层面，已然上升为全局性的系统级挑战。

Arm 首款量产芯片产品 Arm AGI CPU，是 Arm 专为 AI 数据中心设计的 CPU，旨在为下一代 AI 基础设施破解上述挑战。通过在系统层面实现计算、内存与 I/O 的协同扩展，保障每项任务都能匹配充足资源、高效运行，从而在严格的功耗限制下，为高编排、高并发的复杂工作负载提供可预期的稳定性能。

该设计可让复杂工作流的执行更平稳连贯，使系统无需依靠冗余算力，也不用弥补技术栈各层级的资源失衡，即可稳定维持性能输出。随着代理式 AI 系统逐步大规模落地商用，能否在资源约束下持续稳定输出性能，将决定其规模化部署的实际成效。

代理式 AI：从云端延伸至边缘侧

代理式 AI 工作负载也正开始从云端和数据中心向更广阔的应用领域拓展，部分执行过程逐步向更靠近用户的终端设备迁移，从而实现更快速、更私密、且结合本地上下文的决策。

例如，在预订度假行程时，如果用户提出“规划一次 6 月为期一周的意大利之旅”，智能体可以自动查询航班、比较价格、选择住宿、规划行程并完成预订。其中一些步骤（如大规模数据检索）可能仍在云端执行，而另一些步骤（如管理用户偏好或跟踪整体流程）则可以在设备本地完成，以避免反复产生延迟。

这形成了一种分布式处理模式：任务在云端与边缘侧之间拆分执行，其核心目标是确保代理式 AI 流程中的每一个步骤都能在任何位置可靠运行。在这一过程中，CPU 的角色再次变得至关重要 —— 它不仅需要跨不同环境协调工作流，还要在端侧对 GPU、NPU 等计算单元进行编排，确保任务被分配到最合适的执行组件上，从而在设备资源受限的条件下，实现 AI 工作负载的更高效运行。

赋能 AI 发展新阶段

支持代理式 AI 工作负载，绝非单纯扩充系统容量，而是要打造能够在持续真实业务场景下高效稳定运行的架构体系。

从云端到边缘侧，Arm 面向全新计算时代的技术理念，恰好契合这一行业变革趋势。通过专注于如何在多场景、多负载形态下实现规模化算力交付，Arm 为新一代代理式 AI 系统的落地运行筑牢了底层根基。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉