0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为何AI数据中心的系统架构师首选Arm平台

Arm社区 来源:Arm社区 2026-03-24 10:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

过去十多年,云基础设施通过“抽象化”实现扩展,借助标准化服务器、虚拟化资源及软件层,有效弥合了硬件层面的差异。这种模式之所以行之有效,是因为部分工作负载能够容忍一定程度的低效。然而,人工智能 (AI) 工作负载无法容忍低效,也因此暴露出了传统架构在供电、散热、算力密度、内存带宽及系统整体性能方面的短板。

本质上,AI 重新定义了“优秀”基础设施的标准。相应地,平台设计的重心也从注重单一的芯片或服务器,转向了打造机架级、可扩展的系统,在功耗和预算有限的前提下,实现高效扩展。而这一转变背后的原因在于,推理与智能体 AI 工作负载持续增长且不间断运行,对高密度、全天候在线的算力需求正快速提升。

Futurum 在《Arm 处于 AI 和数据中心变革的中心》报告中,把这一转变称为迈向“系统级协同”。设计的关键不再是堆多少算力,而是平台能不能有效地把加速器、CPU、内存、网络和软件协同起来。

正因如此,业界正加速迈向定制化机架级系统设计:即围绕 AI 负载特性、功耗波动和持续利用率来进行端到端设计的平台。越来越多的架构师开始重新思考计算底层设计,选择基于 Arm 架构来解决现代 AI 平台面临的多重约束。

AI 促使行业重构:转向定制化机架级系统

这一转变的核心原因,并非通用型标准化基础设施无法承载 AI,而是碎片化的系统设计,在 AI 规模化部署时,终将转化为真实可感的成本代价。

AI 工作负载在计算、内存、网络、存储及软件各环节紧密耦合。CPU 拖后腿,昂贵的加速器就会空等;功耗和散热波动,利用率就会下滑;数据管道、调度、编排未能针对平台调优,吞吐量就不可预测。峰值性能依然重要,但稳定性、每瓦性能和系统整体平衡性更关键。

Futurum 指出,超大规模云服务提供商正进行结构性调整,旨在实现算力的指数级增长,同时避免能耗的同步激增。Futurum 引用 Arm 的数据指出,到 2025 年末,出货到头部超大规模云服务提供商的算力中,有近 50% 是基于 Arm 架构。

架构师现在不再只看纸面跑分,而是更关心 AI 平台在实际应用中能否长期可靠地运行智能体 AI 和连续推理工作负载,比如:

长时间高负载下,系统表现如何?

在实际环境中,功耗限制和散热条件如何影响性能曲线?

在机架级系统中,计算层如何确保加速器能持续获得稳定的数据供给,而非仅停留在纸面参数上?

当能效、可扩展性与系统平衡性成为首要原则时,重新审视 CPU 底层架构就成了必然。也正因为此,Arm 凭借领先的架构和完善的生态,正是这场行业变革的核心所在。

在数据中心领域,Arm Neoverse 平台是推动这一转型的核心引擎。亚马逊云科技、Google、微软、NVIDIA 等头部超大规模云服务提供商与 AI 领军企业,都在基于 Arm 架构或采用 Arm 计算平台进行产品研发。Arm 的模式既能支持定制化系统设计,又能保持跨平台、跨生态、跨软件的一致性。对于想要构建高集成度平台、又不愿被单一技术路径绑定的团队而言,这种灵活性至关重要。

智能体 AI 与持续推理,

重塑规模化算力的经济逻辑

随着 AI 与通用计算工作负载的融合,AI 工作负载正在发生变化,基础设施也需随之调整,以支持多样化的工作负载特性。

行业重心正在转向智能体 AI,而智能体 AI 本质上就是一个连续推理系统。智能体并不是简单地给出一个答案, 而是会规划、调用工具、检索数据、验证结果,如此循环往复。由此便形成了连续推理模式:稳定不间断的词元 (token) 生成任务,请求类型趋于多元化,围绕加速器的编排和数据迁移任务变得更繁重。

在智能体 AI 里,CPU 不再是配角, 而是整个 AI 系统的控制中枢。CPU 负责协调控制、调度任务、管理 IO、处理网络与存储服务、执行安全策略,并在模型、上下文及工具链不断演进的过程中,维持整个系统的平衡。

以承载大语言模型 (LLM) 的服务为例,它可能同时处理成百上千的并发请求。就算加速器负责核心计算,CPU 也要承担请求权限控制、分词和预处理、批处理和队列调度、数据迁移编排,以及针对模型权重与 KV 缓存的数据路径协调等。到了智能体工作流,CPU 的工作负担进一步扩展,还要承担工具调用、检索流程、结构化输出验证、多步调度等持续运行的任务。

这一切都表明,CPU的重要性远超许多团队的预期。如果 CPU 跟不上编排节奏,数据迁移、处理流程和加速器都会被“卡住”,面临结构性的闲置风险。

融合型 AI 数据中心的建设,彰显了 Arm 架构的强劲势头

Arm 的发展势头正在加快。在业内领先的集成式 AI 系统中,基于 Neoverse 平台的 CPU 被广泛用于智能体推理密集型系统的编排层,尤其适合追求高能效、可预测扩展能力和大规模部署的应用场景。

独立测试也印证了现代 CPU 基础平台在“AI 相关”工作负载中的价值。Futurum 旗下 Signal65 的独立基准测试对比了基于 Arm Neoverse 平台的 Amazon Graviton4 与同级的 AMDIntel EC2 实例,结果显示:在生成式 AI (Llama-3.1-8B)、数据库 (Redis)、机器学习 (XGBoost)、网络 (Nginx) 等测试的各种工作负载中,基于 Neoverse 平台的 Graviton4 在性能和性价比方面大幅领先。

测试结果直接反映了智能体 AI 数据中心的现状:LLM、检索层、缓存、Web/API、传统机器学习等全都处于智能体系统的关键路径上,只有当 CPU 兼具速度与能效时,整体才能更好地扩展。

最新的机架级 AI 系统在架构设计上,均采用定制化加速器层以及基于 Arm 架构的 CPU 层的组合,由后者承担调度编排、数据迁移与智能体推理预处理等关键任务。NVIDIA Grace Hopper、Grace Blackwell 等系列产品,将 NVIDIA GPU 与基于 Neoverse 架构的 Grace CPU 深度融合。而其最新机架级平台 Vera Rubin NVL72,更是在系统内集成 72 颗 Rubin GPU 与 36 颗基于 Arm 架构的 Vera CPU,专为交互式、深度推理型智能体 AI 优化,显著降低推理成本。

亚马逊云科技也在走同样的系统级路线:Amazon Trainium3 UltraServer 把 Trainium3 加速器芯片与 Graviton CPU 结合,强化了“融合型”设计理念:将加速器与定制的高性能、高能效 CPU 相匹配,以实现高效扩展。

“提供更优选择”不再是偏好,而是硬性要求

AI 系统迭代太快,固定架构已无法适配其发展节奏,因此为客户提供更优选择已成为风险管理的必要举措。

系统架构师想要的是:

平台能适应不同代的硬件、多样的工作负载配置及各异的部署环境;

软件可移植,以降低系统变更成本。

与此同时,系统架构师希望避免因过度依赖单一厂商,而导致在模型组合变化、业务规模扩张或新需求出现时陷入被动。在智能体时代尤其如此:推理形态不断变化,上下文更长、工具调用更多、多模态输入更频繁、全天候工作负载更普遍,效率和平衡远比峰值跑分重要。

Arm 架构在提升系统性能的同时,保持跨平台一致性。Arm 架构不仅引入了现代 AI 基础设施所需的关键特性,而且拥有强大的软件生态支持。Arm 计算子系统 (CSS) 提供经过验证的基础设施级模块,既加速了芯片开发,又保留了合作伙伴间的差异化与选择权。对于所有基于 Arm 架构的平台,一致性贯穿始终,云工作负载迁移至 Arm 平台也极为便捷。同时,在软件层面,Arm 生态助力团队在不同环境与平台间拥有一致连贯的基础,从而加速开发进程,无需重写所有代码。

智能体 AI 经济重塑 CPU 选择格局,Arm Neoverse 平台成头部厂商首选

系统架构师之所以倾向于 Arm 平台,因为它精准匹配定制AI 系统的核心需求:能效、可扩展性及每瓦性能。能效重要,因为功耗和预算是硬上限;系统平衡和 CPU 性能重要,因为加速器闲置成本极高;一致性重要,因为 AI 基础设施变化快、跨环境部署日益增多。

在融合型智能体 AI 数据中心里,面对持续推理的应用需求,上述优先事项变成了上线即需满足的硬性指标。智能体系统不只需要能生成词元的加速器,更需要以 CPU 为核心的编排能力,在网络、存储、调度、安全层面,持续、高效、大规模地把资源利用起来。

Arm 如今的强劲增长正源于此:Neoverse 正成为智能体时代的 CPU 基础平台,作为计算头节点,是让 AI 系统保持高效、一致并面向未来的核心控制中枢。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9583

    浏览量

    393505
  • 数据中心
    +关注

    关注

    18

    文章

    5754

    浏览量

    75195
  • AI
    AI
    +关注

    关注

    91

    文章

    40961

    浏览量

    302530

原文标题:为何 AI 数据中心的系统架构师首选 Arm 平台

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    意法半导体为超大规模AI数据中心破解供电难题

    AI大模型算力需求呈指数级飙升,兆瓦级AI机柜成为主流,传统54V低压配电系统早已触到物理极限,供电端的多重挑战正成为AI数据中心规模化发展
    的头像 发表于 04-07 15:46 217次阅读
    意法半导体为超大规模<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>破解供电难题

    Arm亲自下场!自研首款数据中心AGI CPU发布!

    Arm今日发布首款由 Arm 设计的数据中心 CPU——Arm AGI CPU,专为代理式 AI 基础设施打造,可实现单机架性能达到 x86
    的头像 发表于 03-25 08:39 2968次阅读
    <b class='flag-5'>Arm</b>亲自下场!自研首款<b class='flag-5'>数据中心</b>AGI CPU发布!

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    Arm架构计算平台驱动融合型AI数据中心变革

    的意义远不止于一个统计数字,更重要的是它们构成了融合型人工智能 (AI) 数据中心这一新型基础设施的计算核心。从云原生服务到最具挑战性的 AI 工作负载,超大规模云服务提供商正逐步将基于 Ar
    的头像 发表于 12-15 14:51 678次阅读

    Arm Neoverse平台集成NVIDIA NVLink Fusion

    生态系统,实现全缓存一致性与高带宽互连。 随着 AI 数据中心Arm Neoverse 的需求持续增长,客户在将工作负载加速器连接至 Arm
    的头像 发表于 11-26 11:08 572次阅读

    人工智能数据中心的光纤布线策略

    人工智能数据中心的光纤布线策略,包括布线规划、光纤选型、架构设计、成本优化以及未来趋势等。 布线规划的重要性 在人工智能数据中心中,光纤布线的规划是确保系统高效运行的关键步骤。合理的布
    的头像 发表于 11-21 10:21 575次阅读

    伟创力重磅发布全球首款面向千兆瓦级数据中心AI基础设施平台

    伟创力重磅发布全球首款面向千兆瓦级数据中心AI基础设施平台平台集成了电源和冷却产品、计算能力和服务,专为AI和高性能计算而设计,帮助
    的头像 发表于 10-23 15:08 922次阅读

    赋能人工智能未来:ADI宣布支持800 VDC数据中心架构

    , Inc. (ADI)推出创新解决方案,为数据中心下一代800 VDC架构提供有力支持。该系列解决方案包含高可靠性热插拔与一级电源产品,旨在实现安全、高效且智能的配电,精准满足现代AI工厂
    的头像 发表于 08-28 21:18 1235次阅读
    赋能人工智能未来:ADI宣布支持800 VDC<b class='flag-5'>数据中心</b><b class='flag-5'>架构</b>

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构AI工厂与AI
    发表于 08-13 19:01

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河AI
    的头像 发表于 08-11 10:42 2557次阅读

    PCIe协议分析仪在数据中心中有何作用?

    PCIe协议分析仪在数据中心中扮演着至关重要的角色,它通过深度解析PCIe总线的物理层、链路层、事务层及应用层协议,帮助运维人员、硬件工程系统架构师优化性能、诊断故障、验证设计合规
    发表于 07-29 15:02

    中型数据中心应用平台与差分晶体振荡器参数对照中型数据中心应用平台与差分晶体振荡器参数对照

    中型数据中心对高频、低抖动、宽温与多电压晶振的需求日益提升,FCO系列差分晶体振荡器凭借丰富封装、输出逻辑选择与优异相位抖动性能,为网络、存储、服务器与边缘系统提供稳定的时钟解决方案。FCO-2L 到 FCO-7L 系列,已成为新一代
    发表于 07-10 14:11

    中型数据中心中的差分晶体振荡器应用与匹配方案

    对时钟源的稳定性与抖动性能要求显著提升,差分晶体振荡器在其中扮演着核心角色。 中型数据中心典型案例 1. 大型制造企业工业数据中心 应用背景: 服务于制造集团的MES系统、IIoT平台
    发表于 07-01 16:33

    光纤为何AI就绪型数据中心的基石?

    康普数据中心业务部大中国区销售总监 刘伟岗 随着人工智能(AI)在各行各业加速落地应用,企业领导者也开始从根本上重新思考数据中心的建设和运营方式。同样,AI在中国市场势头正猛,各行业正
    的头像 发表于 06-13 17:07 1424次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    联接、AI网元三层网络架构,为企业构建智联满载算力,业务永续护航的数据中心网络,助力中东中亚地区网络基础设施升级与业务创新。
    的头像 发表于 05-21 15:49 1034次阅读