0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

是德科技如何提升AI数据中心集群的可扩展性

是德科技KEYSIGHT 来源:是德科技KEYSIGHT 2025-09-25 17:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

全球范围内,一场高投入的竞赛正在展开:各国与各类企业不断扩建数据中心,以支撑其人工智能(AI)的发展。

最新研究预测

包括数据中心、网络与硬件在内的 AI 基础设施投资将于 2029 年 达到 4230 亿美元,年复合增长率(CAGR)约 44%。然而,AI 的快速创新也前所未有地加剧了数据中心网络的压力。以 Meta 最近发布的 Llama 3 405B 训练集群为例,其预训练阶段需要超过700 TB 内存与1.6 万张 NVIDIA H100 GPU。Epoch AI估计,到 2030 年,AI 模型所需计算能力将达到当今领先模型的1 万倍。

如果企业里拥有数据中心,引入 AI 就只是时间问题。关键问题是:

网络基础设施是否具备扩展能力,可以承载复杂且大流量的 AI 训练负载?

本文聚焦 AI 数据中心集群扩展,识别关键网络挑战并阐明为何网络成为新瓶颈;

同时说明如何借助先进模拟仿真方案克服这些挑战,帮助您打造可扩展、可靠的 AI 网络以匹配 AI 战略目标。

AI 集群的兴起

思科(Cisco)的一项最新调研显示,89% 的受访者计划在2026年前部署某种形式的 AI 就绪型数据中心集群。

AI 集群是一个由大量计算资源构成、高度互联的网络,用于承载 AI工作负载。与传统计算集群不同,AI集群针对模型训练、推理与实时分析进行了优化:它们依赖成千上万张 GPU、高速互连与低时延网络来满足密集计算与数据吞吐的需求。

构建 AI 集群

可以把 AI 集群理解为“缩微网络”:通过构建“微型计算机网络”将 GPU 相互连接,使其能高效地进行数据传输。在面向数千—数万 GPU 的分布式训练中,稳健的网络连接是长期协同训练的基本保障。

AI 集群的关键组成

01计算节点:

相当于 AI 集群的“大脑”。成千上万的 GPU 连接到机架顶层交换机(ToR);问题越复杂,所需 GPU 越多。

02高速互连:

以太网等,用于在计算节点间快速传输数据。

03网络基础设施:

涵盖网络硬件与协议,支撑长期运行、成千上万 GPU 之间的数据通信

扩展 AI 数据中心集群

AI 集群规模需要随业务需求与工作负载弹性扩展。随着模型日益复杂,组织不断推动集群扩张。Dell’Oro Group 的网络报告指出,AI 集群规模几乎每年以 4 倍速度增长,对网络基础设施提出巨大挑战。

直至最近,网络带宽、时延 与 电力分配 等因素将 AI 集群规模限制在约 3 万张 GPU。然而,xAI 的 Colossus 超级计算机项目在 2024年将规模提升到 10 万张 NVIDIA H100,突破历史上限。网络与内存技术的最新创新,使 GPU 间数据通信更快,标志着 AI 集群可扩展性的重大飞跃。

扩展中的关键挑战

01)网络挑战

当参数规模扩展到万亿级及以上时,传统数据中心网络可能无法高效扩展。GPU 擅长并行数学计算,但在成千上万 GPU 协同工作时,若有任意单卡因数据不足或延迟被“卡住”,其他 GPU 也会被拖慢。拥塞网络带来的时延拉长或丢包触发重传,显著增加 JCT(作业完成时间),让价值数百万美元的 GPU 效率降低。

此外,AI 工作负载下东西向(east-west)流量暴增,若缺乏针对性优化,极易引发拥塞与时延问题。

02)互连挑战

随着集群扩展,传统互连难以满足吞吐需求。升级到 400G / 800G / 1.6T 等更高速的互连往往势在必行。但在这些速率下,高速串行链路必须经过精细测试及优化,以确保最佳信号完整性(SI)、更低误码率(BER)与更好 FEC(前向纠错)的性能及冗余。这需要高精度、高效率的测试系统在部署前完成链路验证。

03)财务挑战

除 GPU 费用外,还必须考虑电力、冷却、网络设备与更广泛的数据中心基础设施成本。AI 训练常持续数周甚至数月,占用昂贵的计算资源。通过更好的互连或改进的网络性能加速训练,不仅能缩短训练周期,也能更早释放资源用于其他任务——节省的每一天都可能转化为显著成本优势。

AI 集群网络的验证

要加速模型训练并最大化 ROI,必须对网络结构(fabric)与 GPU 间互连进行测试与基准评测(benchmarking)。

困难在于:硬件、体系结构设计与动态工作负载三者之间存在复杂耦合,给统一、可复现的验证带来挑战。

实验室部署的现实制约

在实验室复制生产级网络代价高昂:设备有限、需要专业网络工程师,且实验室在空间/供电/散热等方面与生产环境往往不一致。直接在生产网络上测试,又会挤占算力、影响关键 AI 任务。另一方面,AI 工作负载与数据集高度多样(大小与通信模式差异大),使得问题复现与一致性基准更为困难。最终,要洞察 GPU 之间的集体通信细节,需要先进的监测工具来分析同步与数据交换模式,诊断性能瓶颈。

在实验室“模拟一切”

Keysight AI Data Center Builder 通过高密度高速率测试仪器来仿真真实 AI 流量模式。

典型流程如下

先在实验室测试目标方案的子集,对集合通信完成时间,算法带宽,总线带宽、P50/P95长尾等关键指标进行基准评测。这有助于在设计阶段平衡 GPU/工作负载设置与网络配置。当网络架构师与工程师对结果满意后,便可将设置应用到生产,并对新结果进行测量。凭借此方案,工程师能够在实验室或过渡环境中先设计与优化,随后落地到生产;这个过程无需在实验室部署专用的 AI 计算节点与Smart NIC。

面向未来的网络部署

随着 AI 重塑数据中心产业,前瞻性地建设网络至关重要。Ultra Ethernet Consortium(UEC)正在推进开放、互操作的行业标准,面向 AI 的性能与可扩展性。UEC 引入 链路级重试(LLR)与拥塞管理等机制,以增强以太网在 AI 工作负载场景下的可扩展性与确定性。展望未来,Ultra Ethernet 与其他新兴标准将成为“AI 就绪网络”的关键推动力。

Keysight AI Data Center Builder 的优势在于:它支持AI网络各层的模拟和仿真,帮助客户优化训练时间、复现生产网络问题、调优 AI cluster 性能、新方案新组合的验证、为多厂商协作提供平台。

是德科技携手 Heavy Reading 发布《超越瓶颈:2025 年 AI 集群网络报告》指出,AI 采用正全速推进,而现有基础设施的就绪度已难以同步跟进。基于全球样本的调研,报告呼吁电信与云服务提供商将战略重心从单纯“扩张”转向“以优化为先”,以更确定、更高效的网络承载下一代 AI 工作负载。欢迎在文末“阅读原文”下载完整版报告,或者点击下载参与我们的问卷。

结语

当 AI 推动数据中心进入全新阶段,网络 已成为 AI 成功的新瓶颈亦或新引擎。

借助高保真仿真与系统级验证,企业能够在实验室里复刻生产难题,以可测、可复现 的方法优化网络并缩短训练周期,从而在 AI 基础设施的竞赛中占得先机。是德科技将持续以 KAI(Keysight Artificial Intelligence) 方案,帮助客户在设计—仿真—验证—部署 的全链路上实现“从可用到卓越”的跃迁。

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8336

    浏览量

    95568
  • 数据中心
    +关注

    关注

    18

    文章

    5773

    浏览量

    75209
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302617

原文标题:800G / 1.6T 时代,如何让提升 AI 数据中心集群的可扩展性?

文章出处:【微信号:是德科技KEYSIGHT,微信公众号:是德科技KEYSIGHT】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    曦智科技探讨AI数据中心三大扩展策略

    在OFC 2026期间,曦智科技接受了Semiconductor Engineering的专访,探讨了AI数据中心三大扩展策略——纵向扩展(Scale-up)、横向
    的头像 发表于 04-21 16:34 281次阅读
    曦智科技探讨<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>三大<b class='flag-5'>扩展</b>策略

    Microchip推出全新电源模块,提升AI数据中心功率密度与能效

    MCPF1525电源模块支持 PMBus™ 协议,可提供 25A DC-DC电流,并支持高达200A的 堆叠输出 日益增长的AI与高性能计算负载要求电源解决方案兼具高效、可靠和扩展性。集成电源模块
    的头像 发表于 02-04 16:15 6.1w次阅读
    Microchip推出全新电源模块,<b class='flag-5'>提升</b><b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>功率密度与能效

    NVIDIA软件可选服务支持数据中心集群管理

    这项可选服务将帮助数据中心运营商监测整个 AI GPU 集群运行状况,从而最大限度地延长正常运行时间。
    的头像 发表于 12-13 09:37 1059次阅读
    NVIDIA软件可选服务支持<b class='flag-5'>数据中心</b><b class='flag-5'>集群</b>管理

    如何评估电能质量在线监测装置的扩展性

    评估电能质量在线监测装置的扩展性,需围绕 “ 硬件扩展、软件升级、协议兼容、场景适配 ”
    的头像 发表于 10-22 16:35 732次阅读

    电能质量在线监测装置的兼容性和扩展性对其性能有何影响?

    电能质量在线监测装置的兼容性和扩展性,是决定其 “能否融入现有系统、适应未来变化” 的核心属性,直接影响装置的 数据互通性、功能适配性、生命周期价值 ,进而间接作用于谐波源识别准确率、定位精度等核心
    的头像 发表于 10-22 16:25 608次阅读

    Forrester首席分析师谈Net5.5G数据中心网络

    Forrester Research首席分析师Andre Kindness谈及AI数据中心网络的影响,指出面临性能、扩展性与编排管理三大挑战。关于数据中心功能协同,传统通用架构已分化
    的头像 发表于 10-14 14:29 790次阅读

    提升AI数据服务器交换机性能与效率的关键:永铭电容的应用

    ,还能够有效提高数据传输效率,为AI计算任务提供强大的支持。传统网络架构在应对AI任务时,往往无法满足数据传输带宽的瓶颈、低延迟的需求、横向扩展性
    的头像 发表于 09-01 10:04 525次阅读
    <b class='flag-5'>提升</b><b class='flag-5'>AI</b><b class='flag-5'>数据</b>服务器交换机性能与效率的关键:永铭电容的应用

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换
    发表于 07-29 15:02

    戴尔科技助力盛京医院打造现代医疗数据中心

    随着业务扩展与医疗数据激增,如何构建一个兼具安全性、敏捷性与扩展性的现代化数据中心,成为众多大型医院共同关注的命题。在这场关系全局的转型之中,中国医科大学附属盛京医院(以下简称“盛京医
    的头像 发表于 07-04 16:31 1043次阅读

    中型数据中心中的差分晶体振荡器应用与匹配方案

    对时钟源的稳定性与抖动性能要求显著提升,差分晶体振荡器在其中扮演着核心角色。 中型数据中心典型案例 1. 大型制造企业工业数据中心 应用背景: 服务于制造集团的MES系统、IIoT平台、设备监控与调度
    发表于 07-01 16:33

    瑞萨电子RA系列微控制器的扩展性强的配置软件包 (FSP)安装下载与使用指南

    瑞萨电子RA系列微控制器的扩展性强的配置软件包 (FSP)安装下载与使用指南
    的头像 发表于 06-11 17:21 2250次阅读

    重新思考数据中心架构,推进AI的规模化落地

    人工智能(AI)对计算资源的贪婪需求推动了基础设施的变革,业界正着力解决如何满足AI在功率、扩展性以及效率等方面的需求。这促使大量投资涌入,旨在重新配置
    的头像 发表于 05-30 13:51 845次阅读
    重新思考<b class='flag-5'>数据中心</b>架构,推进<b class='flag-5'>AI</b>的规模化落地

    NVIDIA 800V HVDC 架构赋能新一代AI数据中心 挑战传统机架电源系统极限

    800 V HVDC 不仅仅是当今的机架,而是面向未来的 AI 基础设施。2027 年,800 V HVDC 数据中心将与 NVIDIA Kyber 机架级系统同步全面投产,确保为要求日益严苛的 AI 模型提供无缝
    的头像 发表于 05-29 17:15 4150次阅读
    NVIDIA 800V HVDC 架构赋能新一代<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b> 挑战传统机架电源系统极限