是德科技如何提升AI数据中心集群的可扩展性-电子发烧友网

引言

全球范围内，一场高投入的竞赛正在展开：各国与各类企业不断扩建数据中心，以支撑其人工智能（AI）的发展。

最新研究预测

包括数据中心、网络与硬件在内的 AI 基础设施投资将于 2029 年达到 4230 亿美元，年复合增长率（CAGR）约 44%。然而，AI 的快速创新也前所未有地加剧了数据中心网络的压力。以 Meta 最近发布的 Llama 3 405B 训练集群为例，其预训练阶段需要超过700 TB 内存与1.6 万张 NVIDIA H100 GPU。Epoch AI估计，到 2030 年，AI 模型所需计算能力将达到当今领先模型的1 万倍。

如果企业里拥有数据中心，引入 AI 就只是时间问题。关键问题是：

网络基础设施是否具备扩展能力，可以承载复杂且大流量的 AI 训练负载？

本文聚焦 AI 数据中心集群扩展，识别关键网络挑战并阐明为何网络成为新瓶颈；

同时说明如何借助先进模拟与仿真方案克服这些挑战，帮助您打造可扩展、可靠的 AI 网络以匹配 AI 战略目标。

AI 集群的兴起

思科（Cisco）的一项最新调研显示，89% 的受访者计划在2026年前部署某种形式的 AI 就绪型数据中心集群。

AI 集群是一个由大量计算资源构成、高度互联的网络，用于承载 AI工作负载。与传统计算集群不同，AI集群针对模型训练、推理与实时分析进行了优化：它们依赖成千上万张 GPU、高速互连与低时延网络来满足密集计算与数据吞吐的需求。

构建 AI 集群

可以把 AI 集群理解为“缩微网络”：通过构建“微型计算机网络”将 GPU 相互连接，使其能高效地进行数据传输。在面向数千—数万 GPU 的分布式训练中，稳健的网络连接是长期协同训练的基本保障。

AI 集群的关键组成

01计算节点：

相当于 AI 集群的“大脑”。成千上万的 GPU 连接到机架顶层交换机（ToR）；问题越复杂，所需 GPU 越多。

02高速互连：

如以太网等，用于在计算节点间快速传输数据。

03网络基础设施：

涵盖网络硬件与协议，支撑长期运行、成千上万 GPU 之间的数据通信。

扩展 AI 数据中心集群

AI 集群规模需要随业务需求与工作负载弹性扩展。随着模型日益复杂，组织不断推动集群扩张。Dell’Oro Group 的网络报告指出，AI 集群规模几乎每年以 4 倍速度增长，对网络基础设施提出巨大挑战。

直至最近，网络带宽、时延与电力分配等因素将 AI 集群规模限制在约 3 万张 GPU。然而，xAI 的 Colossus 超级计算机项目在 2024年将规模提升到 10 万张 NVIDIA H100，突破历史上限。网络与内存技术的最新创新，使 GPU 间数据通信更快，标志着 AI 集群可扩展性的重大飞跃。

扩展中的关键挑战

01）网络挑战

当参数规模扩展到万亿级及以上时，传统数据中心网络可能无法高效扩展。GPU 擅长并行数学计算，但在成千上万 GPU 协同工作时，若有任意单卡因数据不足或延迟被“卡住”，其他 GPU 也会被拖慢。拥塞网络带来的时延拉长或丢包触发重传，显著增加 JCT（作业完成时间），让价值数百万美元的 GPU 效率降低。

此外，AI 工作负载下东西向（east-west）流量暴增，若缺乏针对性优化，极易引发拥塞与时延问题。

02）互连挑战

随着集群扩展，传统互连难以满足吞吐需求。升级到 400G / 800G / 1.6T 等更高速的互连往往势在必行。但在这些速率下，高速串行链路必须经过精细测试及优化，以确保最佳信号完整性（SI）、更低误码率（BER）与更好 FEC（前向纠错）的性能及冗余。这需要高精度、高效率的测试系统在部署前完成链路验证。

03）财务挑战

除 GPU 费用外，还必须考虑电力、冷却、网络设备与更广泛的数据中心基础设施成本。AI 训练常持续数周甚至数月，占用昂贵的计算资源。通过更好的互连或改进的网络性能加速训练，不仅能缩短训练周期，也能更早释放资源用于其他任务——节省的每一天都可能转化为显著成本优势。

AI 集群网络的验证

要加速模型训练并最大化 ROI，必须对网络结构（fabric）与 GPU 间互连进行测试与基准评测（benchmarking）。

困难在于：硬件、体系结构设计与动态工作负载三者之间存在复杂耦合，给统一、可复现的验证带来挑战。

实验室部署的现实制约

在实验室复制生产级网络代价高昂：设备有限、需要专业网络工程师，且实验室在空间/供电/散热等方面与生产环境往往不一致。直接在生产网络上测试，又会挤占算力、影响关键 AI 任务。另一方面，AI 工作负载与数据集高度多样（大小与通信模式差异大），使得问题复现与一致性基准更为困难。最终，要洞察 GPU 之间的集体通信细节，需要先进的监测工具来分析同步与数据交换模式，诊断性能瓶颈。

在实验室“模拟一切”

Keysight AI Data Center Builder 通过高密度高速率测试仪器来仿真真实 AI 流量模式。

典型流程如下

先在实验室测试目标方案的子集，对集合通信完成时间，算法带宽，总线带宽、P50/P95长尾等关键指标进行基准评测。这有助于在设计阶段平衡 GPU/工作负载设置与网络配置。当网络架构师与工程师对结果满意后，便可将设置应用到生产，并对新结果进行测量。凭借此方案，工程师能够在实验室或过渡环境中先设计与优化，随后落地到生产；这个过程无需在实验室部署专用的 AI 计算节点与Smart NIC。

面向未来的网络部署

随着 AI 重塑数据中心产业，前瞻性地建设网络至关重要。Ultra Ethernet Consortium（UEC）正在推进开放、互操作的行业标准，面向 AI 的性能与可扩展性。UEC 引入链路级重试（LLR）与拥塞管理等机制，以增强以太网在 AI 工作负载场景下的可扩展性与确定性。展望未来，Ultra Ethernet 与其他新兴标准将成为“AI 就绪网络”的关键推动力。

Keysight AI Data Center Builder 的优势在于：它支持AI网络各层的模拟和仿真，帮助客户优化训练时间、复现生产网络问题、调优 AI cluster 性能、新方案新组合的验证、为多厂商协作提供平台。

是德科技携手 Heavy Reading 发布《超越瓶颈：2025 年 AI 集群网络报告》指出，AI 采用正全速推进，而现有基础设施的就绪度已难以同步跟进。基于全球样本的调研，报告呼吁电信与云服务提供商将战略重心从单纯“扩张”转向“以优化为先”，以更确定、更高效的网络承载下一代 AI 工作负载。欢迎在文末“阅读原文”下载完整版报告，或者点击下载参与我们的问卷。

结语

当 AI 推动数据中心进入全新阶段，网络已成为 AI 成功的新瓶颈亦或新引擎。

借助高保真仿真与系统级验证，企业能够在实验室里复刻生产难题，以可测、可复现的方法优化网络并缩短训练周期，从而在 AI 基础设施的竞赛中占得先机。是德科技将持续以 KAI（Keysight Artificial Intelligence）方案，帮助客户在设计—仿真—验证—部署的全链路上实现“从可用到卓越”的跃迁。

关于是德科技

是德科技（NYSE：KEYS）启迪并赋能创新者，助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司，我们提供先进的设计、仿真和测试解决方案，旨在帮助工程师在整个产品生命周期中更快地完成开发和部署，同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手，加速创新，创造一个安全互联的世界。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

网络

网络

+关注

关注
14

文章
8336

浏览量
95568
数据中心

数据中心

+关注

关注
18

文章
5773

浏览量
75209
AI

AI

+关注

关注
91

文章
41156

浏览量
302617

原文标题：800G / 1.6T 时代，如何让提升 AI 数据中心集群的可扩展性？

文章出处：【微信号：是德科技KEYSIGHT，微信公众号：是德科技KEYSIGHT】欢迎添加关注！文章转载请注明出处。

搜索历史

是德科技如何提升AI数据中心集群的可扩展性

评论