NVIDIA如何优化AI工厂的网络可靠性与功耗-电子发烧友网

随着 AI 重新定义计算格局，网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源，更受到底层网络敏捷性、容量和智能程度的影响。行业正从传统以 CPU 为中心的基础架构，迈向紧耦合的、GPU 驱动和网络定义的 AI 工厂。

NVIDIA 构建了一套全面的网络解决方案，以满足现代大规模 AI 训练和推理对急速流量突发、高带宽及低延迟的需求。该方案涵盖Spectrum-X以太网、NVIDIA Quantum InfiniBand和BlueField平台。通过将计算与通信一起进行编排，NVIDIA 的网络产品组合为构建可扩展、高效且高可靠的 AI 数据中心奠定了基础，成为了推动 AI 创新的中枢神经系统。

在这篇博客中，我们将探讨 NVIDIA 的网络创新如何通过 CPO 技术，为大型 AI 工厂带来显著的能效提升和更强的可靠性。

AI 工厂基础设施与传统企业数据中心有何不同？

在传统企业数据中心中，Tier 1 交换机通常部署在每个服务器机架内，通过铜缆直接连接服务器，从而降低功耗并简化连接。这种架构能够有效满足以 CPU 为中心的、网络需求适中的工作负载。

相比之下，NVIDIA 开创的现代 AI 工厂配备了超高密的计算机架和数以千计的 GPU，能面向单一任务实现协同工作。这就需要在整个数据中心内实现最高带宽和最低的延迟，一种新的网络拓扑结构应运而生——即将 Tier 1 交换机部署在独立的机柜。这种布局显著增加了服务器与交换机之间的距离，使得光纤网络变得至关重要。由此带来的结果是功耗和光学组件数量大幅上升，如今在网卡到交换机以及交换机到交换机的连接中，均需依赖光学组件来实现高效传输。

如图 1 所示，这一演变体现了为满足大规模 AI 工作负载对高带宽和低延迟的需求，在网络拓扑和技术层面所发生的重大变革，并从根本上重塑了数据中心的物理结构与能耗特征。

图 1：横向扩展能力与 AI 密度取决于光纤连接

如何优化 AI 工厂的网络可靠性与功耗？

采用可插拔光模块的传统网络交换机依赖于多个电接口。在这些架构中，数据信号需经过一条较长的电传输路径：从交换机 ASIC 出发，经 PCB、连接器，最终到达外部光收发器，之后才能转换为光信号。如图 2 所示，这种分段式传输在每秒 200Gb/s 的通道中可能带来高达 22 dB 的电损耗。这显著增加了对复杂数字信号处理以及多个有源组件的需求。

图 2：Spectrum-X Photonics 可将信号完整性提升 64 倍

采用可插拔光模块的结果就是功耗更高（每个接口通常为 30W）、发热量增加以及潜在故障点显著增多。大量的独立模块和连接不仅推高了系统功耗和组件数量，还直接影响了链路的可靠性，随着 AI 部署规模的不断扩大，这些问题将带来持续的运营挑战。各组件的典型功耗如图 3 所示。

图 3：Spectrum-X Photonics 将功耗降低至 1/3.5

相比之下，采用 CPO 技术的交换机将电光转换部分直接集成到交换机封装中。光纤直接连接至和 ASIC 封装在一起的光引擎，使电信号损耗降低至约 4 dB，全通道功耗降至 9W。通过简化信号路径并消除不需要的接口，该设计显著提升了信号完整性、可靠性和能效，正是高密度、高性能 AI 数据中心所需的关键技术。

CPO 封装为 AI 工厂带来了哪些优势？

NVIDIA 推出基于 CPO 技术的系统，正是为了应对 AI 工厂前所未有的需求。通过将光引擎直接集成至交换机 ASIC，全新的 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics（如图 4 所示）将取代传统的可插拔光模块。这一创新简化了信号传输路径，显著提升了性能、能效和系统可靠性。新产品不仅在带宽和端口密度方面创下新高，更从根本上重塑了 AI 数据中心的经济模型与物理架构。

图 4：集成共封装的硅光引擎的 NVIDIA Photonics 交换 ASIC

Quantum-X Photonics如何引领下一代 InfiniBand 网络的诞生

随着 NVIDIA 推出 Quantum-X InfiniBand Photonics 平台，NVIDIA 将 InfiniBand 交换技术提升至全新高度。该平台具备以下功能：

交换容量达 115 Tb/s，支持 144 个端口，每个端口速率为 800 Gb/s。

借助第四代 NVIDIA SHARP 技术，实现每秒 14.4 万亿次的网络计算能力。

液冷技术，实现卓越的散热管理。

专用 InfiniBand 管理端口，支持强大的带内控制与监测功能。

NVIDIA Quantum-X 采用集成硅光技术，提供无与伦比的带宽、超低延迟和卓越的运营可靠性。该 CPO 设计不仅降低了功耗、提升了可靠性，还能实现快速部署，充分满足大规模代理式 AI 工作负载对互连的严苛需求。

Spectrum-X Photonics如何助力构建大规模以太网 AI 工厂

NVIDIA Spectrum-X Photonics 交换机将 CPO 技术革命拓展至以太网领域，专为生成式 AI 以及大规模大语言模型（LLM）的训练与推理任务而设计。全新的 Spectrum-X Photonics 产品包含两款基于液冷机箱和 Spectrum-6 ASIC 的系统：

Spectrum SN6810：具备 128 个 800 Gb/s 端口，总带宽达 102.4 Tb/s。

Spectrum SN6800：具备 512 个 800 Gb/s 端口，总带宽高达 409.6 Tb/s，性能卓越。

这两个平台均基于 NVIDIA 硅光技术，大幅减少了离散组件和电接口的数量。与前代架构相比，新架构能效提升达 3.5 倍，同时通过减少整体易损光学元件数量，将系统可靠性提高了 10 倍。技术人员可享受更高的可维护性，而 AI 运营商则能将部署时间缩短至 1/ 1.3 （约 77%），并显著缩短第一个 Token 的生成时间。

NVIDIA 的 CPO 技术组得益于强大的合作伙伴生态系统的支持。这种跨行业协作不仅保障了技术性能，更确保了全球大规模 AI 基础设施部署所需的大规模量产能力与可靠性。

CPO 如何实现性能、功耗与可靠性的突破

CPO 的优势显而易见：

3.5 倍能效提升：通过将光学器件直接集成到交换机 ASIC 封装中和减少了可插拔光模块，即使网络密度大幅增加，每个端口的功耗也显著降低。

可靠性提升 10 倍：通过减少有源器件和去除了易发生故障的光模块，显著提高了系统正常运行时间和运行可靠性。

将运营时间缩短至原来的 1/1.3 （约 77%）：简化的组装与维护有助于加快 AI 工厂的部署，并实现快速扩展。

这些交换机系统具备业界领先的带宽性能（高达 409.6 Tb/s，512 个端口，单端口速率达 800 Gb/s），并配备高效的液冷系统，能够应对高密度、高功耗的运行环境。图 5（下图）展示了 NVIDIA Quantum-X Photonics Q3450 和 Spectrum-X Photonics 的两种型号：单 ASIC 的 SN6810，以及集成光纤重组功能的四 ASIC 型号 SN6800。

这些产品共同推动了网络架构的转型，有效满足了 AI 工作负载对高带宽和超低延迟的严苛需求。通过与先进的光学组件与强大的系统集成伙伴相结合，构建出一个面向当前及未来扩展需求高度优化的网络架构。随着超大规模数据中心对快速部署和高可靠性的要求不断提升，CPO 正从一项创新技术逐步转变为不可或缺的基础设施。

图 5：NVIDIA Quantum-X 与 Spectrum-X Photonics 交换机系统

如何开启代理式 AI 的新时代

NVIDIA Quantum-X 和 Spectrum-X Photonics 交换机标志着网络架构向专为满足大规模 AI 严苛需求而设计的全新转变。通过消除传统的电和可插拔架构带来的瓶颈，CPO 系统能够提供现代 AI 工厂所需的高性能、高能效与高可靠性。NVIDIA Quantum-X InfiniBand 交换机预计于 2026 年初上市，Spectrum-X 以太网交换机则将于 2026 年下半年推出。NVIDIA 正以此引领网络革新，为代理式 AI 时代树立优化网络的新标准。

敬请关注本博客的第二部分，我们将深入探讨 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平台的核心——硅光引擎的架构与工作原理，揭示推动下一代光连接成为现实的关键创新与工程突破。从芯片集成的最新进展到新型调制技术，下一篇文章将全面解析这些光电引擎在 AI 网络领域中脱颖而出的技术优势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

以太网

以太网

+关注

关注
41

文章
6168

浏览量
181515
NVIDIA

NVIDIA

+关注

关注
14

文章
5682

浏览量
110102
交换机

交换机

+关注

关注
23

文章
2930

浏览量
104805
AI

AI

+关注

关注
91

文章
40982

浏览量
302533

原文标题：利用 CPO 技术扩展 AI 工厂，提高能效

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

搜索历史

NVIDIA如何优化AI工厂的网络可靠性与功耗

评论