0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA如何优化AI工厂的网络可靠性与功耗

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-09-04 11:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、容量和智能程度的影响。行业正从传统以 CPU 为中心的基础架构,迈向紧耦合的、GPU 驱动和网络定义的 AI 工厂。

NVIDIA 构建了一套全面的网络解决方案,以满足现代大规模 AI 训练和推理对急速流量突发、高带宽及低延迟的需求。该方案涵盖Spectrum-X以太网、NVIDIA Quantum InfiniBand和BlueField平台。通过将计算与通信一起进行编排,NVIDIA 的网络产品组合为构建可扩展、高效且高可靠的 AI 数据中心奠定了基础,成为了推动 AI 创新的中枢神经系统。

在这篇博客中,我们将探讨 NVIDIA 的网络创新如何通过 CPO 技术,为大型 AI 工厂带来显著的能效提升和更强的可靠性。

AI 工厂基础设施传统企业数据中心有何不同?

在传统企业数据中心中,Tier 1 交换机通常部署在每个服务器机架内,通过铜缆直接连接服务器,从而降低功耗并简化连接。这种架构能够有效满足以 CPU 为中心的、网络需求适中的工作负载。

相比之下,NVIDIA 开创的现代 AI 工厂配备了超高密的计算机架和数以千计的 GPU,能面向单一任务实现协同工作。这就需要在整个数据中心内实现最高带宽和最低的延迟,一种新的网络拓扑结构应运而生——即将 Tier 1 交换机部署在独立的机柜。这种布局显著增加了服务器与交换机之间的距离,使得光纤网络变得至关重要。由此带来的结果是功耗和光学组件数量大幅上升,如今在网卡到交换机以及交换机到交换机的连接中,均需依赖光学组件来实现高效传输。

如图 1 所示,这一演变体现了为满足大规模 AI 工作负载对高带宽和低延迟的需求,在网络拓扑和技术层面所发生的重大变革,并从根本上重塑了数据中心的物理结构与能耗特征。

图 1:横向扩展能力与 AI 密度取决于光纤连接

如何优化 AI 工厂的网络可靠性与功耗?

采用可插拔光模块的传统网络交换机依赖于多个电接口。在这些架构中,数据信号需经过一条较长的电传输路径:从交换机 ASIC 出发,经 PCB连接器,最终到达外部光收发器,之后才能转换为光信号。如图 2 所示,这种分段式传输在每秒 200Gb/s 的通道中可能带来高达 22 dB 的电损耗。这显著增加了对复杂数字信号处理以及多个有源组件的需求。

3deced24-87e5-11f0-8c8f-92fbcf53809c.jpg

图 2:Spectrum-X Photonics 可将信号完整性提升 64 倍

采用可插拔光模块的结果就是功耗更高(每个接口通常为 30W)、发热量增加以及潜在故障点显著增多。大量的独立模块和连接不仅推高了系统功耗和组件数量,还直接影响了链路的可靠性,随着 AI 部署规模的不断扩大,这些问题将带来持续的运营挑战。各组件的典型功耗如图 3 所示。

3e4685be-87e5-11f0-8c8f-92fbcf53809c.jpg

图 3:Spectrum-X Photonics 将功耗降低至 1/3.5

相比之下,采用 CPO 技术的交换机将电光转换部分直接集成到交换机封装中。光纤直接连接至和 ASIC 封装在一起的光引擎,使电信号损耗降低至约 4 dB,全通道功耗降至 9W。通过简化信号路径并消除不需要的接口,该设计显著提升了信号完整性、可靠性和能效,正是高密度、高性能 AI 数据中心所需的关键技术。

CPO 封装为 AI 工厂带来了哪些优势?

NVIDIA 推出基于 CPO 技术的系统,正是为了应对 AI 工厂前所未有的需求。通过将光引擎直接集成至交换机 ASIC,全新的 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics(如图 4 所示)将取代传统的可插拔光模块。这一创新简化了信号传输路径,显著提升了性能、能效和系统可靠性。新产品不仅在带宽和端口密度方面创下新高,更从根本上重塑了 AI 数据中心的经济模型与物理架构。

图 4:集成共封装的硅光引擎的 NVIDIA Photonics 交换 ASIC

Quantum-X Photonics如何引领下一代 InfiniBand 网络的诞生

随着 NVIDIA 推出 Quantum-X InfiniBand Photonics 平台,NVIDIA 将 InfiniBand 交换技术提升至全新高度。该平台具备以下功能:

交换容量达 115 Tb/s,支持 144 个端口,每个端口速率为 800 Gb/s。

借助第四代 NVIDIA SHARP 技术,实现每秒 14.4 万亿次的网络计算能力。

液冷技术,实现卓越的散热管理。

专用 InfiniBand 管理端口,支持强大的带内控制与监测功能。

NVIDIA Quantum-X 采用集成硅光技术,提供无与伦比的带宽、超低延迟和卓越的运营可靠性。该 CPO 设计不仅降低了功耗、提升了可靠性,还能实现快速部署,充分满足大规模代理式 AI 工作负载对互连的严苛需求。

Spectrum-X Photonics如何助力构建大规模以太网 AI 工厂

NVIDIA Spectrum-X Photonics 交换机将 CPO 技术革命拓展至以太网领域,专为生成式 AI 以及大规模大语言模型(LLM)的训练与推理任务而设计。全新的 Spectrum-X Photonics 产品包含两款基于液冷机箱和 Spectrum-6 ASIC 的系统:

Spectrum SN6810:具备 128 个 800 Gb/s 端口,总带宽达 102.4 Tb/s。

Spectrum SN6800:具备 512 个 800 Gb/s 端口,总带宽高达 409.6 Tb/s,性能卓越。

这两个平台均基于 NVIDIA 硅光技术,大幅减少了离散组件和电接口的数量。与前代架构相比,新架构能效提升达 3.5 倍,同时通过减少整体易损光学元件数量,将系统可靠性提高了 10 倍。技术人员可享受更高的可维护性,而 AI 运营商则能将部署时间缩短至 1/ 1.3 (约 77%),并显著缩短第一个 Token 的生成时间。

NVIDIA 的 CPO 技术组得益于强大的合作伙伴生态系统的支持。这种跨行业协作不仅保障了技术性能,更确保了全球大规模 AI 基础设施部署所需的大规模量产能力与可靠性。

CPO 如何实现性能、功耗与可靠性的突破

CPO 的优势显而易见:

3.5 倍能效提升:通过将光学器件直接集成到交换机 ASIC 封装中和减少了可插拔光模块,即使网络密度大幅增加,每个端口的功耗也显著降低。

可靠性提升 10 倍:通过减少有源器件和去除了易发生故障的光模块,显著提高了系统正常运行时间和运行可靠性。

将运营时间缩短至原来的 1/1.3 (约 77%):简化的组装与维护有助于加快 AI 工厂的部署,并实现快速扩展。

这些交换机系统具备业界领先的带宽性能(高达 409.6 Tb/s,512 个端口,单端口速率达 800 Gb/s),并配备高效的液冷系统,能够应对高密度、高功耗的运行环境。图 5(下图)展示了 NVIDIA Quantum-X Photonics Q3450 和 Spectrum-X Photonics 的两种型号:单 ASIC 的 SN6810,以及集成光纤重组功能的四 ASIC 型号 SN6800。

这些产品共同推动了网络架构的转型,有效满足了 AI 工作负载对高带宽和超低延迟的严苛需求。通过与先进的光学组件与强大的系统集成伙伴相结合,构建出一个面向当前及未来扩展需求高度优化的网络架构。随着超大规模数据中心对快速部署和高可靠性的要求不断提升,CPO 正从一项创新技术逐步转变为不可或缺的基础设施。

图 5:NVIDIA Quantum-X 与 Spectrum-X Photonics 交换机系统

如何开启代理式 AI 的新时代

NVIDIA Quantum-X 和 Spectrum-X Photonics 交换机标志着网络架构向专为满足大规模 AI 严苛需求而设计的全新转变。通过消除传统的电和可插拔架构带来的瓶颈,CPO 系统能够提供现代 AI 工厂所需的高性能、高能效与高可靠性。NVIDIA Quantum-X InfiniBand 交换机预计于 2026 年初上市,Spectrum-X 以太网交换机则将于 2026 年下半年推出。NVIDIA 正以此引领网络革新,为代理式 AI 时代树立优化网络的新标准。

敬请关注本博客的第二部分,我们将深入探讨 NVIDIA Quantum-X Photonics 和 Spectrum-X Photonics 平台的核心——硅光引擎的架构与工作原理,揭示推动下一代光连接成为现实的关键创新与工程突破。从芯片集成的最新进展到新型调制技术,下一篇文章将全面解析这些光电引擎在 AI 网络领域中脱颖而出的技术优势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    6168

    浏览量

    181515
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110102
  • 交换机
    +关注

    关注

    23

    文章

    2930

    浏览量

    104805
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302533

原文标题:利用 CPO 技术扩展 AI 工厂,提高能效

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NORDIC AI的好处

    ,时延更低,系统在网络不稳定甚至离线时也能继续工作。[Edge AI 概述] 提升隐私与可靠性 原始传感器数据(如运动、生理信号等)可以留在本地,只上传推理结果,有利于隐私与数据安全。 本地决策
    发表于 01-31 23:16

    什么是高可靠性

    、如何评估PCB是否具备高可靠性? 高可靠性是结合“工程技术”与“管理艺术”的一种实践科学,稳健地产出高可靠PCB须建立一整套“规范、高效、协同、可控”的管理程序,要求工厂必须全方位管
    发表于 01-29 14:49

    NVIDIA Spectrum-X以太网硅光技术助力AI工厂网络创新

    NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDI
    的头像 发表于 01-14 09:06 864次阅读
    <b class='flag-5'>NVIDIA</b> Spectrum-X以太网硅光技术助力<b class='flag-5'>AI</b><b class='flag-5'>工厂</b><b class='flag-5'>网络</b>创新

    如何测试单片机MCU系统的可靠性

    用什么方法来测试单片机系统的可靠性,当一个单片机系统设计完成,对于不同的单片机系统产品会有不同的测试项目和方法,但是有一些是必须测试的。 下面分享我的一些经验: 1、测试单片机软件功能的完善
    发表于 01-08 07:50

    国产AI芯片冲至160亿美元:狂欢下的“可靠性”大考

    国产AI芯片年销售额达160亿美元,标志着设计环节实现突破,但商业落地的核心考验已转向可靠性AI芯片因高算力、高功耗特性,面临电源与时钟稳定性、高温耐久
    的头像 发表于 12-11 15:33 461次阅读

    霍尔开关如何保证自身的可靠性和实用

    霍尔开关的可靠性(稳定工作、不易失效)和实用(适配场景、易集成、低使用成本),核心依赖 “环境适配设计、电气防护、低功耗优化、标准化集成”四大方向,
    的头像 发表于 12-02 16:53 1543次阅读
    霍尔开关如何保证自身的<b class='flag-5'>可靠性</b>和实用<b class='flag-5'>性</b>

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂
    的头像 发表于 12-01 09:52 970次阅读

    SLM2004SCA-13GTR 200V高压半桥驱动芯片的可靠性与时序优化设计

    移位、时序控制和保护电路高度集成。这种单芯片解决方案显著减少了外围元件数量,在降低BOM成本和PCB面积需求的同时,大幅提升了系统的整体可靠性优化的时序性能 芯片680ns/180ns的非对称开关
    发表于 11-27 08:23

    选PCBA工厂只看设备?这些“软实力”才是可靠性命门!

    一站式PCBA加工厂家今天为大家讲讲怎么判断PCBA工厂可靠性?判断PCBA工厂可靠性的四个关键方面。判断PCBA
    的头像 发表于 10-15 09:04 717次阅读

    使用OpenUSD和SimReady资产构建AI工厂

    适用于 AI 工厂数字孪生的 NVIDIA Omniverse Blueprint 已发布,现已支持 OpenUSD 模式。该蓝图采用新工具,可在电力、冷却和网络基础设施等更多方面模拟
    的头像 发表于 09-06 15:23 1632次阅读
    使用OpenUSD和SimReady资产构建<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>

    可靠性设计的十个重点

    专注于光电半导体芯片与器件可靠性领域的科研检测机构,能够对LED、激光器、功率器件等关键部件进行严格的检测,致力于为客户提供高质量的测试服务,为光电产品在各种高可靠性场景中的稳定应用提供坚实的质量
    的头像 发表于 08-01 22:55 1184次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    太诱MLCC电容的可靠性如何?

    众所周知,多层陶瓷电容器(MLCC)已成为消费电子、汽车电子、工业控制等领域的核心被动元件。太阳诱电(太诱)通过材料创新、工艺优化与严苛测试体系,构建了MLCC电容的可靠性护城河,其产品失效率长期
    的头像 发表于 07-09 15:35 1195次阅读

    提供半导体工艺可靠性测试-WLR晶圆可靠性测试

    随着半导体工艺复杂度提升,可靠性要求与测试成本及时间之间的矛盾日益凸显。晶圆级可靠性(Wafer Level Reliability, WLR)技术通过直接在未封装晶圆上施加加速应力,实现快速
    发表于 05-07 20:34

    电机微机控制系统可靠性分析

    。纯分享帖,需要者可点击附件获取完整资料~~~*附件:电机微机控制系统可靠性分析.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 04-29 16:14

    IGBT的应用可靠性与失效分析

    包括器件固有可靠性和使用可靠性。固有可靠性问题包括安全工作区、闩锁效应、雪崩耐量、短路能力及功耗等,使用可靠性问题包括并联均流、软关断、电磁
    的头像 发表于 04-25 09:38 3616次阅读
    IGBT的应用<b class='flag-5'>可靠性</b>与失效分析