0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-XGS以太网如何实现跨区域网络扩展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-09-29 16:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。随着数据中心算力的迅速提升,数据中心基础设施逐渐受到了和算法和模型无关的基础物理条件的限制,如电力供应、散热能力以及空间限制等,制约了 AI 工厂的物理扩展。为了持续增长,在构建新的数据中心时,需要考虑通过远程互连技术将这些计算资源池化在一起,实现协同服务于单一训练任务或分离式推理工作负载。

传统上,当采用基于通用商业芯片构建的远程互连以太网来连接多个数据中心时,首要目标是确保数据能够准确送达目的地。由于传输距离较长,延迟较高,导致网络拥塞的概率显著增加,其后果可能很严重。

为缓解这一挑战并防止丢包,通用以太网供应商采用了深度数据包缓存作为解决方案,以此来吸收网络流量的大规模突发,并已部署了这种方案。这种深度缓冲交换机虽适用于远程服务提供商和电信应用,却在 AI 应用中出现了问题。

特别是,基于深度缓冲交换机的高延迟是其天然的弊病,此外,当缓冲被填满时,就必须进行排空。对于 AI 工作负载而言,这种情况发生的不可预测性,会导致大量的网络抖动或数据传输波动。高延迟和这种网络突发流量吸收技术带来的不确定性,会影响训练和分离式推理的性能,因为这些任务本质上是同步的,需要网络提供稳定且可预期的传输表现。

本文介绍了面向跨区域网络的NVIDIA Spectrum-XGS 以太网技术是如何实现不同数据中心之间的互连,并提供满足 AI 应用所需的高性能。

什么是跨区域网络?

跨区域网络是一种新型的 AI 计算网络互连架构,可被视为一个新维度,独立于现有的纵向扩展和横向扩展网络。借助于跨区域网络的 Spectrum-XGS 以太网,不同规模和不同距离的多个数据中心能够被整合为一个统一的大型 AI 工厂,首次实现了在跨地域的多个独立的数据中心之间运行大规模单 AI 训练与推理任务所需的网络高性能。

e796a41c-9ac0-11f0-8c8f-92fbcf53809c.jpg

图 1. AI 所需的三种网络类型是纵向扩展、横向扩展和跨区域扩展

NVIDIA Spectrum-XGS 以太网如何实现跨区域网络扩展?

NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X 以太网网络平台的一项新技术。它采用了同样的 Spectrum-X 以太网交换机和 ConnectX-8 SuperNIC 硬件组合,以及和数据中心内横向扩展网络相同的软件栈与通信库。

借助 Spectrum-XGS 以太网,AI 工厂之间可实现长距离连接,如 500 米以上的连接,这意味着实现园区内不同建筑之间的连接,或者跨越数十乃至数百英里,实现跨城市、跨州乃至跨国之间的连接。为了支持这种跨区域扩展的连接需求,保障高效带宽与性能隔离的算法也必须持续发展。

距离感知算法在跨区域网络扩展中的作用是什么?

长距离传输数据面临的主要挑战之一是延迟的增加,即使数据以光的形式在光纤中传播也是如此。数据在玻璃纤维中每传输 1 米需要 5 纳秒,意味着每传输 1 公里需要 5 微秒。尽管这些数值看似微小,但在 GPU 之间的通信中,每微秒都至关重要。

Spectrum-XGS 以太网采用了改进的基于遥测技术的拥塞控制与动态路由算法,专门根据通信设备之间的距离进行了优化。在每次连接建立时,网络会知道相互连接的两台设备是在数据中心内,还是跨越数据中心。

这有助于交换机确定动态路由负载均衡的最佳策略,并通知 SuperNIC 调整面向拥塞控制的数据注入速率。在网络层面,这使得 Spectrum-XGS 以太网能够高效处理通信,并避免额外延迟。

Spectrum-XGS 以太网技术在跨区域网络方面具有多项显著优势,包括:

集成、统一的网络架构:Spectrum-X 以太网横向扩展和 Spectrum-XGS 以太网跨区域扩展均基于相同的硬件、软件和通信库。可以工作负载和网络操作的统一管理,这是通用以太网无法实现的。

基于遥测的端到端拥塞控制:统一架构还支持全局网络可视化。借助来自数据中心内外网络的全面遥测数据,无需深度缓冲交换即可实现基于遥测的拥塞控制。

智能、自动调节负载均衡:Spectrum-X 以太网 AI 网络具有距离感知和 NVIDIA 集合通信库(NCCL)-感知功能,能够感知和补偿由位置而导致的不同网络流量模式,并动态调整临界值和限制,以确保最高的网络性能。

更大限度地降低跨区域工作负载的延迟: Spectrum-XGS 以太网专为提供可预测的结果而进行了优化,这使网络能够感知和补偿远距离传输的数据流,最大限度地减少延迟损失,且不存在深度缓冲带来的抖动风险。

弹性跨区域扩展能力:由于相同的硬件被用于横向扩展和跨区域扩展,因此可以重新分配网络资源以支持数据中心内或数据中心间的流量。通用的浅缓冲以太网交换机无法被用于远程连接。

NVIDIA Spectrum-XGS 以太网有哪些性能优势?

为展示 NVIDIA Spectrum-XGS 以太网对跨区域扩展性能的影响,NVIDIA 工程师在相距 10 公里的多点之间运行了 NCCL 测试,并将其结果与通用以太网进行了对比。如图 2 所示,性能优势十分显著:

e7f5179a-9ac0-11f0-8c8f-92fbcf53809c.jpg

图 2. 与通用以太网相比,NVIDIA Spectrum-XGS 以太网可将性能提升高达 1.9 倍

相较通用以太网,NVIDIA Spectrum-XGS 以太网可提供高达 1.9 倍的 NCCL All-Reduce 带宽,特别是对于大消息,性能提升尤为显著,而这正是 AI 训练工作负载中的典型场景。NCCL 性能的提升有助于缩短 AI 应用的任务完成时间。

跨区域网络如何提高AI 工厂的投资回报率?

NVIDIA Spectrum-XGS 以太网增强了 AI 基础设施的灵活性。该技术使数据中心能够在任意距离下实现高效通信,且不牺牲性能,从而构建出可在横向扩展架构与跨区域网络扩展之间共享的通用平台。基于 Spectrum-XGS 以太网的多个以太网数据中心能够被轻松整合为一个统一的整体,突破了地理位置的限制。

基于 Spectrum-XGS 构建的以太网数据中心能够被无缝整合为单一系统运行,无论相距多远。这使得关键任务型 AI 基础设施可以高效池化数据中心资源,持续为复杂 AI 工作负载提供价值。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5923

    浏览量

    179535
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74649
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296607

原文标题:如何利用跨区域网络将分布式数据中心连接成大型 AI 工厂

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代 NVIDIA
    的头像 发表于 12-01 09:52 431次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    超大规模企业广泛采用 NVIDIA 网络解决方案,驱动十亿瓦级(Giga-Scale)高性能 AI 数据中心 Meta 推出基于 NVIDIA Spectrum
    的头像 发表于 10-14 10:26 1436次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum</b>-X <b class='flag-5'>以太网</b>交换机助力 Meta 和 Oracle 加速<b class='flag-5'>网络</b>性能

    移植网络PHY芯片驱动,如何融入 rt-thread 的网络体系,并添加新的以太网类型的报文?

    PHY 芯片最底层收发以太网报文,有可能组成 VLAN 网络); 我要实现一个新的以太网类型报文(HPGP报文,以太网报文类型为 0x88
    发表于 09-22 06:11

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(sc
    的头像 发表于 08-27 12:51 1121次阅读

    车载网络测试技术的进化之路#CAN #车载以太网 #TSN #时间敏感网络

    车载以太网
    北汇信息POLELINK
    发布于 :2025年06月26日 18:12:48

    以太网入门:从零开始,掌握以太网基础知识!

    以太网作为现代通信技术的基石,其重要性不言而喻。无论是日常网络应用,还是AI对高速大带宽网络的需求,以太网都扮演着不可或缺的角色。本文将从零开始,带您了解
    的头像 发表于 06-09 14:00 4117次阅读
    <b class='flag-5'>以太网</b>入门:从零开始,掌握<b class='flag-5'>以太网</b>基础知识!

    双通道CAN转以太网#CAN转以太网#三格电子

    以太网
    三格电子科技
    发布于 :2025年05月12日 13:17:05

    AD9574以太网 千兆以太网时钟发生器技术手册

    AD9574具有多路输出时钟发生器功能,内置专用锁相环(PLL)内核,针对以太网和千兆以太网线路卡应用进行了优化。 整数N PLL设计基于ADI公司成熟的高性能、低抖动频率合成器产品系列,确保实现高的
    的头像 发表于 04-10 10:43 799次阅读
    AD9574<b class='flag-5'>以太网</b> 千兆<b class='flag-5'>以太网</b>时钟发生器技术手册

    安路科技DR1FPSoC多路以太网扩展方案

    随着物联网、工业4.0及汽车电子等领域的快速发展,对嵌入式系统的网络通信能力提出了更高要求。安路科技,作为国内领先的FPGA及FPSoC解决方案提供商,现推出基于DR1FPSoC系列器件的多路以太网
    的头像 发表于 04-03 09:10 813次阅读
    安路科技DR1FPSoC多路<b class='flag-5'>以太网</b><b class='flag-5'>扩展</b>方案

    NVIDIA推出全新硅光网络交换机

    NVIDIA 今天推出了 NVIDIA Spectrum-X 和 NVIDIA Quantum-X 硅光网络交换机,使 AI 工厂能够
    的头像 发表于 03-20 14:52 824次阅读

    广成科技CAN转以太网模块的作用和应用

    CAN转以太网模块是一类能够将CAN总线数据转换为以太网数据的设备,通常用于实现CAN总线与以太网总线之间的互联互通。在智能锁柜和智能文件交换箱中,CAN转
    的头像 发表于 03-20 13:58 1012次阅读
    广成科技CAN转<b class='flag-5'>以太网</b>模块的作用和应用

    Spectrum推出可由以太网控制的超高速GHz数字化仪

    GHz(千兆赫)范围内将信号的自动采集与分析变得更加简单。通过一根以太网/LXI线,DN2.33x系列产品能够与台式机、笔记本电脑甚至公司网络连接。此外,这些仪器体积小、重量轻,非常便于携带。新产品使用了
    的头像 发表于 03-12 14:57 543次阅读
    <b class='flag-5'>Spectrum</b>推出可由<b class='flag-5'>以太网</b>控制的超高速GHz数字化仪

    汽车以太网的演化进程

    汽车以太网最早追溯至2012年的EAVB,2015年10月,第一个汽车以太网物理层标准802.3bw问世,速率是100Mbps。到2020年以后,100Mbps汽车以太网开始普及,如今除了汽车电子
    的头像 发表于 02-07 09:49 2448次阅读
    汽车<b class='flag-5'>以太网</b>的演化进程

    交换机与以太网怎么连接

    在现代网络通信中,交换机和以太网作为构建局域(LAN)的核心组件,其连接方式和配置对于网络的性能和稳定性至关重要。本文旨在深入探讨交换机与以太网
    的头像 发表于 02-02 16:44 2140次阅读

    以太网与因特网:不同的网络技术,共同的数字基础

    以太网和因特网并不是对立的技术,而是共同构成了现代网络生态的基础。以太网提供了局部网络的高效连接,而因特网则实现了全球范围的互联与信息共享。
    的头像 发表于 01-07 09:38 1540次阅读
    <b class='flag-5'>以太网</b>与因特网:不同的<b class='flag-5'>网络</b>技术,共同的数字基础