0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-XGS以太网如何实现跨区域网络扩展

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-09-29 16:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。随着数据中心算力的迅速提升,数据中心基础设施逐渐受到了和算法和模型无关的基础物理条件的限制,如电力供应、散热能力以及空间限制等,制约了 AI 工厂的物理扩展。为了持续增长,在构建新的数据中心时,需要考虑通过远程互连技术将这些计算资源池化在一起,实现协同服务于单一训练任务或分离式推理工作负载。

传统上,当采用基于通用商业芯片构建的远程互连以太网来连接多个数据中心时,首要目标是确保数据能够准确送达目的地。由于传输距离较长,延迟较高,导致网络拥塞的概率显著增加,其后果可能很严重。

为缓解这一挑战并防止丢包,通用以太网供应商采用了深度数据包缓存作为解决方案,以此来吸收网络流量的大规模突发,并已部署了这种方案。这种深度缓冲交换机虽适用于远程服务提供商和电信应用,却在 AI 应用中出现了问题。

特别是,基于深度缓冲交换机的高延迟是其天然的弊病,此外,当缓冲被填满时,就必须进行排空。对于 AI 工作负载而言,这种情况发生的不可预测性,会导致大量的网络抖动或数据传输波动。高延迟和这种网络突发流量吸收技术带来的不确定性,会影响训练和分离式推理的性能,因为这些任务本质上是同步的,需要网络提供稳定且可预期的传输表现。

本文介绍了面向跨区域网络的NVIDIA Spectrum-XGS 以太网技术是如何实现不同数据中心之间的互连,并提供满足 AI 应用所需的高性能。

什么是跨区域网络?

跨区域网络是一种新型的 AI 计算网络互连架构,可被视为一个新维度,独立于现有的纵向扩展和横向扩展网络。借助于跨区域网络的 Spectrum-XGS 以太网,不同规模和不同距离的多个数据中心能够被整合为一个统一的大型 AI 工厂,首次实现了在跨地域的多个独立的数据中心之间运行大规模单 AI 训练与推理任务所需的网络高性能。

e796a41c-9ac0-11f0-8c8f-92fbcf53809c.jpg

图 1. AI 所需的三种网络类型是纵向扩展、横向扩展和跨区域扩展

NVIDIA Spectrum-XGS 以太网如何实现跨区域网络扩展?

NVIDIA Spectrum-XGS 以太网是 NVIDIA Spectrum-X 以太网网络平台的一项新技术。它采用了同样的 Spectrum-X 以太网交换机和 ConnectX-8 SuperNIC 硬件组合,以及和数据中心内横向扩展网络相同的软件栈与通信库。

借助 Spectrum-XGS 以太网,AI 工厂之间可实现长距离连接,如 500 米以上的连接,这意味着实现园区内不同建筑之间的连接,或者跨越数十乃至数百英里,实现跨城市、跨州乃至跨国之间的连接。为了支持这种跨区域扩展的连接需求,保障高效带宽与性能隔离的算法也必须持续发展。

距离感知算法在跨区域网络扩展中的作用是什么?

长距离传输数据面临的主要挑战之一是延迟的增加,即使数据以光的形式在光纤中传播也是如此。数据在玻璃纤维中每传输 1 米需要 5 纳秒,意味着每传输 1 公里需要 5 微秒。尽管这些数值看似微小,但在 GPU 之间的通信中,每微秒都至关重要。

Spectrum-XGS 以太网采用了改进的基于遥测技术的拥塞控制与动态路由算法,专门根据通信设备之间的距离进行了优化。在每次连接建立时,网络会知道相互连接的两台设备是在数据中心内,还是跨越数据中心。

这有助于交换机确定动态路由负载均衡的最佳策略,并通知 SuperNIC 调整面向拥塞控制的数据注入速率。在网络层面,这使得 Spectrum-XGS 以太网能够高效处理通信,并避免额外延迟。

Spectrum-XGS 以太网技术在跨区域网络方面具有多项显著优势,包括:

集成、统一的网络架构:Spectrum-X 以太网横向扩展和 Spectrum-XGS 以太网跨区域扩展均基于相同的硬件、软件和通信库。可以工作负载和网络操作的统一管理,这是通用以太网无法实现的。

基于遥测的端到端拥塞控制:统一架构还支持全局网络可视化。借助来自数据中心内外网络的全面遥测数据,无需深度缓冲交换即可实现基于遥测的拥塞控制。

智能、自动调节负载均衡:Spectrum-X 以太网 AI 网络具有距离感知和 NVIDIA 集合通信库(NCCL)-感知功能,能够感知和补偿由位置而导致的不同网络流量模式,并动态调整临界值和限制,以确保最高的网络性能。

更大限度地降低跨区域工作负载的延迟: Spectrum-XGS 以太网专为提供可预测的结果而进行了优化,这使网络能够感知和补偿远距离传输的数据流,最大限度地减少延迟损失,且不存在深度缓冲带来的抖动风险。

弹性跨区域扩展能力:由于相同的硬件被用于横向扩展和跨区域扩展,因此可以重新分配网络资源以支持数据中心内或数据中心间的流量。通用的浅缓冲以太网交换机无法被用于远程连接。

NVIDIA Spectrum-XGS 以太网有哪些性能优势?

为展示 NVIDIA Spectrum-XGS 以太网对跨区域扩展性能的影响,NVIDIA 工程师在相距 10 公里的多点之间运行了 NCCL 测试,并将其结果与通用以太网进行了对比。如图 2 所示,性能优势十分显著:

e7f5179a-9ac0-11f0-8c8f-92fbcf53809c.jpg

图 2. 与通用以太网相比,NVIDIA Spectrum-XGS 以太网可将性能提升高达 1.9 倍

相较通用以太网,NVIDIA Spectrum-XGS 以太网可提供高达 1.9 倍的 NCCL All-Reduce 带宽,特别是对于大消息,性能提升尤为显著,而这正是 AI 训练工作负载中的典型场景。NCCL 性能的提升有助于缩短 AI 应用的任务完成时间。

跨区域网络如何提高AI 工厂的投资回报率?

NVIDIA Spectrum-XGS 以太网增强了 AI 基础设施的灵活性。该技术使数据中心能够在任意距离下实现高效通信,且不牺牲性能,从而构建出可在横向扩展架构与跨区域网络扩展之间共享的通用平台。基于 Spectrum-XGS 以太网的多个以太网数据中心能够被轻松整合为一个统一的整体,突破了地理位置的限制。

基于 Spectrum-XGS 构建的以太网数据中心能够被无缝整合为单一系统运行,无论相距多远。这使得关键任务型 AI 基础设施可以高效池化数据中心资源,持续为复杂 AI 工作负载提供价值。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    6302

    浏览量

    181949
  • 数据中心
    +关注

    关注

    18

    文章

    5853

    浏览量

    75254
  • AI
    AI
    +关注

    关注

    91

    文章

    42075

    浏览量

    303108

原文标题:如何利用跨区域网络将分布式数据中心连接成大型 AI 工厂

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Spectrum-X以太网架构全面支持MRC协议

    MRC (多路径可靠连接) 是一种新的传输协议,率先在 NVIDIA Spectrum-X 以太网硬件上完成验证和优化,现已向业界开放。
    的头像 发表于 05-13 15:12 314次阅读

    车载以太网,速度直指Tbps?

    要点总结:汽车以太网,特别是10BASE-T1S,正在成为车载网络中CAN的替代品,预计未来自动驾驶和联网汽车将拥有更高的速度。汽车领域向以太网的过渡并非普遍现象;一些原始设备制造商(OEM)可能
    的头像 发表于 04-02 11:00 2394次阅读
    车载<b class='flag-5'>以太网</b>,速度直指Tbps?

    以太网跳线长度和弯曲程度:如何影响网络性能

    铜缆以太网线在现代企业网络、数据中心和智能制造中仍然发挥着不可替代的作用。以太网铜缆的长度和曲率决定了链路性能、误码率、传输稳定性以及网络带宽。随着线缆长度的增加,其插入损耗也会增加。
    的头像 发表于 03-24 10:41 236次阅读

    车载以太网协议转换器操作教程# 车载以太网# 转换器# 硬件# 教程# 汽车# 技术# 操作

    车载以太网
    康谋自动驾驶
    发布于 :2026年01月28日 11:19:40

    NVIDIA Spectrum-X以太网硅光技术助力AI工厂网络创新

    NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDIA Spectrum-X 以太网硅光
    的头像 发表于 01-14 09:06 997次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum</b>-X<b class='flag-5'>以太网</b>硅光技术助力AI工厂<b class='flag-5'>网络</b>创新

    基于以太网芯片的应用层方案

    聚焦于以沁恒微电子以太网芯片(如CH394/CH395及集成型MCU CH32V317等)为基础构建的多种高效应用层方案,阐述其如何以简化的硬件与低成本,实现丰富的网络功能。
    的头像 发表于 12-09 14:47 802次阅读
    基于<b class='flag-5'>以太网</b>芯片的应用层方案

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代 NVIDIA
    的头像 发表于 12-01 09:52 1088次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    超大规模企业广泛采用 NVIDIA 网络解决方案,驱动十亿瓦级(Giga-Scale)高性能 AI 数据中心 Meta 推出基于 NVIDIA Spectrum
    的头像 发表于 10-14 10:26 2190次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum</b>-X <b class='flag-5'>以太网</b>交换机助力 Meta 和 Oracle 加速<b class='flag-5'>网络</b>性能

    移植网络PHY芯片驱动,如何融入 rt-thread 的网络体系,并添加新的以太网类型的报文?

    PHY 芯片最底层收发以太网报文,有可能组成 VLAN 网络); 我要实现一个新的以太网类型报文(HPGP报文,以太网报文类型为 0x88
    发表于 09-22 06:11

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(sc
    的头像 发表于 08-27 12:51 1548次阅读

    以太网模块被忽视的角落 #电磁兼容EMC #电子工程师 #电子元器件 #磁珠 #滤波电容 #以太网

    以太网
    深圳市韬略科技有限公司
    发布于 :2025年07月25日 17:35:35

    车载网络测试技术的进化之路#CAN #车载以太网 #TSN #时间敏感网络

    车载以太网
    北汇信息POLELINK
    发布于 :2025年06月26日 18:12:48

    以太网入门:从零开始,掌握以太网基础知识!

    以太网作为现代通信技术的基石,其重要性不言而喻。无论是日常网络应用,还是AI对高速大带宽网络的需求,以太网都扮演着不可或缺的角色。本文将从零开始,带您了解
    的头像 发表于 06-09 14:00 4117次阅读
    <b class='flag-5'>以太网</b>入门:从零开始,掌握<b class='flag-5'>以太网</b>基础知识!

    Microchip LAN9211-ABZJ 集成 10/100 以太网 PHY的以太网控制器

    Microchip LAN9211-ABZJ 集成 10/100 以太网 PHY的以太网控制器
    的头像 发表于 06-04 14:56 1417次阅读
    Microchip LAN9211-ABZJ 集成 10/100 <b class='flag-5'>以太网</b> PHY的<b class='flag-5'>以太网</b>控制器