0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum以太网平台的自适应路由技术

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-10 09:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 加速 AI 平台和产品(如 NVIDIA EGX 、 DGX 、 OVX 和 NVIDIA AI for Enterprise)需要数据中心网络提供最佳的性能。NVIDIA Spectrum 以太网平台通过芯片级创新实现了这一性能。

融合以太网 RDMA(RoCE)自适应路由技术通过减少网络拥塞问题加快了应用程序的速度。这篇文章介绍了 NVIDIA Spectrum 以太网平台的自适应路由技术,并提供了一些初步的性能基准。

是什么让网络变慢了?

您不必是云服务提供商就可以从横向扩展网络中获益。网络行业已经发现,具有第 2 层转发和生成树的传统网络架构效率低下,而且难以扩展。他们过渡到 IP 网络结构。

这是一个很好的开始,但在某些情况下,它可能不足以解决数据中心中引入的新型应用程序和大量的流量。

可扩展 IP 网络的一个关键属性是它们能够跨多个交换机层次结构分发大量的流和流量。

在一个完美的世界中,数据流是完全不相关的,因此在多个网络链路上分布均匀、负载平衡平稳。该方法依赖于现代哈希和多路径算法,包括等价多路径(ECMP)。运营商受益于在规模迥异的数据中心中广泛部署的高端口数、固定规格的交换机。

然而,在许多情况下,这是行不通的,通常包括无处不在的现代工作负载,如 AI 、云和存储。

这是一个有限熵的问题。熵是一种衡量流经给定网络的流量的丰富性和多样性的方法。

当您有数千个从全球各地的客户端随机连接的流时,您的网络被称为有 high entropy 。然而,当您只有少数大型流时(这在 AI 和存储工作负载中经常发生),大型流会控制带宽,因此会出现 low entropy 。这种低熵流量模式也称为“大象流”分布,在许多数据中心工作负载中都很明显。

那么为什么熵很重要呢?

使用静态 ECMP 的传统技术,您需要高熵来将流量均匀地分布在多个链路上,而不会出现拥塞。然而,在“大象流”场景中,多个流可能出现在同一条链路上,从而创建一个超过线路带宽的流量热点或微突发。这会导致拥塞、延迟增加、数据包丢失和重传。

对于许多应用程序,性能不仅取决于网络的平均带宽,还取决于流完成时间的分布。完成时间分布中的长尾或异常值可能会显著降低应用程序性能。图 2 显示了低熵对流完成时间的影响。

此示例由单个架顶交换机组成,具有 128 个 100G 端口

64 个端口是连接到服务器的 100G 下游端口。

64 个端口是连接到第 1 层交换机的 100G 上游端口。

每个下游端口接收四个带宽相等的流:25G 每个流,总共 256 个流。

所有流量都通过静态哈希和 ECMP 处理。

在最好的情况下,此配置的可用带宽不会被超额使用,因此可能会出现以下结果。在最坏的情况下,与理想情况相比,流程可能需要长达 2.5 倍的时间才能完成。

在这种情况下,一些端口拥塞,而其他端口未使用。最后一个流(最坏情况流)的预期持续时间是预期第一个流持续时间的 250% 。此外,10% 的流预计流完成时间超过 150% 。也就是说,有一组长尾流,完成时间比预期的要长。为了高置信度的避免拥塞(98%),必须将所有流的带宽降低到 50% 以下。

为什么有许多流会而受到影响而完成时间过长?这是因为 ECMP 上的一些端口非常拥挤。当流完成传输并释放一些端口带宽时,滞后流通过相同的拥塞端口,导致更多拥塞。这是因为在对标头进行哈希处理后,路由是静态的。

自适应路由

NVIDIA 正在为Spectrum交换机引入自适应路由。通过自适应路由,转发到 ECMP 组的流量选择拥塞程度最低的端口进行传输。拥塞程度基于出口队列负载进行评估,确保 ECMP 组在不考虑熵级别的情况下保持良好平衡。向多个服务器发出多个请求的应用程序以最小的时间变化接收数据。

这是如何实现的?对于转发到 ECMP 组的每个数据包,交换机在其出口队列上选择负载最小的端口。评估的队列是那些与数据包服务质量匹配的队列。

相比之下,传统的 ECMP 基于哈希方法进行端口决策,这通常无法产生清晰的比较。当相同流的不同数据包通过网络的不同路径传输时,它们可能会在到达目的地时出现乱序的情况。在 RoCE 传输层,NVIDIA ConnectX NIC 负责处理无序数据包,并将数据按顺序转发给应用程序。这使得自适应路由对从中受益的应用程序透明。

在发送方面,ConnectX 可以动态标记符合网络重新排序的条件的流量,从而确保在需要时可以强制执行消息间排序。交换机自适应路由分类器只能对这些标记的 RoCE 流量进行分类,使其使用这种独特的转发方式。

Spectrum 自适应路由技术支持各种网络拓扑。对于 CLOS(或叶/脊椎)等典型拓扑,到给定目标的各种路径的距离是相同的。因此,交换机通过拥塞最小的端口传输数据包。在路径之间距离不同的其他拓扑中,交换机倾向于通过最短路径发送流量。如果拥塞发生在最短路径上,则选择拥塞最小的备选路径。这确保了网络带宽得到有效利用。

工作负载测试结果

存储

为了验证 RoCE 中自适应路由的效果,我们从测试简单的 RDMA 写测试应用程序开始。在这些在多个 50 Gb/s 主机上运行的测试中,我们将主机分成几对,每对主机在很长一段时间内互相发送大型 RDMA 写流。这种类型的流量模式是存储应用程序工作负载中的典型模式。

图 4 显示了基于哈希的静态路由在上行链路端口上发生冲突,导致流完成时间增加,带宽减少,流之间的公平性降低。在转移到自适应路由后,所有问题都得到了解决。

在第一个图中,所有流几乎同时完成,峰值带宽相当。

在第二个图中,一些流实现了相同的带宽和完成时间,而其他流发生冲突,导致完成时间更长,带宽更低。实际上,在 ECMP 的情况下,一些流在 13 秒的理想完成时间 T 内完成,而性能最差的流需要 31 秒,约为 T 的 2.5 倍。

人工智能/高性能计算

为了继续评估 RoCE 工作负载中的自适应路由,我们在一个 32 服务器测试台上测试了常见 AI 基准测试的性能收益,该测试台在两级胖树网络拓扑中使用四个 NVIDIA Spectrum 以太网交换机构建。该基准测试评估了分布式 AI 训练和 HPC 工作负载中常见的集合操作和网络流量模型,如 all-to-all 流量和 all-reduce 操作。

总结

在许多情况下,基于静态哈希的转发会导致高拥塞和可变的流完成时间。这会降低应用程序的性能。

NVIDIA Spectrum 自适应路由解决了这个问题。这项技术增加了网络使用的带宽,最大限度地减少了流完成时间的变化,从而提高了应用程序的性能。

将此技术与 NVIDIA ConnectX 网卡提供的 RoCE 乱序包支持相结合,应用程序对所使用的技术是透明的。这确保了 NVIDIA Spectrum 以太网平台提供了实现数据中心性能最大化所需的加速以太网能力。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5923

    浏览量

    179475
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109048
  • 网络
    +关注

    关注

    14

    文章

    8129

    浏览量

    93055
  • 路由技术
    +关注

    关注

    0

    文章

    13

    浏览量

    6624
  • spectrum
    +关注

    关注

    0

    文章

    45

    浏览量

    14761

原文标题:部署 NVIDIA Spectrum Ethernet 的自适应路由功能加速网络通信

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代
    的头像 发表于 12-01 09:52 402次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    Facebook 开放交换系统平台。 Oracle 采用 Spectrum-X 以太网交换机构建十亿瓦级(Giga-Scale)AI 超级计算机。 NVIDIA 宣布 Meta 和
    的头像 发表于 10-14 10:26 1413次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum</b>-X <b class='flag-5'>以太网</b>交换机助力 Meta 和 Oracle 加速网络性能

    电磁干扰自适应抑制系统平台全面解析

    电磁干扰自适应抑制系统平台全面解析
    的头像 发表于 09-17 16:12 420次阅读
    电磁干扰<b class='flag-5'>自适应</b>抑制系统<b class='flag-5'>平台</b>全面解析

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据
    的头像 发表于 08-27 12:51 1113次阅读

    WiFi和以太网哪个更快

    以太网通常比WiFi更快、更稳定,尤其在理想条件下差距显著;而WiFi胜在灵活便捷,但实际速度受环境干扰较大。 以下是具体分析: 一、理论速度对比 以太网 千兆以太网(1Gbps) :理论速度达
    的头像 发表于 07-01 09:54 1473次阅读

    以太网入门:从零开始,掌握以太网基础知识!

    以太网作为现代通信技术的基石,其重要性不言而喻。无论是日常网络应用,还是AI对高速大带宽网络的需求,以太网都扮演着不可或缺的角色。本文将从零开始,带您了解以太网的基础知识,帮助您快速入
    的头像 发表于 06-09 14:00 4117次阅读
    <b class='flag-5'>以太网</b>入门:从零开始,掌握<b class='flag-5'>以太网</b>基础知识!

    Microchip LAN9211-ABZJ 集成 10/100 以太网 PHY的以太网控制器

    Microchip LAN9211-ABZJ 集成 10/100 以太网 PHY的以太网控制器
    的头像 发表于 06-04 14:56 802次阅读
    Microchip LAN9211-ABZJ 集成 10/100 <b class='flag-5'>以太网</b> PHY的<b class='flag-5'>以太网</b>控制器

    双通道CAN转以太网#CAN转以太网#三格电子

    以太网
    三格电子科技
    发布于 :2025年05月12日 13:17:05

    矽昌通信推出千兆以太网PHY芯片

    1.总体描述1.1.概述SF23P1240是一款低功耗,带有QSGMI!接口的四通道以太网多口PHY,可以广泛应用于以太网交换机、路由器、企业网关等各类产品中。1.2.功能特性MAC接口为
    的头像 发表于 05-09 15:33 1155次阅读
    矽昌通信推出千兆<b class='flag-5'>以太网</b>PHY芯片

    Modbus转以太网终极方案:三步实现老旧设备智能升级

    包率低 典型痛点场景: ✅ 污水处理厂30个泵站Modbus仪表数据无法集中监控 ✅ 纺织车间200台老设备需投入6人专职抄表 ✅ 能源集团因协议不兼容损失百万级数据 二、Modbus转以太网核心技术
    发表于 04-24 10:37

    串口转以太网芯片选型指南:2025十大以太网模块品牌盘点与应用方案解析

    随着物联网(IoT)、工业自动化和智能设备的广泛普及,串口转以太网技术的需求持续增长。串口转以太网芯片作为实现串口设备联网的核心组件,在工业控制、数据采集、智能家居等领域起到了至关重要的作用。然而
    的头像 发表于 04-09 15:30 1637次阅读

    以太网与现场总线技术区别详解

    以太网与现场总线技术都是工业自动化领域中重要的通信技术,它们各自具有独特的特点和优势,适用于不同的应用场景。 一、以太网技术 以太网是一种由
    的头像 发表于 03-27 17:59 1151次阅读
    <b class='flag-5'>以太网</b>与现场总线<b class='flag-5'>技术</b>区别详解

    Spectrum推出可由以太网控制的超高速GHz数字化仪

    GHz(千兆赫)范围内将信号的自动采集与分析变得更加简单。通过一根以太网/LXI线,DN2.33x系列产品能够与台式机、笔记本电脑甚至公司网络连接。此外,这些仪器体积小、重量轻,非常便于携带。新产品使用了
    的头像 发表于 03-12 14:57 543次阅读
    <b class='flag-5'>Spectrum</b>推出可由<b class='flag-5'>以太网</b>控制的超高速GHz数字化仪

    单对以太网供电技术的演进和应用

    单对以太网(SPE)是一种新兴的以太网通信标准,与通常使用四对线的传统以太网不同,它只使用一对线进行数据传输。对于那些空间和重量受限的应用,例如汽车、工业和物联网(IoT)设备,这是一项非常实用的
    的头像 发表于 01-15 14:17 3207次阅读
    单对<b class='flag-5'>以太网</b>供电<b class='flag-5'>技术</b>的演进和应用

    以太网与因特网:不同的网络技术,共同的数字基础

    以太网和因特网并不是对立的技术,而是共同构成了现代网络生态的基础。以太网提供了局部网络的高效连接,而因特网则实现了全球范围的互联与信息共享。在实际应用中,它们各自发挥所长,通过无缝融合满足了现代社会对通信的多样化需求。
    的头像 发表于 01-07 09:38 1529次阅读
    <b class='flag-5'>以太网</b>与因特网:不同的网络<b class='flag-5'>技术</b>,共同的数字基础