0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在ZTR无配置大规模中实现的缩放零接触RoCE技术

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-14 14:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA Zero Touch RoCE ( ZTR )使数据中心能够无缝部署 聚合以太网上的 RDMA ( RoCE ) ,而无需任何特殊交换机配置。直到最近, ZTR 还仅适用于中小型数据中心。同时,大规模部署传统上依赖于显式拥塞通知( ECN )来启用 RoCE 网络传输,这需要交换机配置。

新的 NVIDIA 拥塞控制算法往返时间拥塞控制( RTTCC ) – 允许 ZTR 在不影响性能的情况下扩展到数千台服务器。通过使用 ZTR 和 RTTCC ,数据中心运营商可以在无需任何交换机配置的情况下,享受部署和操作的便利性,以及大规模远程直接内存访问( RDMA )的卓越性能。

这篇文章描述了以前在大规模和小型 RoCE 部署中推荐的 RoCE 拥塞控制。然后介绍了一种新的拥塞控制算法,该算法允许 ZTR 的无配置大规模实现,其性能类似于支持 ECN 的 RoCE 。

具有数据中心量化拥塞通知的 RoCE 部署

在典型的基于 TCP 的环境中,分布式内存请求需要许多步骤和 CPU 周期,这会对应用程序性能产生负面影响。 RDMA 消除了服务器之间内存数据传输的所有 CPU 参与,大大加快了对存储数据的访问和应用程序性能。

RoCE 在以太网环境中提供 RDMA ,这是数据中心的主要网络结构。以太网需要高级拥塞控制机制来支持 RDMA 网络传输。数据中心量化拥塞通知( DCQCN )是一种拥塞控制算法,能够响应拥塞通知并动态调整流量传输速率。

DCQCN 的实现需要启用显式拥塞通知( ECN ),这需要配置网络交换机。 ECN 将交换机配置为设置拥塞经历( CE )位,以指示即将发生的拥塞。

具有无功拥塞控制的零接触 RoCE

NVIDIA 开发的 ZTR 技术允许 RoCE 部署,无需配置交换机基础设施。 ZTR 根据 InfiniBand Trade Association ( IBTA ) RDMA 标准构建,完全符合 RoCE specifications ,支持 RoCE 的无缝部署。 ZTR 还拥有与传统交换机启用的 RoCE 相当的性能,并且明显优于传统的基于 TCP 的内存访问。此外,通过 ZTR , RoCE 网络传输服务在普通 TCP / IP 环境中与非 RoCE 通信并行运行。

正如 NVIDIA 零接触 RoCE 技术为 Microsoft Azure Stack HCI 实现了云经济 文章中所指出的,微软已经为其 Azure Stack HCI 平台验证了 ZTR ,该平台通常可扩展到几十个节点。在这样的环境中, ZTR 依赖于隐式丢包通知,这对于小规模部署来说已经足够了。通过添加新的基于往返计时器( RTT )的拥塞控制算法, ZTR 变得更加健壮和可扩展,而无需依赖丢包来通知服务器网络拥塞。

引入往返时间拥塞控制

新的 NVIDIA 拥塞控制算法 RTTCC 主动监控网络 RTT ,以便在丢弃数据包之前主动检测并适应拥塞的发生。 RTTCC 使用基于硬件的反馈环路实现动态拥塞控制,与基于软件的拥塞控制算法相比,该反馈环路提供了显著优越的性能。 RTTCC 还支持更快的传输速率,可以在更大范围内部署 ZTR 。带有 RTTCC 的 ZTR 现在作为测试版功能提供, GA 计划在 2022 年下半年推出。

ZTR-RTTCC 的工作原理

ZTR-RTTCC 通过基于硬件 RTT 的拥塞控制算法扩展了 RoCE 网络中的 DCQCN 。

图 1 服务器之间的往返计时

定时数据包(上图中的绿色网络数据包)定期从启动器发送到目标。立即返回定时数据包,从而能够测量往返延迟。 RTTCC 测量数据包发送和启动器接收数据包之间的时间间隔。差异(接收时间–发送时间)衡量往返延迟,这表明路径拥塞。未压缩流继续传输数据包,以最佳利用可用网络路径带宽。延迟增加的流意味着路径拥塞, RTTCC 会对流量进行节流,以避免缓冲区溢出和数据包丢失。

随着拥塞的减少或增加,网络流量可以实时地向上或向下调整。主动监控和应对拥塞的能力对于使 ZTR 能够主动管理拥塞至关重要。这种主动速率控制还可以减少数据包的重新传输,提高 RoCE 性能。使用 ZTR-RTTCC ,数据中心节点不会等待数据包丢失的通知;相反,它们主动识别拥塞 prior to 数据包丢失并作出相应反应,通知启动器调整传输速率。

如前所述, ZTR 的一个关键优势是能够提供 RoCE 功能,同时在普通 TCP / IP 流量中与非 RoCE 通信同时运行。 ZTR 提供 RoCE 网络功能的无缝部署。通过添加 RTTCC 主动监控拥塞, ZTR 提供数据中心范围内的操作,无需交换机配置。请继续阅读,看看它的性能如何。

具有 RTTCC 性能的 ZTR

如图 2 所示,当通过网络结构配置 ECN 和 PFC 时,带有 RTTCC 的 ZTR 提供了与 RoCE 相当的应用程序性能。这些测试是在最坏的多对一( in-cast )情况下进行的,以模拟拥挤条件下的吞吐量。

结果表明,具有 RTTCC 的 ZTR 不仅可以扩展到数千个节点,而且其性能与目前可用的最快 RoCE 解决方案相当。

在小规模( 256 个连接及以下)下,具有 RTTCC 的 ZTR 在启用 ECN 拥塞控制(传统 RoCE )的 RoCE 的 99% 范围内执行。

通过 16000 多个连接,具有 RTTCC 吞吐量的 ZTR 是传统 RoCE 吞吐量的 98% 。

带有 RTTCC 的 ZTR 在不需要任何开关配置的情况下,提供了与传统 RoCE 几乎相同的性能。

图 2 连接不断增加的应用程序带宽

配置 ZTR

要使用新的 RTTCC 算法配置 ZTR , 下载 并为 NVIDIA 网络接口卡安装最新固件和工具,请执行以下步骤。

配置 ZTR

要使用新的 RTTCC 算法配置 ZTR , 下载 并为 NVIDIA 网络接口卡安装最新固件和工具,请执行以下步骤。

使用mlxconfig(持续配置)启用可编程拥塞控制:

mlxconfig -d /dev/mst/mt4125_pciconf0 -y s
ROCE_CC_LEGACY_DCQCN=0

使用mlxfwreset重置设备或重新启动主机:

mlxfwreset -d /dev/mst/mt4125_pciconf0 -l 3 -y r

完成这些步骤后,当 RDMA-CM 用于增强连接建立( ECE , MLNX _ OFED 版本 5.1 支持)时,将使用 ZTR-RTTCC 。

如果出现错误,无论 RDMA-CM 同步状态如何,都可以强制使用 ZTR-RTTCC :

mlxreg -d /dev/mst/mt4125_pciconf0 --reg_id 0x506e --reg_len
0x40 --set "0x0.0:8=2,0x4.0:4=15" -y

总结

NVIDIA RTTCC 是 ZTR 的新拥塞控制算法,在数据中心范围内提供卓越的 RoCE 性能,无需对交换机基础设施进行任何特殊配置。此增强功能使数据中心能够在现有和新的数据中心基础架构中无缝实现 RoCE ,并从即时的应用程序性能改进中获益。

关于作者

Aviv Barnea 是 NVIDIA 网络软件工程的高级主管。他监督网络适配器 RDMA 软件和拥塞控制机制的开发,实现高速、低延迟的数据中心连接。 Aviv 是 RDMA 和 RoCE 通信协议方面的专家,拥有该领域的多项专利,在推动 RDMA / RoCE 在业界的发展方面发挥了重要作用,在客户和合作伙伴大规模部署加速网络解决方案时与他们密切合作,并实现了无与伦比的性能和易用性。 Aviv 拥有特拉维夫大学工商管理硕士学位和理工学院物理与电气工程学士学位。

Itay Ozery 是 NVIDIA 网络产品营销总监。他为 Mellanox 的云网络解决方案推动战略性产品营销和产品管理计划。 Itay 在网络安全领域领导了大规模的业务和项目,并与数据中心和电信服务提供商在 IT 系统和网络工程领域担任过多个职位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 接口
    +关注

    关注

    33

    文章

    9452

    浏览量

    156228
  • NVIDIA
    +关注

    关注

    14

    文章

    5509

    浏览量

    109152
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RDMA设计5:RoCE V2 IP架构

    数据传输;AXI-Lite 接口进行系统控制;AXI4 接口进行数据传输。IP内部,根据功能划分为系统控制模块、融合以太网协议栈、以太网协议栈和 CMAC 集成块。以下为各功能模块的定义。 IP控制模块是实现系统功能
    发表于 11-25 10:34

    如何实现高效的RoCE网卡状态采集与监控?

    当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等
    的头像 发表于 10-29 11:54 941次阅读
    如何<b class='flag-5'>实现</b>高效的<b class='flag-5'>RoCE</b>网卡状态采集与监控?

    如何实现 RoCE 配置的自动同步(基础篇) - DCBX协议

    DCBX(Data Center Bridging Exchange)协议是实现数据中心网络自动化配置的核心技术,能够显著降低运维负担,减少因人工配置错误导致的网络故障。DCBX 为
    的头像 发表于 10-09 14:27 787次阅读
    如何<b class='flag-5'>实现</b> <b class='flag-5'>RoCE</b> <b class='flag-5'>配置</b>的自动同步(基础篇) - DCBX协议

    天合储能联合发布大规模储能技术应用及产业发展白皮书

    9月26日,2025 年大规模储能技术创新与应用研讨会在华北电力大学成功举办。会上,天合储能与华北电力大学联合发布《大规模储能技术应用及产业发展白皮书》(以下简称《白皮书》), 聚焦储
    的头像 发表于 09-30 16:36 1582次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现
    的头像 发表于 09-23 14:42 748次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    Wolfspeed碳化硅技术实现大规模商用

    的专利申请量就增长了约 200%。Wolfspeed 强大的知识产权组合支撑着材料和器件方面的关键突破,这些突破使得碳化硅 (SiC) 技术得以实现大规模商用。
    的头像 发表于 09-22 09:31 559次阅读

    大规模专家并行模型TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源模型的设计原则也采用了类似的大规模细粒度 MoE 架构。但大规模 M
    的头像 发表于 09-06 15:21 957次阅读
    <b class='flag-5'>大规模</b>专家并行模型<b class='flag-5'>在</b>TensorRT-LLM的设计

    使用Ansible实现大规模集群自动化部署

    当你面对1000+服务器需要部署时,你还在一台台手工操作吗?本文将揭秘如何用Ansible实现大规模集群的自动化部署,让运维效率提升10倍!
    的头像 发表于 08-27 14:41 574次阅读

    复杂装备研发设计利用数据实现大规模个性化定制

    复杂装备研发设计,利用数据实现大规模个性化定制已成为提升企业竞争力、满足多样化市场需求的关键路径。其核心在于通过数据驱动的个性化需求识别、模块化设计、柔性生产、智能决策及闭环反馈,
    的头像 发表于 08-06 17:17 563次阅读

    从哈希极化到拥塞:主动路径规划在RoCE网络的负载均衡实践

    智算集群对网络性能,特别是高吞吐、低延迟和无损特性有着严苛要求,RoCE因此被广泛应用。然而,主流Clos组网架构下,传统的ECMP路由机制存在天然的局限性,容易引发哈希极化问题,成为制约
    的头像 发表于 07-21 17:27 1710次阅读
    从哈希极化到<b class='flag-5'>零</b>拥塞:主动路径规划在<b class='flag-5'>RoCE</b>网络<b class='flag-5'>中</b>的负载均衡实践

    RDMA简介3之四种子协议对比

    CPU卸载到RDMA网卡处理。仅需要使用普通以太网交换机和iWARP网卡即可实现路由。但在大规模部署时,由于TCP/IP协议点对点连接的特性,将会占用大量的内存资源,对系统规格的要求更高在对比这四种
    发表于 06-04 16:05

    RDMA简介1之RDMA开发必要性

    ,提供高通量、低延迟、远距离的拷贝网络数据传输。基于融合以太网的远程直接内存访问(RoCE)提供了一种基于以太网的RDMA技术实现方法,相较于IB(InfiniBand)、互联网广域
    发表于 06-03 14:38

    算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

    AI 训练与推理的网络效率瓶颈,助力数据中心高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置
    的头像 发表于 05-28 14:08 1798次阅读
    算力革命:<b class='flag-5'>RoCE</b>实测推理时延比InfiniBand低30%的底层逻辑

    广和通助力昶氪科技实现智能割草机器人大规模商用

    近日,2025世界移动通信大会(MWC Barcelona 2025)期间,广和通宣布:其为永强集团旗下昶氪科技提供的围线式智能割草机器人解决方案已实现大规模量产商用,满足欧洲等市
    的头像 发表于 03-12 09:23 1090次阅读

    AGV大规模定制化生产中的应用

    AGV智能工厂大规模定制生产中发挥重要作用,通过不同形式满足多样化物料搬运需求,提高生产效率与灵活度,降低劳动力与成本,助力企业实现智能车间和工厂的升级改造。
    的头像 发表于 02-13 18:09 739次阅读
    AGV<b class='flag-5'>在</b><b class='flag-5'>大规模</b>定制化生产中的应用