0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

InfiniBand与RoCEv2负载均衡机制的技术梳理与优化实践

星融元Asterfusion 2025-04-17 17:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。

智算网络的主流架构

目前智算网络的领域的两大主流架构:InfiniBand 和RoCEv2 在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

InfiniBand

InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理。SM 通常部署在子网内的某台服务器上,充当网络核心控制器。通过 SM 的集中控制,InfiniBand网络实现了拓扑发现、路径优化、故障恢复等功能的自动化,保障高性能与高可靠性。

wKgZPGgAy7mAZWYhAAHeVdfDBzY521.pngInfiniBand网络架构示意图(来源:2023智算中心网络架构白皮书)

RoCEv2

RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。RoCEv1作为链路协议层,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更为优秀的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。

wKgZPGgAy8-Ab3zoAASGXkh-Cm0427.pngRoCEv2网络架构示意图(来源:2023智算中心网络架构白皮书)

智算网络中的负载均衡与流量控制

AI大模型时代下,数据中心与智算网络,如Spine-Leaf架构,拓扑规整,选路简易。就网络流量模式而言,GPU服务器间常存在多条并行路径,如Fat tree网络中会有数十条。

如何在这些路径中实现负载均衡路由,成为智算中心路由设计的核心挑战。

InfiniBand网络的负载均衡和流控机制

InfiniBand网络通过多层次技术协同,实现了高效的数据传输与资源管理。在负载均衡方面,子网管理器(SM)作为核心调度者,首先基于最短路径算法构建初始路由表,为流量分布奠定基础。尽管SM的动态路径优化能根据链路负载实时调整路径,但其对控制带宽和计算资源的消耗不容忽视。为进一步提升灵活性,自适应路由(AR)技术应运而生,允许交换机基于队列深度、拥塞情况等实时状态独立选择路径,既降低了延迟,又增强了网络可靠性。

然而,AR的动态特性可能导致数据包乱序,这需要上层协议或应用进行额外处理。为弥补单一路径的局限性,应用程序还可通过创建多个队列对(QP),利用硬件队列的并行传输能力分散流量,例如MPI库或Lustre存储中间件通过任务分配避免路径瓶颈,形成应用层与网络层的双重负载均衡。

负载均衡机制的高效运行,离不开底层流控机制的强力支撑。InfiniBand采用信用令牌(credit)系统,在每条链路上预设缓冲区,确保发送端仅在确认接收端资源充足时传输数据,从根本上避免了缓冲区溢出或丢包问题。与此同时,网络还结合逐包自适应路由技术,为每个数据包独立选择传输路径,实时响应拥塞、延迟等状态变化。这种细粒度的动态调整能力,不仅与信用令牌机制形成互补,更在超大规模网络中实现了资源的实时优化配置,使负载均衡从局部扩展到全局。

由此可见,InfiniBand通过负载均衡与流控机制的深度耦合,构建了一个兼具敏捷性、可靠性与扩展性的高性能网络架构。

RoCE网络的负载均衡和流控机制

wKgZPGgAzBCATLjDAAMPbqpG9Ls979.png负载均衡机制

负载均衡技术

1、基于流(Flow-based)

ECMP(Equal Cost Multi Path)是一种路由技术,用于在IP交换网络中实现负载均衡。即等价多路径路由,当存在多条到达同一个目的地址的相同开销的路径,网络设备按照自有的Hash根据流量N元组计算多路径下一跳。由于通用计算以“多流”、“小流”为主,能够实现较好的负载均衡效果。

当AIDC中的大象流连续到达交换机,传统Hash通常会将大象流集中在少数链路上传输,庞大的数据流占用相当大的带宽资源,导致传输链路发生拥塞,而其他链路上则处于空闲。这种Hash不均导致了链路负载不均,进而出现拥塞和时延加剧。

2、基于包(Packet based)

随机包喷洒(Random Packet Spraying,RPS)是一种基于包级别的负载均衡策略。当交换机发现有多条等价路径指向同一目的地址时,RPS会将数据包以单个包为单位分散到这些路径上。与ECMP不同,RPS以数据包为单位进行操作,将同一流中的不同数据包转发到不同的等价路径上。

RPS的优点在于简单易实施,通过细粒度的负载均衡,可以在多条并行路径之间实现较为均衡的路由选择,提升端到端的网络吞吐率,可以将并行链路利用率提高到90%以上。缺点在于可能会造成同一个流的包乱序问题,所以这种方式必须要解决乱序问题。

3、基于流片(Flowlet)

Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个Flowlet内,数据包在时间上紧密连续;而两个Flowlet之间,存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔,足以使两个流分片通过不同的网络路径传输而不发生乱序。

wKgZO2gAzH6AOtUfAAEezug1ko4283.png

4、基于遥测的路由

为了将包、flowlet或整个流调度到不同的路径上,需要路由协议的控制。传统的路由协议,基于静态的网络信息来计算最优路径,如OSPF基于网络带宽计算最短路径,BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节,需要加以改进,星融元提出的基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

wKgZPGgAzKSACP-aAAj-gIakPGE880.png

流控机制

1、优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。

【参考白皮书:https://asterfusion.com/priority-based_flow_control_pfc/ 】

2、显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

【参考技术手册:https://asterfusion.com/t20250416-ecn/ 】

3、数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。

对比项InfiniBandRoCEv2
流控机制基于Credit的流控机制PFC/ECN,DCQCN等
转发模式基于Local ID转发基于IP转发
负载均衡模式逐包的自适应路由ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遥测的路由
故障恢复Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收敛
网络配置通过UFM实现零配置(按端口收费)手工配置、或基于开放网络技术实现的 EasyRoCE

技术选型

根据前文我们了解到,InfiniBand和RoCEv2是两种支持RDMA的高性能网络协议,但其负载均衡机制在实现方式、性能和应用场景上存在显著差异:

  • InfiniBand依赖专用硬件和动态自适应路由,通过子网管理器实时优化路径,实现超低延迟和高吞吐,但成本高且扩展受限,适合HPC/AI等极致性能场景;
  • RoCEv2基于以太网,采用静态ECMP哈希多路径分发,成本低、扩展性强,但依赖无损网络配置(如PFC/ECN),易受哈希不均影响,适合云数据中心等性价比优先场景。

虽然RoCE还是很难应对大象流/老鼠流分布不均的影响,但是各厂家也在做各种努力尝试。

WCMP

结合前文,ECMP技术将包、Flowlet或整个流均匀的分布到多个路径上,很大程度上忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

星融元CX864E等超级以太网交换机通过支持Flowlet、基于遥测的路由以及WCMP(加权代价多路径)三大创新技术,将AI训练和推理网络的利用率提升至90%以上,从而加速AI训练和推理过程,为AI数据中心进一步节省建设成本和运营成本。

wKgZPGgAzV-AEtLmAAHPSmMpmnA826.png

【参考文档】

  • https://www.c114.com.cn/other/241/a1270305.html
  • https://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751430&idx=1&sn=bffa26e57db61c930c8eb2c71b902706&chksm=82a06995994e62a7391df4a0bcf047c0c332c395773964c283a3e9b814db15ced8720f450753#rd
  • https://baijiahao.baidu.com/s?id=1800081227247028165&wfr=spider&for=pc
  • https://blog.csdn.net/weixin_38889300/article/details/140366370
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • InfiniBand
    +关注

    关注

    1

    文章

    31

    浏览量

    9534
  • 负载均衡
    +关注

    关注

    0

    文章

    128

    浏览量

    12814
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Dubbo路由模块及负载均衡优化手段

    本文主要介绍在vivo内部针对Dubbo路由模块及负载均衡的一些优化手段,主要是异步化+缓存,可减少在RPC调用过程中路由及负载均衡的CPU
    的头像 发表于 11-02 09:56 1419次阅读
    Dubbo路由模块及<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>的<b class='flag-5'>优化</b>手段

    负载均衡器的诞生和工作机制

    今天我们来深度揭秘一下负载均衡器 LVS 的秘密,相信大家看了你管这破玩意儿叫负载均衡?这篇文章后,还是有不少疑问,比如 LVS 看起来只有类似路由器的转发功能,为啥说它是四层(传输层
    的头像 发表于 01-04 12:26 1799次阅读
    <b class='flag-5'>负载</b><b class='flag-5'>均衡</b>器的诞生和工作<b class='flag-5'>机制</b>

    基于动态负载均衡的网络监控系统

    设计企业局域网络监控系统NetMonitor,该系统基于J2EE技术实现对网络服务的支持。引入动态负载均衡机制作为集群服务器网络监控系统的核
    发表于 04-07 08:52 31次下载

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架构是一种支持多并发链接的“转换线缆”技术,在这种技术中,每种链
    发表于 04-10 11:34 1316次阅读

    HBase负载均衡分析及优化策略

    HBase负载均衡分析及优化策略_黄伟建
    发表于 01-03 17:41 0次下载

    基于蚁群优化的任务负载均衡调度算法

    随着云计算的蓬勃发展,针对云计算中虚拟机负载均衡及任务集完成时间较长的问题,提出了一种基于蚁群优化的任务负载均衡调度算法(WLB-ACO)
    发表于 11-09 14:40 2次下载
    基于蚁群<b class='flag-5'>优化</b>的任务<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>调度算法

    基于图非均衡划分的SDN异构控制器负载优化部署方法

    大规模软件定义网络(SDN)往往需要逻辑上集中的控制器在物理上分布式部署。针对控制器部署中控制器负载均衡的问题,提出一种基于图非均衡划分的SDN异构控制器负载
    发表于 12-20 09:55 0次下载
    基于图非<b class='flag-5'>均衡</b>划分的SDN异构控制器<b class='flag-5'>负载</b><b class='flag-5'>优化</b>部署方法

    基于流量矩阵的负载均衡路由机制

    智慧协同网络具有能够实时准确测算流量矩阵的特点。将流量矩阵作为约束,对负载均衡路由优化问题进行建模,利用拉格朗日对偶方法,将原问题转化为优化目标易实现的对偶问题。为实现对偶问题
    发表于 02-12 11:18 0次下载

    华为云在Kubernetes大规模场景下的Service性能优化实践

    本文档的主要内容详细介绍的是华为云在Kubernetes大规模场景下的Service性能优化实践包括了:1.Kubernetes的Service机制 2.Iptables实现Servi
    发表于 06-21 08:00 0次下载
    华为云在Kubernetes大规模场景下的Service性能<b class='flag-5'>优化</b><b class='flag-5'>实践</b>

    Apacheproxy负载均衡和Session复制

    Apacheproxy负载均衡和Session复制(电源技术交流群)-Apacheproxy负载均衡和Session复制         
    发表于 08-31 12:29 0次下载
    Apacheproxy<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>和Session复制

    解密负载均衡技术负载均衡算法

    叫做负载均衡的类型。负载均衡算法的种类非常多,包括从简单的轮询负载均衡算法到基于响应状态信息的自
    的头像 发表于 11-12 09:16 1822次阅读

    InfiniBandRoCEv2网络简介及解决方案

    超高带宽、超低延迟、超高可靠,这是大模型训练对于网络的要求。
    的头像 发表于 09-22 15:47 1.2w次阅读
    <b class='flag-5'>InfiniBand</b>和<b class='flag-5'>RoCEv2</b>网络简介及解决方案

    深入探索InfiniBand网络、HDR与IB技术

    InfiniBand和以太网之间的延迟对比可以分为两个主要组成部分。首先,在交换机层面上,以太网交换机在网络传输模型中作为第2层设备运行,通常采用MAC表查找寻址和存储转发机制(某些产品可能采用
    发表于 04-19 11:01 3112次阅读
    深入探索<b class='flag-5'>InfiniBand</b>网络、HDR与IB<b class='flag-5'>技术</b>

    华纳云:什么是负载均衡优化资源利用率的策略

    负载均衡是现代计算机网络架构中不可或缺的一部分,它通过智能分配请求和任务,确保系统资源的高效利用。本文将探讨负载均衡的概念、工作原理、优化
    的头像 发表于 10-28 16:07 830次阅读

    AI智算网络方案

    基于800G/400G/200G以太网、RoCEv2、智能负载均衡等能力,星融元为各种规模的AI/ML算力集群提供一站式、高性能、高可靠、低TCO的网络连接。
    发表于 09-15 14:22 0次下载