0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从哈希极化到零拥塞:主动路径规划在RoCE网络中的负载均衡实践

星融元Asterfusion 2025-07-21 17:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智算中心运维团队常陷入两难:手动配置ECMP路径虽能缓解哈希极化,但面对万端口级交换机集群,单次策略调整需数百人时;而动态负载均衡方案又带来协议兼容性与部署复杂度新挑战。在“精准控制”与“敏捷运维”之间寻求平衡点,成为规模组网落地RoCE无损网络的决胜关键。

什么是哈希极化?

哈希极化(Hash Polarization),亦称哈希分布不均,本质上是静态哈希算法的局限性与网络拓扑特性及流量分布特征共同作用的结果:

1. 算法同质化:网络设备普遍采用相同或高度相似的哈希算法(如标准五元组哈希),导致路径选择缺乏随机性;

2. 流量特征集中:当大量数据流具有相似关键特征(如共享相同源/目的IP),且该特征被用作哈希主输入时,这些流会以极高概率被映射到相同路径;

3. 拓扑放大效应:在多层ECMP架构(如Leaf-Spine)中:

  • Leaf层初步分散的流量
  • 经Spine层时因相同哈希逻辑重新聚合,形成二次极化,使流量向少数路径倾斜;

4. 大流干扰:少数主导性大流量(Elephant Flows)进一步加剧路径负载失衡。

主动路径规划配置逻辑

在不引入动态负载均衡技术的情况下,我们可以通过增加参与哈希计算的因子,以及主动规范流量路径的方式来应对 AI 算力集群规模化部署的痛点(例如负载均衡和租户隔离等),主动路径规划需要网络工程师按照如下转发逻辑去配置 RoCE 交换机:

1. 智算服务器上每张网卡都对应一个接口,服务器产生跨 Spine 的上行流量会在Leaf交换机判定并执行策略路由转发给对应 Spine

  • 在1:1无收敛的情况下,Leaf 交换机的每个下行端口绑定一个上行端口
  • 在 n:1 的情况下,上下行端口以倍数关系(向上取整) 形成 n:1 的映射
wKgZO2h-BfGAYnpWAABsNuOSh8I737.png

2. 跨 Spine 上行流量在 Spine 上按照标准 L3 逻辑转发在智算环境下的轨道组网中,多数流量仅在轨道内传输,跨轨传输流量较小,网络方案可以暂不考虑在 Spine 上拥塞的情况;
3. 跨 Spine 下行流量进入 Leaf 后根据 default 路由表指导转发。
可以看到,以上配置逻辑若完全以手动输入命令行的方式下发到所有交换机,会是一件相当繁琐且耗时的事情,也容易引入配置失误。

借助 EasyRoCE 工具配置

为加速智算场景下的路由优化配置,此前我们有介绍过 PPD 工具(主动路径规划,Proactive Path Definer)的1.0 版本。如今经过一段时间的实践打磨,PPD 工具迎来了一轮迭代,升级到2.0版本,其主要运行步骤如下:

1. 从 AID 工具(AI基础设施蓝图规划,AI Infrastructure Descriptor)读取网络基础配置信息。

2. 运行 PPD 工具,生成路由配置文件。

3. 在 UG 工具 (统一监控面板,Unified Glancer)中展示配置文件,用户核对并确认配置下发。

作为 EasyRoCE 工具套件的构成部分,PPD 可以独立运行在服务器上,也可以代码形式被集成到第三方管理软件中。
EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等…所有功能对签约客户免费开放。

PPD 2.0 升级了什么?

  • 改善 AID 与 PPD 工具的对接流程,完全实现网络基础信息的自动化填充
  • 优化 PPD 工具的图形界面操作体验,配置下发进度和结果可即时呈现,便于管理员快速排查异常原因
  • 自动集成到统一监控面板(UG),与其他 RDMA 网络配置信息在一处集中查看和管理

使用演示

第一步:导入基础网络信息

AID 工具是 PPD 的“数据源”,其中有一个专门的工作表存储了 PPD 工具所依赖的所有基础网络信息,主要是 GPU server 各网卡的 IP 地址、交换机接口互联关系和其对应的 IP 地址等,以上都支持一键自动填充;此外,该工作表内还预留有与多租户网络配置相关的标识信息(InstanceID和 Description),管理员可按需手动填写以便于后续管理、使用。

第二步:运行PPD工具生成路由配置

上传PPD相关工具到管理服务器,解压后程序结构如下:

wKgZO2h-BlaAI6N3AACrVLqNgkA455.png

运行 start_ppd.sh 命令即可启动PPD。

第三步:选择下发配置

此时,所有与主动路由规划相关的信息已经自动集成到了统一监控面板,管理员登录UG面板可以看到 PDD 工具界面。
点击左上配置生成按钮,会出现设备可用的配置文件(XXXX.cfg)。管理员可以查看生成配置文件详情二次核对,确认勾选,再点击上方批量下发即可等待工具自动下发配置。
待配置全部下发完成,界面即时显示设备当前部署结果,失败设备提供报错信息,排障后可尝试二次下发。

wKgZO2h-BneAA2R_AAYcX50EPiw687.pngEasyRoCE-PPD 工具界面概览
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Hash
    +关注

    关注

    0

    文章

    33

    浏览量

    13612
  • 负载均衡
    +关注

    关注

    0

    文章

    128

    浏览量

    12811
  • 路径规划
    +关注

    关注

    0

    文章

    79

    浏览量

    15637
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    主动队列管理建模及最优控制策略

    的变化;给定目标函数,以分组丢弃概率为控制变量,将主动队列管理的优化问题转化为动态规划问题,给出优化策略。关 键 词 主动队列管理; 最优控制; 路由器; 动态规划在IP
    发表于 06-14 00:14

    锂电池保护板被动均衡主动均衡

    主动均衡是以电量转移的方式进行均衡,效率高,损失小。不同厂家的方法不同,均衡电流也1~10 A不等。目前市场上出现的很多
    发表于 12-05 10:49

    EQM系列主动均衡模块,被动均衡轻松变主动均衡

    `EQM系列主动均衡模块是华荧技术推出的一款应用在电池管理系统上的核心部件,它采用全新架构设计实现电池管理的主动均衡功能。在被动
    发表于 04-26 20:02

    什么是服务器网络负载均衡

    什么是服务器网络负载均衡 什么是负载均衡
    发表于 01-11 10:58 1927次阅读

    基于数据中心网络拓扑感知型拥塞控制算法

    分布流量请求的不相交路径策略;然后,根据带宽需求自适应选取不相交路径;最后,利用已选取路径的剩余带宽为权重动态调整每条路径的流量分配比例,从而达到缓解
    发表于 12-12 13:55 0次下载

    基于流量矩阵的负载均衡路由机制

    基于流量矩阵的负载均衡路由(TM-LB,traffic matrix based lo ad b alanc ing)算法,供控制层根据实时网络情况为后续流规划传输
    发表于 02-12 11:18 0次下载

    面向SRIO网络负载均衡最短路径路由算法

    对SRIO网络的节点进行枚举并建立网络拓扑信息,以路由跳数定义路由的成本,根据改进 Floyd- Marshal算法计算并保存交换节点间的K最短路径。给岀预期
    发表于 05-11 14:47 9次下载

    解密负载均衡技术和负载均衡算法

    负载均衡器是一种软件或硬件设备,它起到了将网络流量分散一组服务器的作用,可以防止任何一台服务器过载。负载
    的头像 发表于 11-12 09:16 1812次阅读

    浮动静态路由及负载均衡

    负载均衡:当数据有多条可选路径前往同一目的网络,可以通过配置相同优先级和开销的静态路由来实现负载均衡
    的头像 发表于 02-27 15:26 2113次阅读
    浮动静态路由及<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>

    负载均衡的策略有哪些? 负载均衡的三种方式?

    请求的数量。 IP哈希(IP Hash):根据客户端的IP地址计算哈希值,将请求分配给特定的服务器,保证相同IP的客户端请求始终发送到同一台服务器。 最少连接(Least Connections):将请求分配给当前连接数最少的服务器,以实现
    的头像 发表于 07-25 14:13 3274次阅读

    路径负载均衡的建议

    电子发烧友网站提供《多路径负载均衡的建议.pdf》资料免费下载
    发表于 09-01 15:31 0次下载
    多<b class='flag-5'>路径</b><b class='flag-5'>负载</b><b class='flag-5'>均衡</b>的建议

    如何确定适合的负载均衡比例

    其影响以及相关策略。 什么是负载均衡比例? 在网络,路由器通常连接着多个网络设备和服务器。当网络
    的头像 发表于 12-15 10:36 2866次阅读

    如何利用traceroute命令发现网络负载均衡

    网络管理和故障排除,了解数据包的路径和识别负载均衡节点是非常重要的。traceroute 命令是一个用于跟踪数据包在
    的头像 发表于 08-07 15:13 1177次阅读
    如何利用traceroute命令发现<b class='flag-5'>网络</b><b class='flag-5'>中</b>的<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>

    常见网络负载均衡的几种方式

    常见网络负载均衡的几种方式包括:DNS负载均衡、反向代理负载
    的头像 发表于 03-06 11:14 1074次阅读

    智能路径调度:AI驱动负载均衡的异常路径治理实践

    在AI驱动的数据中心网络环境,传统的“尽力而为”和“无差别均分”负载均衡策略已力不从心。基于路径综合质量的动态WCMP机制,通过实时感知
    的头像 发表于 07-03 16:26 1009次阅读
    智能<b class='flag-5'>路径</b>调度:AI驱动<b class='flag-5'>负载</b><b class='flag-5'>均衡</b>的异常<b class='flag-5'>路径</b>治理<b class='flag-5'>实践</b>