0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RoCE网络规划还在手动算IP?这套工具让运维效率飙升

星融元Asterfusion 2025-06-30 14:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着AI算力集群规模指数级增长,网络架构复杂度陡增。传统网络规划依赖人工计算与经验判断,存在效率低、易出错、可视化弱三大痛点。尤其在RoCE(RDMA over Converged Ethernet)网络场景中,需协同计算、存储、管理等多类网络,并确保无损传输特性——EasyRoCE-AID 正是为解决这一挑战而生。

EasyRoCE-AID:AI基础设施智能网络规划引擎

通过系统化建模与自动化工具链,将抽象的AI网络架构(计算/存储/管理/带外网络)转化为可视化蓝图,输出精准部署指南,降低80%规划耗时,规避人工配置风险。

wKgZPGhiLj-AP-bKAAEF5LLMaMo354.png

作为 EasyRoCE Toolkit 的核心组件,AID 与以下免费工具深度协同:
✅ 一键配置RoCE网络(ORD)
GPU节点路由规划(IRM)
✅ 主动路径优化(PPD)
✅ 多租户网络部署(MVD)
高精度流量监控(RTR)

AI智算中心从网络规划到部署落地5大步骤

步骤1:硬件资源数字化

输入关键参数:GPU/存储/管理服务器的名称、型号、功耗、U高度、网口数量及带宽(决定网络拓扑的关键因子)。建立设备数据库,为后续模块提供引用依据。

步骤2:智能组网设计

自动化选型:基于集群规模选择二层/三层模板,输入服务器与交换机规格后:
1. 自动计算:每层交换机数量与堆叠关系

wKgZPGhiLmmAC9g0AABH5crNvl8508.png

2. 生成方案:设备互联逻辑图与端口映射

wKgZO2hiLnWAAj6IAAEM3oqbB4E553.png

根据生成的组网方案,补充信息,完善交换机型号、序列号、功耗等参数(影响机柜布局)。

步骤3:机柜空间优化

该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。

wKgZPGhiLpaAfgH_AAFUylsHDC8661.png

步骤4:一键生成网络配置

全自动配置输出:

  • 互联IP地址分配
  • 服务器Bond口配置
  • 带外管理网络规划
wKgZO2hiLs6ALRdyAAEFCHrTvK8196.png

步骤5:生态工具无缝对接

由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。
以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码.

其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。

wKgZO2hiLumAMicPAAD5uOII4mk807.png

AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。

  • 拓扑自动呈现(TG):
wKgZO2hiLwqAZhmGAAD_7F88WsQ689.png
  • 光模块地图(TM):
wKgZO2hiLxiAETe1AANvEYH7YH4266.png
  • 链路分布地图(LM)
wKgZO2hiLySAGDMAAAHq0BlHm6Q002.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41964

    浏览量

    303060
  • 网络规划
    +关注

    关注

    0

    文章

    13

    浏览量

    13061
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    迎革命!超集信息 OpsAMAX 上线,AI 服务器集群 “零门槛”

    力时代,大模型、生物医药、智能制造等领域的飞速发展, HPC、AI 服务器集群成为核心生产力。但力越强、集群越复杂, 难题 就越突
    的头像 发表于 05-21 11:05 251次阅读
    <b class='flag-5'>算</b>力<b class='flag-5'>运</b><b class='flag-5'>维</b>迎革命!超集信息 OpsAMAX 上线,AI <b class='flag-5'>让</b>服务器集群<b class='flag-5'>运</b><b class='flag-5'>维</b> “零门槛”

    还在手动拼接 AI 代码?你的 IDE 早就该升级了

    大,后续迭代升级时极易引入新问题。 ▌ 安全性风险: 第三方 AI 工具生成的代码可能存在隐藏漏洞,手动拼接时难以全面排查,给工业控制设备的运行安全带来潜在威胁。 3、效率低下:无效内耗挤占核心开发时间
    发表于 03-11 10:25

    AIOps 智能化 IT 从 “被动救火” 到 “主动防御”

    前言在数字化时代,企业的IT系统就像城市的交通网络,支撑着业务的每一次运转。但随着服务器、云集群、边缘设备的数量激增,传统靠人工盯着监控、排查日志的模式,早已跟不上系统的复杂程度——告警刷屏
    的头像 发表于 02-12 14:09 2004次阅读
    AIOps 智能化<b class='flag-5'>运</b><b class='flag-5'>维</b>:<b class='flag-5'>让</b> IT <b class='flag-5'>运</b><b class='flag-5'>维</b>从 “被动救火” 到 “主动防御”

    RDMA设计37:RoCE v2 子系统模型设计

    仿真模型。在 RoCE v2 协议中,本地主机与远程主机之间往往需要进行复杂的指令、信息、数据交互,使得在进行仿真验证时如何模拟复杂网络环境成为一个急需解决的问题。 因此,本IP设计了一个Ro
    发表于 02-06 16:19

    设备管理平台工厂设备高效运转

    PLC、数控机床、工业机器人等设备作为生产的核心引擎,其稳定运行直接决定企业效益,但传统模式下,故障突发导致的非计划停机、巡检流于形式的隐患遗漏、备件管理混乱的维修延误,企业陷入“维修成本高
    的头像 发表于 01-06 14:02 337次阅读
    设备<b class='flag-5'>运</b><b class='flag-5'>维</b>管理平台<b class='flag-5'>让</b>工厂设备高效运转

    容器化NPB + Ansible:自动化方案

    传统NPB设备手动配置效率低下。星融元NPB 2.0基于SONiC系统,支持通过Ansible实现自动化。通过编写Playbook可批量秒级下发配置至多台设备,将数小时操作转化为标
    的头像 发表于 12-08 12:00 1188次阅读
    容器化NPB + Ansible:自动化<b class='flag-5'>运</b><b class='flag-5'>维</b>方案

    别再让光缆故障“开盲盒”!广州邮科这套系统,从玄学变科学

    凌晨三点,核心光缆中断,全员紧急抢修……” “重大活动前夜,线路突然报警,技术人员彻夜排查……” “客户投诉网速慢,却查了三天找不到症结……” 这些通信人员头皮发麻的场景,你是否也经历过?光缆
    的头像 发表于 12-02 10:04 508次阅读
    别再让光缆故障“开盲盒”!广州邮科<b class='flag-5'>这套</b>系统,<b class='flag-5'>让</b><b class='flag-5'>运</b><b class='flag-5'>维</b>从玄学变科学

    RDMA设计5:RoCE V2 IP架构

    上面分析,基于RoCE v2 高速数据传输IP 的高速传输应用整体架构如图 1 所示。 图1 基于RoCE V2 IP应用的系统整体架构图 它通过 QSFP28 接口连接上位机进行
    发表于 11-25 10:34

    如何实现 RoCE 配置的自动同步(基础篇) - DCBX协议

    DCBX(Data Center Bridging Exchange)协议是实现数据中心网络自动化配置的核心技术,能够显著降低负担,减少因人工配置错误导致的网络故障。DCBX 为大
    的头像 发表于 10-09 14:27 1209次阅读
    如何实现 <b class='flag-5'>RoCE</b> 配置的自动同步(基础篇) - DCBX协议

    EasyRoCE Toolkit

    EasyRoCE是星融元依托开源、开放的网络架构与技术,为AI智、高性能计算等场景的RDMA融合以太网(RoCE)提供的一系列实用特性和小工具。从前期
    发表于 09-30 11:32 1次下载

    Python脚本实现工作自动化案例

    还在为重复性工作而烦恼?每天被各种告警、监控、部署搞得焦头烂额?作为一名有10年经验的老司机,今天分享5个超实用的Python自动化
    的头像 发表于 08-27 14:46 1458次阅读

    从哈希极化到零拥塞:主动路径规划RoCE网络中的负载均衡实践

    集群对网络性能,特别是高吞吐、低延迟和无损特性有着严苛要求,RoCE因此被广泛应用。然而,在主流Clos组网架构下,传统的ECMP路由机制存在天然的局限性,容易引发哈希极化问题,成为制约
    的头像 发表于 07-21 17:27 2204次阅读
    从哈希极化到零拥塞:主动路径<b class='flag-5'>规划</b>在<b class='flag-5'>RoCE</b><b class='flag-5'>网络</b>中的负载均衡实践

    RDMA over RoCE V2设计2:ip 整体框架设计考虑

    设计IP需要考虑如下因素: 1)基于 IBTA 1.5 协议规范,支持 RoCE v2 标准协议传输,同时支持 ARP协议和 ICMP 协议。 2)基于 Xilinx CMAC 集成块进行开发并独立
    发表于 07-16 08:51

    自动化工具Terraform和Ansible的区别

    在现代云原生时代,基础设施即代码(Infrastructure as Code,IaC)已成为工程师的核心技能。面对复杂的多云环境和日益增长的基础设施需求,传统的手动配置方式已无法满足快速、可靠
    的头像 发表于 07-09 09:59 1530次阅读

    力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑

    AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现力资源的最优配置。
    的头像 发表于 05-28 14:08 2331次阅读
    <b class='flag-5'>算</b>力革命:<b class='flag-5'>RoCE</b>实测推理时延比InfiniBand低30%的底层逻辑