当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。
如何有效采集RoCE网卡状态数据?
为解决 RoCE 网络监控运维上的不便,我们新推出了EasyRoCE-NE(RoCE网卡状态采集,NIC Exporter)RoCE网卡状态采集工具。
EasyRoCE 工具集是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等…

NE 是 EasyRoCE 工具集中针对服务器网络监控部分的组件。由两部分构成:Exporter 客户端(NIC Exporter)、监控面板自动化创建程序(NIC Generator)
采集数据
NIC Exporter 运行在GPU服务器内部,采集GPU网卡的配置、流量状况信息。转换为Prometheus能读取的标准格式并通过HTTP接口暴露。
可视化呈现
NIC Generator运行在部署EasyRoCE 工具集的服务器上,从 AID 工具(AI基础设施蓝图规划,AI Infrastructure Descriptor)(数据库组件)读取GPU服务器的IP信息。即可自动在 UG 工具 (统一监控面板,Unified Glancer)中创建可视化面板,将NIC Exporter采集到的信息展示出来。


部署指南
第一步:准备工作
- 下载NE工具包(ne.tgz、nic_exporter)(请联系项目销售/售前人员获取。)
- 先通过AID完成网络规划(GPU服务器硬件信息等),并将其上传到服务器的EasyRoCE 工具集目录下
第二步:开始安装
1.将nic_exporter上传到GPU服务器中,并后台启动
chmod +x nic_exporter nohup ./ nic_exporter &
2.将nic_exporter.tgz上传到服务器的EasyRoCE工具集目录下并解压,解压后其目录结构如下
. ├── ne_dashboard.json #UG面板文件 ├── nic_generator.py #启动脚本 └── requirements.txt #依赖
其中ne_dashboard.json为UG的面板文件,nic_exporter.py是工具的启动脚本。
注意:这里为了为了避免影响服务器自身的python环境,推荐使用venv作资源隔离。
python -m venv .venv source .venv/bin/activate
安装依赖
pip install -r requirement.txt
3. 启动
./nic_generator.py
4. 打印如下即成功创建UG面板
Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk
【面板展示】
访问打印信息中的URL即可访问UG面板
NE面板目录
NE网卡详细信息展示左上角变量就是该服务器的网卡,切换变量则可以展示不同网卡的信息。
-
监控
+关注
关注
6文章
2400浏览量
59615 -
网络监控
+关注
关注
0文章
116浏览量
22391
发布评论请先 登录
RoCE与IB对比分析(一):协议栈层级篇
RDMA简介5之RoCE V2队列分析
RDMA设计5:RoCE V2 IP架构
高效的以太网卡电路怎么实现?
如何实现机房环境动力远程实时监控呢
一种高效数据采集监控服务器的实现
RoCE技术在HPC中的应用分析
网卡启动版本10.2iSCSI RoCE FCoE协议用户手册
引导版本10.3适用于网卡、iSCSI、FCoE和RoCE协议用户手册
适用于网卡、iSCSI、FCoE和RoCE协议用户手册 引导版本10.4
适用于网卡、iSCSI、FCoE和RoCE协议 引导版本10.6
如何实现高效的RoCE网卡状态采集与监控?
评论