0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何实现高效的RoCE网卡状态采集与监控?

星融元Asterfusion 2025-10-29 11:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。

如何有效采集RoCE网卡状态数据?

为解决 RoCE 网络监控运维上的不便,我们新推出了EasyRoCE-NE(RoCE网卡状态采集,NIC Exporter)RoCE网卡状态采集工具。

EasyRoCE 工具集是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等…

wKgZO2kBjHaADN0oAAB5HtW6TZU105.png

NE 是 EasyRoCE 工具集中针对服务器网络监控部分的组件。由两部分构成:Exporter 客户端(NIC Exporter)、监控面板自动化创建程序(NIC Generator)

采集数据

NIC Exporter 运行在GPU服务器内部,采集GPU网卡的配置、流量状况信息。转换为Prometheus能读取的标准格式并通过HTTP接口暴露。

可视化呈现

NIC Generator运行在部署EasyRoCE 工具集的服务器上,从 AID 工具(AI基础设施蓝图规划,AI Infrastructure Descriptor)(数据库组件)读取GPU服务器的IP信息。即可自动在 UG 工具 (统一监控面板,Unified Glancer)中创建可视化面板,将NIC Exporter采集到的信息展示出来。

wKgZO2kBjIaATrqIAAH5ghnyJPg873.pngwKgZO2kBjJ-AC5w7AAIVNlXhLoI819.png

部署指南

第一步:准备工作

  1. 下载NE工具包(ne.tgz、nic_exporter)(请联系项目销售/售前人员获取。)
  2. 先通过AID完成网络规划(GPU服务器硬件信息等),并将其上传到服务器的EasyRoCE 工具集目录下

第二步:开始安装

1.将nic_exporter上传到GPU服务器中,并后台启动

chmod +x nic_exporter nohup ./ nic_exporter &

2.将nic_exporter.tgz上传到服务器的EasyRoCE工具集目录下并解压,解压后其目录结构如下

. ├── ne_dashboard.json #UG面板文件 ├── nic_generator.py #启动脚本 └── requirements.txt #依赖

其中ne_dashboard.json为UG的面板文件,nic_exporter.py是工具的启动脚本。

注意:这里为了为了避免影响服务器自身的python环境,推荐使用venv作资源隔离

python -m venv .venv source .venv/bin/activate

安装依赖

pip install -r requirement.txt

3. 启动

./nic_generator.py

4. 打印如下即成功创建UG面板

Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk Pushing dashboard to Grafana... Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4} All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk

【面板展示】

访问打印信息中的URL即可访问UG面板

wKgZPGkBj6-ANZhMAAEzle4qYn4333.pngNE面板目录wKgZO2kBj7uAKuJnAAM6uw3gnm0318.pngNE网卡详细信息展示

左上角变量就是该服务器的网卡,切换变量则可以展示不同网卡的信息。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 监控
    +关注

    关注

    6

    文章

    2400

    浏览量

    59615
  • 网络监控
    +关注

    关注

    0

    文章

    116

    浏览量

    22391
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RoCE与IB对比分析(一):协议栈层级篇

    在 AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网技术,以下简称为RoCE)。
    的头像 发表于 11-15 13:58 3886次阅读
    <b class='flag-5'>RoCE</b>与IB对比分析(一):协议栈层级篇

    RDMA简介5之RoCE V2队列分析

    (RDMA Write with immediate)操作不在此范围内)。RoCE v2作为RoCE v2协议通信的重要机制,通常有五种队列工作状态,分别为:重置(RESET)状态、初
    发表于 06-05 17:28

    RDMA设计5:RoCE V2 IP架构

    控制的核心模块。RoCE v2 高速数据传输IP内部集成了多种功能,包括 RDMA 建链、RDMA 队列管理、DMA 传输和系统监控等。 这些功能均由系统控制模块进行管理。为了对这些功能进行高效的管理
    发表于 11-25 10:34

    高效的以太网卡电路怎么实现

    。该文就是要设计一种高性能又不增加芯片成本的以太网卡电路。在仔细分析以太网的原理和理解CPCI总线原理的基础上,以Intel 82551为例研究设计了一种高效的以太网卡电路。
    发表于 09-18 07:42

    基于LabWindowsCVI的数据采集监控系统的设计与实现

    基于LabWindowsCVI的数据采集监控系统的设计与实现
    发表于 05-06 08:40

    如何实现机房环境动力远程实时监控

    机房监控工业路由器,机房监控系统的无线通信终端,实现机房环境动力远程实时监控,对接现场设备及云服务器,多方式组网、数据采集上云、数据监测、视
    发表于 02-16 07:36

    一种高效数据采集监控服务器的实现

    分析了基于GPRS 网络远程数据采集监控系统中数据转发的特点,实现了一种新型高效的按需转发服务器。该服务器克服了将远程采集的所有终端数据无筛
    发表于 01-09 14:26 11次下载

    RoCE技术在HPC中的应用分析

    RoCE的延迟有幸有机会与IB实测对比了一下:以太网用的是25G Mellanox ConnectX-4 Lx 以太网卡,和Mellanox SN2410交换机;IB用的是100G InfiniBand EDR网卡(Mellan
    发表于 09-05 10:39 2585次阅读

    网卡启动版本10.2iSCSI RoCE FCoE协议用户手册

    电子发烧友网站提供《网卡启动版本10.2iSCSI RoCE FCoE协议用户手册.pdf》资料免费下载
    发表于 07-27 15:20 0次下载
    <b class='flag-5'>网卡</b>启动版本10.2iSCSI <b class='flag-5'>RoCE</b> FCoE协议用户手册

    引导版本10.3适用于网卡、iSCSI、FCoE和RoCE协议用户手册

    电子发烧友网站提供《引导版本10.3适用于网卡、iSCSI、FCoE和RoCE协议用户手册.pdf》资料免费下载
    发表于 07-28 09:42 0次下载
    引导版本10.3适用于<b class='flag-5'>网卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>协议用户手册

    适用于网卡、iSCSI、FCoE和RoCE协议用户手册 引导版本10.4

    电子发烧友网站提供《适用于网卡、iSCSI、FCoE和RoCE协议用户手册 引导版本10.4.pdf》资料免费下载
    发表于 08-04 09:25 0次下载
    适用于<b class='flag-5'>网卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>协议用户手册 引导版本10.4

    适用于网卡、iSCSI、FCoE和RoCE协议 引导版本10.6

    电子发烧友网站提供《适用于网卡、iSCSI、FCoE和RoCE协议 引导版本10.6.pdf》资料免费下载
    发表于 08-23 15:27 0次下载
    适用于<b class='flag-5'>网卡</b>、iSCSI、FCoE和<b class='flag-5'>RoCE</b>协议 引导版本10.6

    linux 查看网卡状态是否开启

    如何查看 Linux 网卡状态是否开启 在 Linux 系统中,我们可以使用一些命令来查看网卡状态是否开启。本文将详细介绍如何使用这些命令来查看和确认
    的头像 发表于 11-17 10:31 5171次阅读

    BMS系统如何实现远程监控高效运维

    BMS系统(电池管理系统)是用来智能化管理各个电池单元,监控电池的状态的系统,通过对电压、电流、温度等参数采集、计算,进而控制电池的充放电过程,能够实现对电池的保护、提升电池的综合性能
    的头像 发表于 11-17 13:43 1769次阅读

    机床数据采集网关助力实现生产过程的智能化与高效

    、故障诊断等功能,为生产过程的智能化与高效化提供了有力支持。机床作为制造业的核心设备,其数据采集监控对于提高生产效率、降低故障率具有重要意义。机床数据采集网关作为一种连接机床与
    的头像 发表于 12-19 10:37 1184次阅读