0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

信而泰PFC/ECN流量测试方案:打造智能无损网络的关键利器

1092769615 来源:1092769615 作者:1092769615 2025-03-13 09:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导语:AI算力爆发的背后,如何保障网络“零丢包”?

在当今数据中心网络中,随着AI、高性能计算(HPC)和分布式存储等应用的飞速发展,网络的无损传输能力变得至关重要。PFC(基于优先级的流量控制)和ECN(显式拥塞通知)作为智能无损网络的关键技术,能够有效解决网络拥塞问题,保障数据传输的低延迟和高吞吐量。然而,如何验证和优化PFC/ECN技术的水线参数,提升无损网络的性能成为了网络设备制造商和运营商面临的重大挑战。

一、PFC/ECN技术简介

(一)PFC(Priority-based Flow Control)

PFC是基于IEEE 802.1Qbb标准的流量控制机制,通过为不同业务流量划分优先级,实现精细化拥塞管理。其核心逻辑如下:

优先级队列划分 :网络设备端口配置8个独立优先级队列(0-7),高优先级队列(如金融交易、AI训练流量)优先调度;

反压信号交互 :当接收端检测到某优先级队列拥塞时,向发送端发送PAUSE帧(反压信号),暂停对应队列的流量发送;

动态恢复机制 :拥塞解除后,接收端发送RESUME信号,恢复流量传输,确保高优先级业务零丢包。

典型应用场景

金融高频交易:微秒级时延敏感业务需绝对优先传输;

AI分布式训练:保障GPU间RDMA流量的无损交互;

实时视频流:避免关键帧丢失导致的画质劣化。

PFC机制在检测到网络拥塞时,会自动触发对低优先级流量的暂停,以保障高优先级流量的传输,而当拥塞缓解后,低优先级流量又会自动恢复传输,这一过程实现了网络流量的自动降速与恢复,有效平衡了不同优先级流量的传输需求。

如下图所示,DeviceA发送接口被分成了8个优先级队列,DeviceB接收接口则存在8个接收缓存,二者一一对应。DeviceB接收接口上某个接收缓存发生拥塞时,会发送一个反压信号“STOP”到DeviceA,DeviceA则停止发送对应优先级队列的流量。
image.png

PFC的工作方式

(二)ECN(Explicit Congestion Notification)

ECN是TCP/IP协议的扩展机制,用于减少网络拥塞导致的数据包丢失。当网络设备检测到拥塞时,会在IP数据包头部设置ECN标志,而不是直接丢弃。接收端收到标记后,会通知发送端降低传输速率,从而缓解网络拥塞。接收端收到RoCEv2 报文 IP ECN 标记为“11”,接收端口生成RoCEv2 CNP ,发给流量发送端。对指定QP可选择单个或者多个CNP 来对ECN 标记报文的响应。

ECN机制不仅提高了网络的利用率,还显著降低了丢包率。同时在拥塞缓解后,发送端又可以逐步提高发送速率,恢复正常的传输效率,实现了网络传输速率的动态调整与优化。
image.png

二、PFC/ECN流量测试的重要性

在数据中心网络中,PFC和ECN机制的有效性直接关系到网络的无损传输能力和整体性能。然而,在实际部署中,PFC/ECN机制可能面临以下问题:

优先级错配 :PFC队列映射错误导致高优先级流量被低优先级抢占;

阈值灵敏度不足 :ECN标记阈值设置不合理,引发拥塞响应滞后或过度降速;

多技术协同失效 :PFC与ECN策略冲突,导致网络性能波动。

测试价值
通过系统性验证PFC/ECN功能的有效性,优化水线参数配置,确保智能无损网络的稳定性和业务SLA达标。

三、PFC/ECN流量测试方案

(一)测试目标

  1. 验证PFC机制的有效性 :确保网络设备能够根据优先级正确地暂停和恢复流量,避免高优先级流量的丢包。
  2. 验证ECN机制的有效性 :确保网络设备能够在拥塞时正确地标记ECN标志,并通过CNP(拥塞通知报文)反馈机制调整发送速率。
  3. 评估网络在拥塞情况下的性能表现 :包括吞吐量、延迟和丢包率等关键指标。以及PFC与ECN自动降速功能对网络性能的影响

(二)测试环境

  1. 硬件设备

o RoCE网络测试仪、网络损伤仪

o 被测网络设备(如交换机、路由器)

  1. 网络拓扑

o 采用典型的Leaf-Spine架构,测试仪连接到Leaf交换机,被测设备部署在Spine层。

o 测试仪通过多个端口向被测设备发送PFC/ECN流量,模拟真实网络环境中的多源多宿场景。

o 在环境中部署损伤仪,模拟真实网络环境中的丢包、时延、抖动等场景
image.png

(三)测试方法

1. PFC测试方法

· 配置PFC优先级 :在测试仪和被测设备上配置相同的PFC优先级映射关系,确保测试流量能够触发PFC机制。

· 流量生成与发送 :测试仪生成具有不同优先级的流量,分别模拟高优先级和低优先级的业务流量。

· 拥塞触发 :通过调整流量负载,使被测设备的缓冲区接近满载,触发PFC机制。

· 流量监控与分析 :监控高优先级流量是否被正确暂停和恢复,低优先级流量是否能够正常传输,以及低优先级流量在PFC机制触发后的自动降速 情况和拥塞缓解后的恢复情况。记录流量的吞吐量、延迟和丢包率等指标。
配置RoCEv2 Server。配置VLAN Priority: 6,如下图所示:。
image.png
image.png

  1. PFC测试结果分析

o 检查高优先级流量是否在拥塞时被正确暂停,并在拥塞缓解后恢复传输。

o 分析低优先级流量的吞吐量和延迟变化,确保其不受PFC机制的影响。

o 评估网络设备在PFC机制下的整体性能表现,是否存在优先级调度失效等问题。

查看端口的Basic和PFC统计,可以看到端口1发出的流降速到28%。PFC统计正确,如下图所示:
image.png
image.png

配置RoCEv2 Server。配置VLAN Priority: 6,如下图所示:。
image.png

  1. ECN测试方法

· 配置ECN功能 :在测试仪和被测设备上启用ECN功能,并设置ECN标志位。

· 流量生成与发送 :测试仪生成带有ECN标志的流量,并向被测设备发送。

· 拥塞触发 :通过增加流量负载,使被测设备检测到拥塞,并在数据包头部标记ECN标志。

· CNP反馈机制测试 :接收端收到带有ECN标志的数据包后,生成CNP并发送给发送端。发送端根据CNP调整发送速率。

· 性能评估 :记录流量的吞吐量、延迟和丢包率等指标,评估ECN机制在拥塞控制中的有效性,以及自动降速功能对网络性能的影响。

配置端口参数,使能ECN,ECN配置成11(CE),如下图所示:
image.png

配置RoCEv2 Server。配置VLAN ID, IP地址信息,保证ARP可以成功,如下图所示:
image.png

配置QP流量,如下图所示:

image.png

  1. ECN测试结果分析

o 检查ECN标志是否被正确标记,并通过CNP反馈机制传递到发送端。

o 分析发送端是否根据CNP调整发送速率,以及调整后的吞吐量和延迟变化。

o 评估ECN机制在拥塞控制中的有效性,是否存在过度调整或调整不及时等问题。

查看端口统计和流统计的RoCEv2统计,如下图
image.png
image.png

四、DarYu-X系列测试仪智能无损网络的验证引擎

信而泰公司推出的X2-100G-12QSFP28、X5-400G高密度测试仪是一款专为高端路由器、交换机以及数据中心交换机设计的高密度测试平台。具备如下功能特性:
image.png

X2-100G RoCE测试板卡
image.png

高密度400G测试仪一体机

l 支持100G/200G/400G测试端口

l 支持L2(VLAN)和L3(DSCP)的QOS设置

l 支持RoCEv2流量的产生和发送

l 支持ECN/PFC使能和优先级设置

l 每端口支持8000个QP,支持基于QP选择流量端点

l 支持集合通信库CCL流量模型仿真

PFC/ECN流量测试是验证智能无损网络性能的关键手段。通过科学的测试方案,可以全面评估PFC和ECN机制的有效性,优化网络配置,提高网络的无损传输能力和整体性能。信而泰凭借其在测试领域的深厚积累,提供了全面的PFC/ECN流量测试解决方案,能够满足不同应用场景的需求。无论是AI训练、高性能计算还是分布式存储,信而泰的测试方案都能为网络设备制造商和运营商提供有力支持,助力智能无损网络的发展。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PFC
    PFC
    +关注

    关注

    49

    文章

    1050

    浏览量

    110441
  • 分布式存储
    +关注

    关注

    4

    文章

    182

    浏览量

    20107
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    攻击逃逸测试:深度验证网络安全设备的真实防护能力

    优化都是对防护能力的一次实质提升。 ALPS平台的攻击逃逸测试方案
    发表于 11-17 16:17

    浮思特 | 快充提速关键!SiC 功率器件如何优化直流充电桩 PFC 模块?​

    ”,正是提升充电效率的关键环节。今天大家聊聊SiC(碳化硅)功率器件如何为充电桩PFC模块“提质增效”,以及至微电子打造的适配方案。​一、
    的头像 发表于 10-14 09:43 2519次阅读
    浮思特 | 快充提速<b class='flag-5'>关键</b>!SiC 功率器件如何优化直流充电桩 <b class='flag-5'>PFC</b> 模块?​

    看不见的安全防线:仪表如何验证零信任有效性

    ——从静态防御转向动态信任评估,从粗放权限分配转向最小化权限原则。本文将深入解析零信任安全架构的核心机理,并基于零信任实现方案,全面介绍如何通过
    发表于 09-09 15:33

    PON交换机一体化高效生产测试方案

    /400G等多种速 率。 生产测试方案优势 提供全套测试设备。 减少人力成本:2人。 提高
    发表于 08-26 11:05

    Hunter OCT-8A如何一站式解决光猫功率校验与流量测试难题

    测试时间,可同时有效拦截DUT的Tx/Rx功率偏移,否则有漏测风险。 ​五、结束语:从“防偏移”到“零偏差”​​面对当“质量”与“成本”的边界,Hunter BOB生产
    发表于 07-30 17:01

    解锁高品质音频体验:探索音频质量评估与测试的科学之道

    确保数据同步和顺序,RTCP(实时传输控制协议)辅助监控传输质量(如丢包率、抖动)。VoIP测试方案以DarPeng2000E
    发表于 07-22 11:15

    ×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,打造
    发表于 07-16 15:29

    万级UE 并发测试揭秘 5G 小基站安全与性能的 “极限挑战”

    在5G 网络深度渗透、6G 展望渐近的当下,小基站作为构建 “泛在连接” 的关键节点,正迎来市场的爆发式需求。然而,当数以万计的设备同时接入,如何确保小基站的安全性、可靠性和高效性?
    的头像 发表于 07-08 10:00 601次阅读
    万级UE 并发<b class='flag-5'>测试</b>:<b class='flag-5'>信</b><b class='flag-5'>而</b><b class='flag-5'>泰</b>揭秘 5G 小基站安全与性能的 “极限挑战”

    黑芝麻智能携手Nullmax打造辅助驾驶主流量方案

      黑芝麻智能与Nullmax联合打造的辅助驾驶主流量方案,基于单颗武当C1236芯片,集成Nullmax自研软件架构与视觉感知算法,实现城区记忆领航、高速领航辅助及记忆泊车等功能。
    的头像 发表于 06-26 18:36 1182次阅读
    黑芝麻<b class='flag-5'>智能</b>携手Nullmax<b class='flag-5'>打造</b>辅助驾驶主<b class='flag-5'>流量</b>产<b class='flag-5'>方案</b>

    RDMA简介7之可靠传输

    。这样的丢包重传机制将导致在丢包率较高的网络环境下,会反复重传大量数据包,性能会随着丢包率的提升急速下滑。这也就是为什么要求RoCE v2工作在二三层无损网络下。 (2)流量控制及拥塞
    发表于 06-13 10:01

    克科技功率器件双脉冲测试解决方案

    在当今快速发展的电力电子技术领域,功率半导体器件的性能优化至关重要。双脉冲测试(DPT)作为一种关键测试方法,为功率器件的动态行为评估提供了精准的手段。本文将深入解析双脉冲测试的原理
    的头像 发表于 06-05 11:37 1046次阅读
    <b class='flag-5'>泰</b>克科技功率器件双脉冲<b class='flag-5'>测试</b>解决<b class='flag-5'>方案</b>

    主动运维方案:让高校网络“看得见、管得住、用得好”

    并发IP……如此复杂的网络,如何保障稳定性?如何快速定位故障?如何提升用户体验? 答案藏在 网络主动运维
    的头像 发表于 04-23 15:33 402次阅读
    <b class='flag-5'>信</b><b class='flag-5'>而</b><b class='flag-5'>泰</b>主动运维<b class='flag-5'>方案</b>:让高校<b class='flag-5'>网络</b>“看得见、管得住、用得好”

    CCL仿真:解锁AI算力极限,智算中心网络性能跃升之道

    引言 随着AI大模型训练和推理需求的爆发式增长,智算中心网络的高效性与稳定性成为决定AI产业发展的核心要素。凭借自主研发的 CCL(集合通信库)评估工具 与 DarYu-X系列
    的头像 发表于 02-24 17:34 985次阅读
    <b class='flag-5'>信</b><b class='flag-5'>而</b><b class='flag-5'>泰</b>CCL仿真:解锁AI算力极限,智算中心<b class='flag-5'>网络</b>性能跃升之道

    网络测试仪校准解决方案

    、电线连接不良等因素会导致仪表工作状态不稳定; 人为因素:仪表在使用过程中安装方法不正确、测试配置错误、测试步骤不规范等因素影响测试结果准确性。
    发表于 01-13 15:29

    网络测试仪校准解决方案:精准测试,性能无忧

    影响仪表精度的因素 网络测试仪是用于对数据网络及其相关设备性能参数进行测试的仪表,可以模拟网络终端产生
    的头像 发表于 01-13 14:04 1149次阅读
    <b class='flag-5'>信</b><b class='flag-5'>而</b><b class='flag-5'>泰</b><b class='flag-5'>网络</b><b class='flag-5'>测试</b>仪校准解决<b class='flag-5'>方案</b>:精准<b class='flag-5'>测试</b>,性能无忧