0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心“流量风暴”来袭?揭秘RoCEv2的隐形守护者:PFC

1092769615 来源:1092769615 作者:1092769615 2025-07-14 17:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

想象一下,在AI训练、高性能计算、分布式存储的“心脏”——数据中心网络里,RoCEv2(RDMA over Converged Ethernet v2)正以惊人的速度传输着海量数据。它绕过了操作系统内核,让应用直通网卡,速度飙升!但高速也伴随着风险:网络一旦拥塞,数据包丢失,整个高性能应用就可能“翻车”。这时,一个低调却至关重要的守护者站了出来: PFC(Priority-based Flow Control,基于优先级的流量控制) 。它就像网络流量的“精密刹车系统”,确保关键数据永不丢失。今天,就让我们一起揭开PFC的神秘面纱!

什么是PFC?

PFC是一种以Ethernet为基础的流控机制,它允许以优先级(Priority)为单位,控制特定优先级类别的网络流量。简单来说,当某个优先级的流量出现拥堵或包溢出时,PFC可以暂停对应优先级的流量,避免数据丢失,确保关键数据的稳定传输。

PFC如何工作?一场精妙的“反压”对话

PFC的交互本质是接收方(Rx)向发送方(Tx)发送“暂停(Pause)” 或“恢复(Resume)” 指令。让我们分解这个过程:

  1. 场景: 接收端交换机端口(或网卡)的特定优先级队列的缓冲区即将被填满(达到预设阈值)。
  2. 发出警报(Pause):
  • 接收端检测到拥塞的优先级队列。
  • 立即构造一个 PFC Pause Frame。
  • 在报文中明确指定需要暂停的优先级(如优先级3) 以及需要暂停的时间长度(Pause Time)。
  • 将这个Pause Frame发送给直接相连的上游设备(发送端交换机或服务器网卡)。
  1. 执行刹车(Hold):
  • 上游设备(Tx)收到PFC Pause Frame。
  • 解析报文,得知需要暂停哪个优先级(如优先级3)的流量发送。
  • 立即停止发送该优先级的数据帧。
  • 暂停的持续时间由报文中的Pause Time字段指定(单位是512 bit time,可换算成时间)。
  1. 缓解与恢复(Resume):
  • 接收端缓冲区被排空,拥塞解除。
  • 接收端可以发送一个新的PFC Pause Frame,将对应优先级的Pause Time设置为0。这就是“恢复(Resume)”信号
  • 上游设备(Tx)收到Pause Time = 0的报文后,立即恢复发送该优先级的数据帧。

PFC Pause Frame报文长啥样?

理解了交互,我们再来看看这个关键的“刹车指令”——PFC Pause Frame的报文结构(基于IEEE 802.1Qbb标准):
image.png

关键字段解析:

  • Priority Enable Vector (2字节): 这是控制开关。例如,它的值是 0x04 (二进制 0000 0100),表示只对 优先级2 (因为Bit2=1) 进行流量控制。其他优先级不受影响。
  • Pause Time (每个优先级2字节): 这是刹车时长。对于Priority Enable Vector中启用的优先级,其对应的Time字段值表示请求发送方暂停该优先级流量的时长。Time = 0 表示“立即恢复”发送该优先级流量。 Time > 0 表示暂停的时长(单位是512 bit time,在10Gbps链路上,1个512 bit time = 51.2 ns)。
  • Opcode (01-01): 明确这是PFC帧,而不是普通的PAUSE帧(Opcode为00-01)

它的应用场景如何呢

PFC在实际数据中心环境中的应用场景极为广泛,主要包括:

  • AI/ML训练集群: 保障GPU间高速RDMA通信不丢包、低延迟。
  • 超融合基础架构/HCI: 保证虚拟化存储(vSAN, Ceph等)后端网络稳定高效。
  • 高性能分布式存储: 确保存储节点间数据同步的可靠性。
  • 金融交易系统: 满足微秒级交易延迟要求。

PFC实战测试:如何验证你的“刹车系统”可靠?

为了确保PFC功能的正确性和有效性,测试是非常重要的一环。以下使用信而泰测试仪表X5-400G设备对PFC功能进行测试:

测试拓扑和主要配置如下所示:
image.png

如上图所示,测试仪模拟两端口向一个端口发流的拥塞场景,从而来验证DUT的PFC功能,被测设备使用华三的s9825-8C-G;

  1. 占用3个端口,port1和port2用于发送QP流量,port3用于接收,使用RoCEv2向导,使能PFC,以Priority 5 为例:
    image.png
  2. 配置RoCEv2 Server:配置DSCP值:40,配置ipv4地址与DUT对应,阻塞端口port3的QP Block数量设置为2:(需要保证源QP Block数量与目标QP Block数量一致)
    image.png
  3. 选择流端点:勾选上server1和server2打向server3的QP block,点击完成即可:
    image.png
  4. 在流模板处查看,使用向导完成配后后默认是生成双向流量,去使能port3发送的流量即可:
    image.png
  5. 先将Port 1和Port2打往Port3的线速流量运行起来,此时可以观察到port1和port2的发送速率为100%,然后将DUT使能PFC功能后,可以观察到两端口流量的发送速率降速至50%:
    image.png
  6. 测试仪PFC报文统计查看,可统计到DUT发送的第5优先级的PFC报文:
    image.png
  7. Port 1和Port2上启动捕获,其中pause time包含0和65535的PFC报文:
    image.png

DarYu-X/E系列网络测试仪

信而泰公司已推出X2-100G-12QSFP28、X5-400G高密度以及E2-100G-4QSFP28-Q测试模块,均支持测试RoCEv2协议,支持100G/200G/400G的多速率以太网测试,信而泰的RoCEv2深度测试,为网络设备商、云服务商及企业用户提供了不可或缺的工具,有效识别瓶颈、优化配置,极大提升RoCEv2部署信心,是推动高性能无损网络从架构设计走向大规模、高效率实际应用的关键环节。
image.png

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络安全
    +关注

    关注

    11

    文章

    3453

    浏览量

    63036
  • PFC
    PFC
    +关注

    关注

    49

    文章

    1050

    浏览量

    110483
  • 数据中心
    +关注

    关注

    16

    文章

    5533

    浏览量

    74681
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    校时服务器如何赋能现代数据中心高效运营

    至“微秒级"。在这背后,校时服务器(TimeServer)正以“隐形守护者"的角色,通过精准的时间同步技术重构数据中心的运行逻辑,成为保障业务连续性、提升运维效率的关键技术
    的头像 发表于 11-27 15:36 226次阅读
    校时服务器如何赋能现代<b class='flag-5'>数据中心</b>高效运营

    局部放电监测装置:电力设备安全的“隐形守护者

    适配,正成为电力设备安全运维的“隐形守护者”。技术原理:多维度感知的精密系统局部放电监测装置采用多物理场协同监测技术。脉冲电流法通过高频电流传感器捕捉放电产生的瞬
    的头像 发表于 11-21 10:17 108次阅读
    局部放电监测装置:电力设备安全的“<b class='flag-5'>隐形</b><b class='flag-5'>守护者</b>”

    动环监控:数据中心机房的“智慧守护者

    在数字化时代,数据中心机房已成为企业运营的核心命脉。动力环境监控系统(简称动环监控)正是保障这一命脉稳定运行的“智慧守护者”,通过7x24小时不间断监测,构建起机房安全的第一道防线。 传统机房
    的头像 发表于 10-28 15:45 212次阅读

    解析DCQCN:RDMA在数据中心网络的关键拥塞控制协议

    DCQCN ( Data Center Quantized Congestion Notification),数据中心量化拥塞通知。它是一种专门为数据中心网络设计的端到端拥塞控制协议。其核心目的是在使用RDMA(RoCEv2)
    的头像 发表于 09-15 11:45 1557次阅读
    解析DCQCN:RDMA在<b class='flag-5'>数据中心</b>网络的关键拥塞控制协议

    MEMS加速度计如何成为高端设备背后的“隐形守护者”?

    能够精确测量加速度,实时监测设备动态行为,被誉为“隐形守护者”,尽管体积微小,它无时无刻不在保障设备安全,广泛应用于振动诊断、姿态稳定和冲击检测等关键场景。此外,
    的头像 发表于 09-12 16:37 653次阅读
    MEMS加速度计如何成为高端设备背后的“<b class='flag-5'>隐形</b><b class='flag-5'>守护者</b>”?

    双北斗卫星时钟同步装置:安徽京准自主可控的“时序”守护者

    双北斗卫星时钟同步装置:安徽京准自主可控的“时序”守护者
    的头像 发表于 09-05 08:43 783次阅读
    双北斗卫星时钟同步装置:安徽京准自主可控的“时序”<b class='flag-5'>守护者</b>

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量,均可通过智能
    发表于 08-13 19:01

    易燃易爆环境的气象“守护者”:防爆自动气象监测设备揭秘

      易燃易爆环境的气象“守护者”:防爆自动气象监测设备揭秘柏峰【BF-FB】一、引言:危险环境中的气象 “尖兵”​  ​  在化工园区、矿山、油库等特殊场景,“安全” 二字重如泰山。任何细微的疏忽,都可能引发不可挽回的灾难。而这些易燃易爆区域,气象因素常常是引发事故的 “
    的头像 发表于 07-04 16:44 459次阅读

    通信设备“隐形守护者”:高频滤波器的加工难点与突破

    高频滤波器是通信设备中的核心元件,负责在复杂电磁环境中精准筛选信号,其性能直接影响通信质量。尽管用户难以直接感知它的存在,但它如同“隐形守护者”一般,保障着通话清晰度与数据传输稳定性。然而,这类器件
    的头像 发表于 06-30 16:38 402次阅读

    光耦合器:隐形守护者,拓展无限应用

    在现代电子技术的洪流中,光耦合器就像一位默默无闻的守护者,凭借其卓越的电气隔离能力,悄然确保着各种设备的稳定运行。从工业自动化到通信网络,从汽车电子到消费电子,它的身影无处不在,支撑着我们日常生活中的无数应用。今天,就让我们一起走进光耦合器的世界,看看它如何在不同领域大展身手。
    的头像 发表于 05-16 17:09 448次阅读

    电力设备局放监测传感器:电网安全的“隐形守护者

    运等严重后果。电力设备局放监测传感器,作为电网安全的“隐形守护者”,正通过技术创新构建起设备状态的“智能感知网络”,实现从被动监测到主动预防的运维模式变革。技术原
    的头像 发表于 05-09 10:12 777次阅读
    电力设备局放监测传感器:电网安全的“<b class='flag-5'>隐形</b><b class='flag-5'>守护者</b>”

    精密仪器仪表背后的“隐形守护者”:交流单相滤波器

    被忽视却又至关重要的“隐形守护者”——交流单相滤波器。 精密仪器仪表的“纯净电流”需求 精密仪器仪表对电源质量的要求极高,微小的电压波动、谐波干扰或是电磁噪声都可能对测量结果造成显著影响,甚至导致设备损坏。想象
    的头像 发表于 04-16 11:14 465次阅读

    BNC 射频连接器:信号传输的隐形守护者,深度解析其工作原理

    正是凭借精密的结构设计、精妙的工作原理以及卓越的信号传输特性,德索的BNC射频连接器成为信号传输领域当之无愧的隐形守护者,持续为现代电子技术的发展贡献着不可或缺的力量。在未来电子设备不断向小型化、高性能化发展的趋势下,德索也将持续投入研发,不断革新BNC射频连接器产品,继
    的头像 发表于 03-25 08:44 598次阅读
    BNC 射频连接器:信号传输的<b class='flag-5'>隐形</b><b class='flag-5'>守护者</b>,深度解析其工作原理

    解锁工业网关通讯测试:工业运转的隐形守护者

    守护者”。Eg:有人物联网302产品基本通信测试。   一.确保数据传输的准确性,让生产指令精准下达 工业生产中,设备之间需要实时、准确地交换大量数据。从生产线上各环节的运行参数,到设备的状态信息,这些
    的头像 发表于 03-21 22:31 582次阅读
    解锁工业网关通讯测试:工业运转的<b class='flag-5'>隐形</b><b class='flag-5'>守护者</b>

    北斗校时服务器:时间同步的“隐形守护者

    在数字化时代,时间同步的重要性不言而喻。从金融交易到电力调度,从通信网络到智能制造,精准的时间同步是保障系统正常运行的关键。而北斗校时服务器,正是这一关键环节的“隐形守护者”。
    的头像 发表于 03-06 09:38 554次阅读