0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解析DCQCN:RDMA在数据中心网络的关键拥塞控制协议

星融元Asterfusion 2025-09-15 11:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DCQCN ( Data Center Quantized Congestion Notification),数据中心量化拥塞通知。它是一种专门为数据中心网络设计的端到端拥塞控制协议。其核心目的是在使用RDMA(RoCEv2) 的网络中,高效地管理网络拥塞,从而保证高吞吐、低延迟和零丢包(或极低丢包)。

简单来说,DCQCN就是RDMA在以太网(RoCE)环境中的“交通警察”,它确保高速数据流不会造成网络堵塞。

本文参阅文献:Congestion Control for Large-Scale RDMA Deployments.pdf

为什么需要DCQCN?

现代数据中心应用需要高吞吐量和超低延迟网络,具有低 CPU 开销。标准 TCP/IP 堆栈不能满足这些要求,但RDMA可以。在 IP 路由的数据中心网络上,RDMA 使用 RoCEv2 协议部署,该协议依赖于基于优先级的流量控制 (PFC) 可实现无中断网络。

wKgZO2jHiweAYE4iAANw32ksQOI391.png

但是,由于队头阻塞和带宽分配不均等问题,PFC 会导致应用程序性能不佳。为了缓解这些问题,DCQCN诞生了。

DCQCN是如何工作的?

wKgZPGjHixuAE0enAAA87D_CoGo407.png

DCQCN 是一种基于速率的拥塞控制协议,它模仿了著名的QCN(Quantized Congestion Notification),但做了适应数据中心的修改,更适合RDMA的高性能、低开销特性。

  • 发送方:速率调节的起点(运行RDMA应用的服务器)
  • 交换机:拥塞的检测和通知者(支持ECN的交换机)
  • 接收方:通知的转发者(运行RDMA应用的服务器)

整个过程可以分为以下四个步骤:

步骤 1: 拥塞检测与标记(在交换机发生)

交换机持续监控其出口端口的队列深度。当某个端口的队列长度超过一个预设的阈值(Kmin)时,交换机判断该端口发生了拥塞。对于经过该拥塞端口的数据包,交换机会以一定概率将其IP头中的ECN(显式拥塞通知) 字段标记为“拥塞遭遇”(CE)。这个概率随着队列变长而增加。

步骤 2: 拥塞通知(接收方 -> 发送方)

被标记了ECN的数据包会继续被发送到接收方服务器。接收方的网卡识别到这个ECN标记后,不会像传统TCP一样等待ACK包,而是立即生成并发送一个名为“CNP”(Congestion Notification Packet)的特殊控制包 directly返回给发送方。

CNP包非常小(约64字节),拥有最高优先级,以确保它能最快速度地返回给发送方,几乎无延迟地报告拥塞。

步骤 3: 速率调节(在发送方发生)

发送方收到CNP包后,就知道其发出的数据流在某处造成了网络拥塞。发送方会根据内置的算法立即降低其数据发送速率(Rate)。这个降速过程是多级的:

  • 快速恢复:首先进行一次大幅度的降速(乘以一个小于1的因子,如 0.5),以快速缓解网络压力。
  • 主动减少:之后进入一个阶段,持续地、较小幅度地降低速率。
  • 主动增加:当一段时间内没有收到新的CNP包时,发送方会认为拥塞已经解除,开始缓慢地、逐步地增加发送速率(加法增加),以重新探知可用带宽。

这个“降-增”的循环过程使得DCQCN能够动态、平滑地适应网络状态,既不会过于激进导致带宽浪费,也不会过于保守导致延迟升高。

DCQCN的应用与部署

DCQCN由Mellanox(现NVIDIA的一部分)在其网卡中实现,并广泛应用于微软等大型数据中心,以支持其云存储、分布式缓存等需要高吞吐量和低延迟的服务。由于其重要性和影响力,DCQCN在2025年获得了SIGCOMM“经典之作奖”。

  • AI与大模型训练:在数据并行、流水线并行和张量并行等分布式训练模式中,节点间需要频繁同步海量参数(通常达百GB级别)。DCQCN能有效减少网络拥塞,避免因PFC“刹停”或丢包导致的计算长尾延迟,保障训练任务高效运行。
  • 高性能计算(HPC)​​:用于需要极高网络带宽和极低延迟的科学计算、模拟等场景,DCQCN帮助RDMA实现接近线速的传输。
  • 云存储与分布式系统:如微软的云存储服务,DCQCN保障了后端存储节点间大数据块传输的效率和稳定性,同时极大降低了CPU开销。

要想实现DCQCN,你的数据中心网络需要满足一些特定条件,并理解其三个核心组件(对应下图)的职责:

组件角色与职责硬件要求
​交换机 (CP)​​监控出口队列长度,超过阈值时根据RED算法对数据包进行ECN标记。支持ECN和RED功能的标准数据中心交换机。
​接收端网卡 (NP)​​检测带有ECN标记的数据包,生成CNP拥塞通知包并返回给发送端。支持RoCEv2的智能网卡
​发送端网卡 (RP)​​根据收到的CNP包降低发送速率;在未收到CNP时逐步提升速率。支持RoCEv2的智能网卡

智算中心的硬件核心在于为 RoCEv2提供稳定、高性能的无损网络环境。这不仅需要网卡支持,更需要交换机的深度配合。CX-N系列数据中心交换机通过其超低时延、无损网络技术、对大容量缓存的优化、高级遥测功能以及对自动化运维的支持,为DCQCN协议在AI计算、高性能计算等场景中的高效、稳定运行提供了坚实的硬件基础。

wKgZO2jHi6uAW31NAAPH9niMZ4o418.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8128

    浏览量

    93051
  • PFC
    PFC
    +关注

    关注

    49

    文章

    1047

    浏览量

    110388
  • 数据中心
    +关注

    关注

    16

    文章

    5514

    浏览量

    74627
  • 拥塞控制
    +关注

    关注

    0

    文章

    15

    浏览量

    8624
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一文详解DCQCN拥塞控制算法

    DCQCN 是一种基于速率的端到端拥塞协议,它建立在 QCN 和 DCTCP 之上。DCQCN 的大部分功能是现在网卡上(而不是交换机上,或者操作系统上)。
    发表于 01-23 10:48 1.2w次阅读
    一文详解<b class='flag-5'>DCQCN</b><b class='flag-5'>拥塞</b><b class='flag-5'>控制</b>算法

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G
    发表于 03-25 17:35

    RDMA简介7之可靠传输

    。这样的丢包重传机制将导致在丢包率较高的网络环境下,会反复重传大量数据包,性能会随着丢包率的提升急速下滑。这也就是为什么要求RoCE v2工作在二三层无损网络下。 (2)流量控制
    发表于 06-13 10:01

    PCIe协议分析仪在数据中心中有何作用?

    PCIe协议分析仪在数据中心中扮演着至关重要的角色,它通过深度解析PCIe总线的物理层、链路层、事务层及应用层协议,帮助运维人员、硬件工程师和系统架构师优化性能、诊断故障、验证设计合规
    发表于 07-29 15:02

    易天重点解析监控系统在数据中心机房的重要性

    ,通过在数据中心机房内多个区域部署温湿度传感器,建立起温湿度的监控网络,就可以及时地发现局部区域过温过湿的情况,在一些空气污染较为严重的地方,还可以部署空气清洁度监测的设备,数据中心机房设备运行在污染
    发表于 10-09 15:00

    数据中心中网络拥塞的危害及其疏散方法的介绍

    网络状态,此时用户对网络资源的需求超过了固有的容量。近些年随着云计算、大数据、搜索技术本身要消耗大量的网络带宽,所以在数据中心
    发表于 10-17 12:33 6次下载

    基于数据中心网络拓扑感知型拥塞控制算法

    针对数据中心网络(DCN)的链路拥塞问题,提出了一种拓扑感知型拥塞控制算法(TACC)。首先,根据广义超立方体拓扑多维正交和单维全连接的结构
    发表于 12-12 13:55 0次下载

    基于流调度代价的数据中心网络拥塞控制路由算法

    针对传统数据中心网络极易发生拥塞的问题,提出了在软件定义网络(SDN)的架构下设计基于流调度代价的拥塞
    发表于 12-14 14:35 0次下载

    浅谈:RDMA能给数据中心带来什么?

    在数据中心内,70%的流量为东西向流量(服务器之间的流量),这些流量一般为数据中心进行高性能分布式并行计算时的过程数据流,通过TCP/IP网络传输。如果服务器之间的TCP/IP 传输速
    的头像 发表于 11-29 16:28 1728次阅读

    数据中心以太网和RDMA:超大规模环境下的问题

    我们观察到新兴的人工智能、高性能计算和存储工作负载对大规模数据中心网络提出了新的挑战。基于融合以太网的RDMA协议(RoCE,RDMA ov
    的头像 发表于 07-14 16:41 6186次阅读
    <b class='flag-5'>数据中心</b>以太网和<b class='flag-5'>RDMA</b>:超大规模环境下的问题

    数字孪生在数据中心的应用场景

    数字孪生技术如何应用到数据中心的运营发展,又在数据中心的设计与发展阶段起到怎样的作用呢?本文将在数据中心的设计阶段与运维阶段应用数字孪生技术进行解析
    的头像 发表于 08-28 15:03 2683次阅读
    数字孪生<b class='flag-5'>在数据中心</b>的应用场景

    HPC和数据中心融合网络面临的技术挑战

    随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA融合以太网(RDMA over c
    发表于 09-15 09:56 1582次阅读
    HPC和<b class='flag-5'>数据中心</b>融合<b class='flag-5'>网络</b>面临的技术挑战

    集中电源控制在数据中心的应用

    集中电源控制在数据中心的应用非常广泛。数据中心通常需要大量的电源来支持服务器、网络设备和存储设备等关键基础设施的运行。集中电源
    的头像 发表于 01-30 15:24 1242次阅读
    集中电源<b class='flag-5'>控制</b>器<b class='flag-5'>在数据中心</b>的应用

    多业务光端机在数据中心的应用:提升网络效率的关键

    随着云计算、大数据等技术的迅猛发展,数据中心已成为现代社会不可或缺的基础设施。数据中心内部网络的高效、稳定运行对于整个数据中心的性能至关重要。多业务光端机作为
    的头像 发表于 02-23 14:09 1241次阅读

    诺基亚扩展与微软Azure的数据中心网络供应协议

    的进一步巩固。 作为协议扩展的重要组成部分,诺基亚将向微软Azure提供其最新的7250 IXR-10e平台。该平台以其卓越的性能、灵活性和可扩展性,在数据中心网络中发挥着关键作用。通
    的头像 发表于 11-22 13:53 867次阅读