0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

看看RDMA让网络实现低时延的绝招

中兴文档 来源:中兴文档 作者:中兴文档 2022-11-15 09:46 次阅读

数据中心现状

随着“新基建”将5G人工智能工业互联网列为新型基础领域,机器学习智能语音交互、自动驾驶等一大批基于高性能计算的应用层出不穷,这些应用带来了数据的爆炸式增长,给数据中心的处理能力带来了很大的挑战。

计算、存储和网络是推动数据中心发展的三驾马车。计算随着CPUGPUFPGA的发展,算力得到了极大的提升。存储随着闪存盘(SSD)的引入,数据存取时延已大幅降低。但是网络的发展明显滞后,传输时延高,逐渐成为了数据中心高性能的瓶颈。

e9e9c194-6473-11ed-8abf-dac502259ad0.png

在数据中心内,70%的流量为东西向流量(服务器之间的流量),这些流量一般为数据中心进行高性能分布式并行计算时的过程数据流,通过TCP/IP网络传输。如果服务器之间的TCP/IP 传输速率提升了,数据中心的性能自然也会跟着提升。

ea04aa54-6473-11ed-8abf-dac502259ad0.png

下面我们就来看看服务器之间数据TCP/IP 传输的过程,了解下“时间都去哪了”,才好“对症下药”。

服务器间的TCP/IP传输

在数据中心,服务器A向服务器B发送数据的过程如下:

1、CPU控制数据由A的APP Buffer拷贝到操作系统Buffer。

2、CPU控制数据在操作系统(OS)Buffer中添加TCP、IP报文头。

3、添加TCP、IP报文头后的数据传送到网卡(NIC),添加以太网报文头。

4、报文由网卡发送,通过以太网络传输到服务器B网卡。

5、服务器B网卡卸载报文的以太网报文头后,将其传输到操作系统Buffer。

6、CPU控制操作系统Buffer中的报文卸载TCP、IP报文头。

7、CPU控制卸载后的数据传输到APP Buffer中。

ea38b1b4-6473-11ed-8abf-dac502259ad0.png

从数据传输的过程可以看出,数据在服务器的Buffer内多次拷贝,在操作系统中需要添加/卸载TCP、IP报文头,这些操作既增加了数据传输时延,又消耗了大量的CPU资源,无法很好得满足高性能计算的需求。

那么,如何构造高吞吐量、超低时延和低CPU开销的高性能数据中心网络呢?RDMA技术可以做到。

什么是RDMA

RDMA( Remote Direct Memory Access,远程直接地址访问技术 )是一种新的内存访问技术,可以让服务器直接高速读写其他服务器的内存数据,而不需要经过操作系统/CPU耗时的处理。

RDMA不算是一项新技术,已经广泛应用于高性能(HPC)科学计算中。随着数据中心高带宽、低时延的发展需求,RDMA也开始逐渐应用于某些要求数据中心具备高性能的场景中。

举个例子,2021年某大型网上商城的双十一交易额再创新高,达到5000多亿,比2020年又增长了近10%。如此巨大的交易额背后是海量的数据处理,该网上商城采用了RDMA技术来支撑高性能网络,保障了双十一的顺畅购物。

下面我们一起来看看RDMA让网络实现低时延的绝招吧。

RDMA将服务器应用数据直接由内存传输到智能网卡(固化RDMA协议),由智能网卡硬件完成RDMA传输报文封装,解放了操作系统和CPU。

ea6f6d12-6473-11ed-8abf-dac502259ad0.png

这使得RDMA具有两大优势:

Zero Copy(零拷贝):无需将数据拷贝到操作系统内核态并处理数据包头部的过程,传输延迟会显著减小。

Kernel Bypass(内核旁路)和Protocol Offload(协议卸载):不需要操作系统内核参与,数据通路中没有繁琐的处理报头逻辑,不仅会使延迟降低,而且也大大节省了CPU的资源。

ea949f1a-6473-11ed-8abf-dac502259ad0.png

三大RDMA网络

目前,大致有三类RDMA网络,分别是InfiniBand、RoCE(RDMA over Converged Ethernet,RDMA过融合以太网)和iWARP(RDMA over TCP,互联网广域RDMA协议)。RDMA最早专属于Infiniband网络架构,从硬件级别保证可靠传输,而RoCE 和 iWARP都是基于以太网的RDMA技术。

InfiniBand

InfiniBand是一种专为RDMA设计的网络。

采用Cut-Through转发模式(直通转发模式),减少转发时延。

基于Credit的流控机制(基于信用的流控机制),保证无丢包。

要求InfiniBand专用的网卡、交换机和路由器,建网成本最高。

RoCE

传输层为InfiniBand协议。

RoCE有两个版本:RoCEv1基于以太网链路层实现,只能在L2层传输;RoCEv2基于UDP承载RDMA,可部署于三层网络。

需要支持RDMA专用智能网卡,不需要专用交换机和路由器(支持ECN/PFC等技术,降低丢包率),建网成本最低。

iWARP

传输层为iWARP协议。

iWARP是以太网TCP/IP协议中TCP层实现,支持L2/L3层传输,大型组网TCP连接会消耗大量CPU,所以应用很少。

iWARP只要求网卡支持RDMA,不需要专用交换机和路由器,建网成本介于InfiniBand和RoCE之间。

Infiniband技术先进,但是价格高昂,应用局限在HPC高性能计算领域,随着RoCE和iWARPC的出现,降低了RDMA的使用成本,推动了RDMA技术普及。

在高性能存储、计算数据中心中采用这三类RDMA网络,都可以大幅度降低数据传输时延,并为应用程序提供更高的CPU资源可用性。其中InfiniBand网络为数据中心带来极致的性能,传输时延低至百纳秒,比以太网设备延时要低一个量级。

RoCE和iWARP网络为数据中心带来超高性价比,基于以太网承载RDMA,充分利用了RDMA的高性能和低CPU使用率等优势,同时网络建设成本也不高。

基于UDP协议的RoCE比基于TCP协议的iWARP性能更好,结合无损以太网的流控技术,解决了丢包敏感的问题,RoCE网络已广泛应用于各行业高性能数据中心中。

结语

随着5G、人工智能、工业互联网等新型领域的发展,RDMA技术的应用会越来越普及,RDMA将成为助力数据中心高性能的一大功臣。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1602

    文章

    21320

    浏览量

    593179
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2689

    浏览量

    115493
  • RDMA
    +关注

    关注

    0

    文章

    68

    浏览量

    8845

原文标题:RDMA能给数据中心带来什么

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    KPU FLEXFLOW® -2100R是中科驭数完全自研的首款具备RDMA功能的DPU加速卡#RDMA

    DPURDMA
    中科驭数(北京)科技有限公司
    发布于 :2024年03月25日 18:40:59

    利用CXL技术重构基于RDMA的内存解耦合

    本文提出了一种基于RDMA和CXL的新型低延迟、高可扩展性的内存解耦合系统Rcmp。其显著特点是通过CXL提高了基于RDMA系统的性能,并利用RDMA克服了CXL的距离限制。
    发表于 02-29 10:05 529次阅读
    利用CXL技术重构基于<b class='flag-5'>RDMA</b>的内存解耦合

    RDMA RNIC虚拟化方案

    主要包括Inifiband、RoCE以及iWARP。实现RDMA协议的I/O设备被称为RNIC。主流云服务提供商已经开始广泛部署RNIC,例如亚马逊云推出的弹性网络适配器(Elastic Network Adapter,ENA)
    的头像 发表于 01-23 17:23 673次阅读
    <b class='flag-5'>RDMA</b> RNIC虚拟化方案

    深入了解RDMA技术

    Explorer,专注于高性能网络、虚拟化网络及网卡的测试方案研究。熟悉dpdk,rdma,sdn等技术的应用与解决方案。
    的头像 发表于 12-26 09:23 817次阅读
    深入了解<b class='flag-5'>RDMA</b>技术

    rdma网络是什么?RDMA网络有什么应用场景?

    RDMA(Remote Direct Memory Access)网络是一种技术,它通过网络直接在计算机之间传输数据,而无需双方操作系统的介入。这种技术可以允许高吞吐、低延迟的网络通信
    的头像 发表于 12-22 09:30 567次阅读

    AD9361时响应特性不固定如何优化?

    利用AD9361进行扩频信号的收发自闭环实验,测试发现,AD9361工作在AGC模式下,接收链路时随接收信号功率变化(时变化量超过0.1ns)。后调成MGC模式,手动控制接收链路为固定增益,时
    发表于 12-12 07:36

    RDMA和TCP/IP有什么区别

    在分布式存储网络中,我们使用的协议有RoCE、Infiniband(IB)和TCP/IP。其中RoCE和IB属于RDMA (RemoteDirect Memory Access)技术,他和传统的TCP/IP有什么区别呢,接下来我们将做详细对比。
    的头像 发表于 11-30 09:19 713次阅读
    <b class='flag-5'>RDMA</b>和TCP/IP有什么区别

    RDMA(远程直接内存访问)传输协议概述和应用案例

    人工智能 (AI) 的兴起极大地提高了对强大、高效和可扩展的网络传输协议的需求。本文深入探讨了 RDMA(远程直接内存访问)传输协议,并重点讨论 ROCEv2 协议,目前基于 ROCEv2 的 RDMA已经在一些超大规模数据中心
    的头像 发表于 10-25 10:19 862次阅读
    <b class='flag-5'>RDMA</b>(远程直接内存访问)传输协议概述和应用案例

    基于Corundum架构的100G RDMA网卡设计

    传统TCP/IP技术处理数据包需通过操作系统和其他软件层,导致数据在系统内存、处理器缓存和网络控制器缓存间频繁复制,增加了服务器CPU和内存的负担,特别是在网络带宽、处理器速度与内存带宽不匹配时,网络延迟会进一步加剧。
    的头像 发表于 10-24 10:47 520次阅读
    基于Corundum架构的100G <b class='flag-5'>RDMA</b>网卡设计

    GPMC并口如何实现“小数据-,大数据-高带宽”

    /NAND闪存 GPMC并口3大特点 (1)小数据- 在工业自动化控制领域中,如工业PLC、驱控一体控制器、运动控制器、CNC数控主板、继电保护设备、小电流接地选线等,极其注重精确性与快速性,GPMC
    发表于 09-30 23:43

    HPC和数据中心融合网络面临的技术挑战

    随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA融合以太网(RDMA over converged Ethernet,RoCE
    发表于 09-15 09:56 543次阅读
    HPC和数据中心融合<b class='flag-5'>网络</b>面临的技术挑战

    AM62x GPMC并口如何实现“小数据-,大数据-高带宽”—ARM+FPGA低成本通信方案

    (4)NOR/NAND闪存 GPMC并口3大特点 (1)小数据- 在工业自动化控制领域中,如工业PLC、驱控一体控制器、运动控制器、CNC数控主板、继电保护设备、小电流接地选线等
    发表于 08-22 10:58

    Redis RDMA改造方案分析

    RDMA传输的适配,从业务场景的使用角度来看,大致可分为如下几种类型。
    的头像 发表于 08-16 10:22 1557次阅读
    Redis <b class='flag-5'>RDMA</b>改造方案分析

    什么是RDMA?什么是RoCE网络技术?

    在数据为王的时代,人们对网络的要求更加严苛。然而传统的TCP / IP以太网连接占用了大量的CPU资源,并且需要额外的数据处理,已无法再满足当前更快、更高效和可扩展性的网络需求。在这种情况下,RoCE(RDMA over Con
    的头像 发表于 07-24 17:40 3987次阅读
    什么是<b class='flag-5'>RDMA</b>?什么是RoCE<b class='flag-5'>网络</b>技术?

    数据中心以太网和RDMA:超大规模环境下的问题

    我们观察到新兴的人工智能、高性能计算和存储工作负载对大规模数据中心网络提出了新的挑战。基于融合以太网的RDMA协议(RoCE,RDMA over Converged Ethernet) 是将现代
    的头像 发表于 07-14 16:41 2823次阅读
    数据中心以太网和<b class='flag-5'>RDMA</b>:超大规模环境下的问题