0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

加速网络性能:融合以太网 RDMA (RoCE) 的影响

海阔天空的专栏 来源:Tawfeeq Ahmad 作者:Tawfeeq Ahmad 2025-01-25 11:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Tawfeeq Ahmad

2024-12-27

计算密集型应用程序的快速发展提高了对更快、更高效和可扩展的网络解决方案的需求。为满足这一需求而出现的最具创新性的技术之一是基于融合以太网的远程直接内存访问 (RDMA) (RoCE)。这项突破性技术促进了系统之间的直接数据传输,无需 CPU 干预,从而显着减少延迟并提高整体系统性能。[爱波]一家著名的 FPGA 设计公司处于这一进步的最前沿,通过将 AMD 的 ERNIC IP(以太网 RDMA 网络接口控制器知识产权)集成到其嵌入式计算模块产品组合中,实现了强大的 100G 以太网解决方案。这种集成旨在增强高性能应用程序中的 RDMA 功能。

了解融合以太网上的 RDMA (RoCE)

RDMA 是一项关键技术,可有效绕过 CPU,在主机或服务器之间实现直接内存传输。此功能使 CPU 能够专注于应用程序执行和数据处理,从而显着提高网络性能,其特点是减少延迟、降低 CPU 负载和增加带宽,所有这些都以经济高效的方式进行。 RoCE 是一种特定的网络协议,旨在促进以太网上的 RDMA 操作。通过利用现有的以太网基础设施,RoCE 为希望在不彻底改变当前网络设置的情况下提高性能的组织提供了一个有吸引力的选择。

RoCE 的类型

根据使用的网络适配器,RoCE 分为两个不同的版本:RoCE v1 和 RoCE v2。

  1. RoCE v1 :该协议允许位于同一以太网广播域 (VLAN) 内的两台主机之间进行通信。它利用 Ethertype 0x8915 并将标准以太网帧限制为 1500 字节,同时允许以太网巨型帧扩展到 9000 字节。
  2. RoCE v2 :为了解决 RoCE v1 的限制,RoCE v2 通过合并 IP 和 UDP 标头引入了数据包封装增强功能。此修改使 RoCE v2 能够跨第 2 层(数据链路层)和第 3 层(网络层)网络无缝运行,从而支持跨多个子网的第 3 层路由和可扩展性。 RoCE v2 通常称为可路由 RoCE (RRoCE),还增加了对 IP 组播的支持,进一步拓宽了其适用性。

ERNIC IP:增强RDMA能力

ERNIC(支持嵌入式 RDMA 的 NIC)IP 是可定制的以太网 RDMA 网络接口控制器 IP 核,旨在与 AMD FPGA、MPSoC 和软 MAC IP 实现无缝集成。该解决方案的特点是高吞吐量、低延迟以及基于标准以太网的完全硬件卸载、可靠的数据传输机制。 iWave 通过成功实施 100G 以太网解决方案体现了其对技术进步的承诺。这一成就是通过利用 iWave 的[Zynq UltraScale+ MPSoC 支持的开发套件]实现的,该开发套件集成了 AMD 的 ERNIC IP。

Zynq UltraScale+ MPSoC 开发套件专为采用高速 QSFP-28 连接器进行原型设计和评估 100G 以太网解决方案而定制。

演示设置

典型的演示设置(图 2)包括:

  • iWave 的 Zynq UltraScale+ MPSoC ZU19EG 供电开发套件
  • [研华] [Mellanox ConnectX-5 100G 网卡]
  • 同步 1588 PTP 启用 1G 网卡
  • MTP 电缆、[QSFP-28 模块]和[CAT6 RJ45 以太网电缆]
  • Ubuntu 22.04 服务器电脑

iWave Zynq UltraScale+ MPSoC 开发套件示意图图 2:Zynq UltraScale+ MPSoC 开发套件的典型设置。 (图片来源:iWave)

系统架构概述

该系统架构旨在优化数据传输,在处理系统 (PS) 和可编程逻辑 (PL) 组件之间明确定义角色。该实现还具有精确时间协议 (PTP) 同步功能,这对于实时应用至关重要。凭借出色的性能指标,例如能够以每秒超过 100 帧的速度处理 8K 视频,潜在的应用涵盖数据中心、多媒体和高性能计算等各个领域,凸显了该技术在现代计算环境中的多功能性和重要性。

图 3 所示的系统高级架构突出了 Zynq UltraScale+ MPSoC 中 PS 和 PL 组件的不同作用。 PS 具有基于 ARM Cortex-A53 的硬 SoC,这对于系统配置、控制和诊断至关重要。该架构的关键组件包括:

  • 100G 以太网 MAC 驱动程序 :确保 100 Gb/s 的稳健性能和低延迟数据传输
  • ERNIC 控制器驱动程序 :负责管理传入 DDR 的数据,并通过高效的门铃交换促进用户应用程序和 ERNIC IP 之间的通信
  • RDMA 核心和用户空间库 :确保跨内核和用户空间的 RDMA 操作的兼容性和最佳性能

iWave Zynq UltraScale+ MPSoC 内的处理系统和可编程逻辑组件图图 3:Zynq UltraScale+ MPSoC 中处理系统和可编程逻辑组件的不同角色的亮点。 (图片来源:iWave)

AMD ERNIC IP 有效地将 RoCE v2 堆栈卸载到 FPGA 上,并由 ERNIC 控制器管理各个模块之间的握手以促进数据传输。它生成工作队列条目并向 ERNIC IP 发送通知(门铃)。同时,Zynq UltraScale+ MPSoC 的 100G 以太网子系统管理 MAC 和物理层,而数据模式生成器则负责生成原始数据和视频数据模式。

精确时间协议(PTP)

PTP(IEEE 1588 标准)时间戳在以太网上跨系统同步时间方面发挥着至关重要的作用。这种同步对于增强实时应用程序的性能、实现纳秒级的同步和低延迟数据交换至关重要。

设置的主要亮点

该设置的显着特点包括:

  • 利用 AMD ERNIC IP 通过 RoCE v2 实施 100G 以太网
  • 可靠连接传输类型
  • 用于数据包处理的 RDMA SEND、RDMA READ 和 RDMA WRITE 功能
  • 支持 RDMA Send with Immediate 和 RDMA Write with Immediate 消息类型
  • 使用 XRPING 和 PERFTEST 应用程序进行 RDMA 性能测试
  • 用于 RAW 和视频数据模式的自定义数据模式生成器
  • 将 PTP 时间戳与数据一起插入

从 Zynq UltraScale+ MPSoC 开发套件到服务器 PC 的视频数据传输的详细吞吐量统计数据显示出令人印象深刻的性能,能够以超过 100 fps 的速度处理 8K 视频,以超过 400 fps 的速度处理 4K 视频。

潜在应用

RDMA over 融合以太网和 ERNIC IP 的集成为各个行业开辟了新途径,显着增强了一系列应用的连接性、性能和效率,包括:

  • 数据中心和云计算 :促进高效的服务器通信并加速云架构中的数据处理
  • 视频/图像捕获和传输 :有利于多媒体应用、广播和虚拟现实 (VR) 环境
  • 存储解决方案 :实现存储设备和服务器之间更快的数据传输,从而提高存储系统性能
  • 高性能计算 (HPC) :提高 HPC 集群内的数据传输速度并减少延迟,以加快计算任务和模拟速度
  • IoT Edge 设备 :实现传感器和设备的实时数据收集和传输

随着对更快、更高效的数据传输解决方案的需求不断增长,融合以太网上的 RDMA 和 ERNIC IP 有望在未来的高性能计算中发挥关键作用。

结论

iWave 广泛的 FPGA 和 SoC FPGA 平台产品组合与其深厚的技术专业知识相结合,使客户能够开发利用人工智能 (AI)、机器学习和边缘计算领域最新进展的尖端产品。通过与 iWave 合作,公司可以加快产品开发、降低风险,并在日益复杂的技术环境中保持竞争优势。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1656

    文章

    22288

    浏览量

    630378
  • 以太网
    +关注

    关注

    41

    文章

    5926

    浏览量

    179564
  • 数据传输
    +关注

    关注

    9

    文章

    2076

    浏览量

    67174
  • RDMA
    +关注

    关注

    0

    文章

    85

    浏览量

    9559
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RoCE与IB对比分析(一):协议栈层级篇

    在 AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于
    的头像 发表于 11-15 13:58 3221次阅读
    <b class='flag-5'>RoCE</b>与IB对比分析(一):协议栈层级篇

    RDMA简介1之RDMA开发必要性

    ,提供高通量、低延迟、远距离的零拷贝网络数据传输。基于融合以太网的远程直接内存访问(RoCE)提供了一种基于以太网
    发表于 06-03 14:38

    RDMA简介3之四种子协议对比

    RoCE v2报文。使用普通以太网交换机搭配IB网卡即可实现网络路由。iWARP:iWARP协议是基于TCP/IP协议的RDMA网络,能够工
    发表于 06-04 16:05

    RDMA over RoCE V2设计2:ip 整体框架设计考虑

    AXI-Lite 接口进行系统控制;AXI4 接口进行数据传输。在系统内部,根据功能划分为系统控制模块、融合以太网协议栈、以太网协议栈和 CMAC 集成块。以下为各功能模块的定义。 图1 RD
    发表于 07-16 08:51

    RDMA设计1:开发必要性1之设计考虑

    数据传输。 基于融合以太网的远程直接内存访问(RoCE) 提供了一种基于以太网RDMA 技术实现方法。与 IB(InfiniBand)
    发表于 11-19 14:30

    RDMA设计5:RoCE V2 IP架构

    数据传输;AXI-Lite 接口进行系统控制;AXI4 接口进行数据传输。在IP内部,根据功能划分为系统控制模块、融合以太网协议栈、以太网协议栈和 CMAC 集成块。以下为各功能模块的定义。 IP控制模块是实现系统功能
    发表于 11-25 10:34

    RDMA设计6:IP架构2

    专注高性能存储与传输,在本博客已给出相关博文已约80篇,希望对初学者有用。注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP设计。IP结构图融合以太网协议栈是实现 RoCE v2
    发表于 11-26 10:24

    万兆以太网和IP SAN的融合

    IP SAN存储融合到万兆以太网络中,将大大增加了IP SAN网络的通信带宽,提高主机访问存储的速度,同时由于以太网灵活易实施的特点,万兆
    的头像 发表于 01-24 15:16 3915次阅读

    用NVIDIA NetQ 4.0.0实现网络质量和可靠性监测

    聚合以太网上的 RDMA ( RoCE )提供了使用以太网上的远程直接内存访问( RDMA )而不是使用主机 cpu 来写入计算或存储元素的
    的头像 发表于 04-11 14:25 1824次阅读
    用NVIDIA NetQ 4.0.0实现<b class='flag-5'>网络</b>质量和可靠性监测

    数据中心以太网RDMA:超大规模环境下的问题

    我们观察到新兴的人工智能、高性能计算和存储工作负载对大规模数据中心网络提出了新的挑战。基于融合以太网RDMA协议(
    的头像 发表于 07-14 16:41 6216次阅读
    数据中心<b class='flag-5'>以太网</b>和<b class='flag-5'>RDMA</b>:超大规模环境下的问题

    什么是RDMA?什么是RoCE网络技术?

    在数据为王的时代,人们对网络的要求更加严苛。然而传统的TCP / IP以太网连接占用了大量的CPU资源,并且需要额外的数据处理,已无法再满足当前更快、更高效和可扩展性的网络需求。在这种情况下,
    的头像 发表于 07-24 17:40 9089次阅读
    什么是<b class='flag-5'>RDMA</b>?什么是<b class='flag-5'>RoCE</b><b class='flag-5'>网络</b>技术?

    HPC和数据中心融合网络面临的技术挑战

    随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA
    发表于 09-15 09:56 1594次阅读
    HPC和数据中心<b class='flag-5'>融合</b><b class='flag-5'>网络</b>面临的技术挑战

    以太网RDMA RoCE的技术局限

    上期我们讲到了RDMA的WHY,WHAT & HOW(AI网络背景下RDMA的Why,What & How),这一期我们来谈一谈RDMA的不足。
    的头像 发表于 10-22 10:02 2272次阅读
    <b class='flag-5'>以太网</b><b class='flag-5'>RDMA</b> <b class='flag-5'>RoCE</b>的技术局限

    以太网速率对网络性能的影响

    以太网作为最广泛使用的局域网技术之一,其速率的提高对网络性能有着直接的影响。从最初的10Mbps发展到今天的100Gbps甚至更高,以太网速率的提升带来了更快的数据传输速度和更高的
    的头像 发表于 11-08 09:11 1808次阅读

    RDMA over RoCE V2设计2:ip 整体设计考虑

    ;AXI4 接口进行数据传输。在系统内部,根据功能划分为系统控制模块、融合以太网协议栈、以太网协议栈和 CMAC 集成块。
    的头像 发表于 07-16 08:55 494次阅读
    <b class='flag-5'>RDMA</b> over <b class='flag-5'>RoCE</b> V2设计2:ip 整体设计考虑