0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在不同应用场景下DPU不同的性能要求阐述

SDNLAB 来源:SDNLAB 2023-08-09 16:40 次阅读

DPU本质上是通过DPU卡上资源,解耦计算、控制、存储,利用CPUGPUFPGA加速器等异构处理单元,通过以智能卡为接口网络实现高效的数据分发和调度。市面上流行的DPU产品基本上都实现了3类功能卸载,包括网络功能卸载、存储功能卸载、安全服务卸载。

DPU网卡直接将数据送达GPU和虚拟机CPU,时延3~4微秒。同时DPU卡通过自身的加速模块,实现了数据处理效率的提升,控制能力的卸载。从某种角度来看,DPU 是一个强IO型的板卡系统,其IO带宽几乎与网络带宽等同,能够直接进行数据内容处理,以及复杂计算。

e6c2abf4-368f-11ee-9e74-dac502259ad0.png

| DPU功能示意图

DPU通用架构

通常,DPU板卡包括控制平面、数据平面及接口平面三个组成部分。

e70724d2-368f-11ee-9e74-dac502259ad0.png

| DPU参考架构

控制平面

控制平面负责DPU网卡的运行管理、计算任务和计算资源的配置,以及虚拟机的管理。控制平面通常由通用处理器核来实现,如ARM、MIPS等,运行标准Linux系统。控制平面与数据平面交互的驱动程序进行了深度优化,以提升数据交互、任务调度效率。控制平面的主要功能包括运行管理、计算任务和计算资源配置、虚拟机管理等功能。

# 运行管理

运行管理包括设备的安全管理和实时监控。安全管理模块包括信任根、安全启动、安全固件升级以及基于身份验证的容器和应用的生命周期管理。实时监控模块动态监测DPU各子系统、各处理核,实时监测流量,记录设备访问日志。

# 计算任务和计算资源配置

根据计算任务实时配置处理单元间的通道,以及各处理单元参数。根据处理单元资源利用情况实时调度任务。

# 虚拟机管理

卸载虚拟机管理,隔离数据和资源,记录运行状态,通过vDPA(Virtual Data Path Acceleration)框架等技术协助虚拟机热迁移。

数据平面

数据平面负责高速数据包处理、虚拟化协议加速、安全加密、流量压缩、算法加速等功能。

# 高速数据包处理

OvS解析、匹配和处理,RDMA远程数据传输加速,处理带宽达到100Gbps、200Gbps、400Gbps,具备有状态数据处理能力,能够记录各连接信息,能够在多连接间无缝切换。

#虚拟化协议加速

支持SR-IOV、VirtIO、PV加速,支持VxLAN、Geneve Overlay卸载、VTEP卸载。

# 安全加解密

IPSec和TLS加解密加速,安全算法加密。

#流量压缩

实时压缩/解压缩数据,加速地址转换和地址重映射、数据流变换。如面向多媒体流、CDN和4K/8K 视频的 流量整形加速等

# 其他算法加速

NVMe 存储协议、大数据分析SQL加速。

接口平面

接口平面包括三个方面系统接口平面、网络接口平面、主存接口平面。

系统接口平面

主要负责DPU与其他处理平台(如X86、ARM、GPU、FPGA等)或高速外部设备(SSD等)的集成。DPU板卡数据传输量大,带宽要求高,通常基于PCIe实现接口平面,可以分为EP(Endpoint)类和RC(Root Complex)类两种。EP类接口 DPU作为其他处理平台的从设备。

支持硬件设备虚拟化功能,如SR-IOV和VirtIO,并且可以灵活地支持多种类型的设备,如NIC、Storage、Compute等。RC类接口 DPU作为主设备与加速平台或外设连接。部分数据处理卸载到第三方加速平台,支持DMA方案。

网络接口平面

负责DPU与网络的相连,以以太网接口、FC接口为主。通常需要借助专门的网络协议处理核加速网络包的处理。包括:L2/L3/L4层的ARP/IP/TCP/UDP网络协议处理、RDMA、数据包交换协议、网络虚拟化协议,实现100G以上的网络包线速处理。

主存接口平面

是DPU与缓存的接口。缓存用于存储数据平面的中间结果,实现处理核之间的数据通信,包括DDR和HBM接口类型;其中DDR可以提供大容量缓存(512GB以上);HBM可以提供大存储带宽(500GB/s以上)。

DPU的架构设计

DPU的多种架构的设计主要是指DPU 数据平面的设计。

在DPU的组成框架中,控制平面主要用作CPU的卸载,数据平面则是用作各种专用功能、算法的加速。控制平面通常借助通用服务器实现。数据平面包含了各种专用的处理核,以及可编程的处理模块,提升数据的处理速率。以应用特征为依据,可以把应用分为“IO密集型”和“计算密集型”两类。

IO密集型应用有较高的输入和输出带宽,数据直接来自于IO,具备流式特征,要求线性处理,如路由转发应用、数据加密应用、压缩应用等。

IO密集型处理器芯片的构建方式:以CPU或者专用加速器为核心构造主体计算架构,前者可称之为控制中心模式,后者为数据中心模式。DPU偏向于数据为中心的结构,集成了更多类别的专用加速器,在获得机制性能的同时牺牲了指令灵活性。

DPU要处理更多的网络IO,包括外部以太网、内部虚拟IO。同时DPU通常也会配置少数通用核(如ARM、MIPS)等来处理一定的控制面任务,通过运行轻量级的操作系统来管理DPU上的异构核资源。

# 数据平面是DPU设计的关键,数据平面通常需要解决4类问题:

1.异构处理核多,需要解决处理核之间的功能解耦、协同配合问题,需要妥善处理好网络、存储、安全、虚拟化、业务的卸载加速。

2.高并发的数据处理,并行计算、并行数据流,核心数量众多,规模通常达到几百个。

3.片上互联问题,包括处理核之间的数据互联,核间的数据一致性问题。

4.高效易用的编程方式。

构成DPU的处理核包括GPU、FPGA、ASIC、NP、类脑芯片。

GPU(Graphics Processing Unit)图形处理器。在浮点运算、并行计算方面,GPU可以提供优秀的性能,执行类型高度统一的、相互吴以来的大规模数据处理效率高。GPU中逻辑运算单元(ALU)多,控制器功能简单,缓存少,擅长高强度的并行计算。GPU可以将大规模、非结构化的数据分解成独立模块,分配给各个流处理集群(SMM)。每个流处理集群再次把数据分解,分配给调度器,调度器将任务放入自身所控制的计算核心core中,完成最终的数据处理任务。

FPGA(Field Programmable Gate Array):是在PAL、GAL、CPLD等可编程期间的基础上发展起来,作为专用集成电路领域中的一种半定制电路而出现,解决了定制电路的不足,无指令、无需共享内存。寄存器和片上内存由各自的控制逻辑,不需要仲裁和缓存。通过编程可定义单元配置和链接架构,具有较强的灵活性。流水线并行和数据并行,实时性最强,灵活性最高。但是只适合定点运算。FPGA内部有很多可配置逻辑模块(CLB),通过对CLB的配置来实现逻辑功能。FPGA带有丰富的片上存储资源,可以大大减少访问时延(访问DRAM存储大约是访问寄存器存储延迟的几百倍以上)。FPGA可硬件编程,可进行静态重复编程和动态系统重配置。

ASIC(Application Specific Integrated Circuit):根据产品的需求进行特定设计和制造的集成电路,能够在特定功能上进行强化,具有更高的处理速度和更低的能耗。但是研发成本高,研发投入周期长,只有用量足够大时才能够分摊前期投入,降低成本。

NP芯片由微码处理器和协处理器组成,多个微码处理器并行运行,可以通过编制微码控制处理流程。复杂的标准操作,如内存操作、路由表查找、QoS拥塞控制、流量调度采用硬件协处理器来提高处理性能。NP芯片具有丰富的高速I/O接口,包括物理链路接口、交换接口、存储器接口、PCI/PCIE总线接口等,通过内部高速总线连接在一起,具有很强的硬件并行处理能力。

类脑芯片:类人脑芯片架构是基于神经形态的架构,模拟人脑处理过程,感知世界、处理问题。此类架构芯片功能类似于大脑袋额神经突触,处理器类似于神经元,而其通讯系统类似于神经纤维。通过神经元网络系统,计算机可以感知、记忆和处理大量不同的信息。类脑芯片有望形成自主认知的新形势,突破传统计算机体系结构的限制,实现数据并行传送、分布式处理,以极低功耗实时处理大量数据。

SoC架构:基于多核SoC的DPU使用大量嵌入式CPU核来处理分组,可编程性比ASIC好,可以使用标准的DPDK代码在linux环境中运行。但是在40Gb以上的高带宽场景,CPU核数显著增加,数据包处理的复杂度提升,效率降低,且延时增大。对于有状态的数据流往往只映射到一个CPU核心/线程,以防止状态共享和单流中的无序处理。

众观市面流行的DPU型板卡,实现各不相同。Intel IPU Oak Springs Canyon基于Agilex FPGA和Xeon-D CPU实现。Intel IPU(Mount Evans)基于ASIC实现,通过PCIe链接4个Xeon处理器,加速引擎包含:vSwitch、防火墙、虚拟路由、NVMe、QAT(量化感知)。Xilinx的 Alveo系列加速卡,融合了FPGA、MP SoC和ACAP。这些DPU处理场景各有侧重,难以形成有效比较。

各类实现方式的性能比较

DPU与CPU、GPU等处理芯片构成统一的计算平台,高效支撑已有应用,并为未来应用提供必要的运行基础。对于DPU在网络、存储、计算、安全方面的加速性能,《专用数据处理器(DPU)性能基准评测方法与实现》中提出了对DPU的评测标准,可以归纳为:

网络能力

表项(会话)规模,表征DPU网络支撑节点规模能力。

吞吐能力,表征DPU网络数据包的转发处理能力。

建表性能,表征DPU支持并发会话或路由学习的能力。

时延性能,表征DPU转发处理数据包的效率。

网络可观测能力,表征DPU的统计和遥测能力。

确定性网络能力,表征DPU网络的可靠数据传输能力。

存储能力

DPU上存储加速卸载的主要场景是NVMe-oF。

NVMe-oF存储的I/O读写能力,表征DPU存储的读写能力。

NVMe-oF存储的吞吐能力。

NVMe-oF存储的时延性能,表征DPU存储的数据读写和传输效率。

NVMe-oF存储的QoS能力,表征DPU存储的可靠I/O读写能力。

计算能力

计算能力包括大数据计算加速、ML/AI算法加速和视频编解码等。

计算业务的吞吐能力,表征DPU计算业务处理能力。

计算业务的时延性能,表征DPU计算业务处理效率。

计算业务的并行处理能力,表征DPU并行处理能力。

计算业务的能效比,表征DPU计算业务处理效能。

安全能力

安全策略规模,表征DPU上支持的安全策略规模。

安全业务的吞吐能力,表征DPU加解密和安全过滤匹配查询的能力。

安全业务的时延性能,表征DPU安全处理的效率和效能。

安全业务的并发会话规模,表征DPU安全并行处理能力。

不同厂商的DPU定位不同、功能各有差异,网络、存储、计算、安全、管理各有所侧重。作为最终用户,必须首先明确自身需求,在此基础上,选择合适的测试指标体系和具体的测试模型,才能对同类产品有比较清晰的了解。

不同应用场景的性能要求

随着云技术、5G等技术的发展,DPU将在云网络、存储、安全、电信与边缘计算等场景广泛应用。

云网络应用场景

云网络场景具体包括网络功能卸载,包括虚拟交换机功能的卸载、虚拟主机接口的硬件加速、网络协议的卸载。虚拟交换机卸载,解决报文头分析,L2/L3转发策略、Overlay网络报文封装/解封装。

虚拟主机接口的硬件加速,为虚拟主机提供virtion-net硬件接口,提升网络I/O性能。RDMA/RoCEv2卸载实现NVMe-oF协议卸载,在target端,对NVMe、RDMA、TCP等协议进行硬件加速,在initiator端,通过PCIe的P2P机制在网络接口和其他PCIe设备之间构建快速通道。

存储接口的硬件加速:将virtio-blk接口硬件化,virtio-blk或者NVMe接口通过SPDK和远端的存储节点进行对接,也可以直接对接DPU上的存储设备。存储应用的卸载卸载SPDK,提供vhost-blk、vhost-nvme-vhost-scsi Target等组件,通过减少VM事件数目,实现对virtio-blk、 KernelNative NVMe、SCSI驱动的加速。Service Mesh卸载卸载服务之间的网络调用、限流、熔断和监控。

存储应用场景

存储应用场景通过DPU卸载存储,统一管控和运维存储资源,提供硬件级别的QoS服务,对服务器呈现虚拟的virtio-blk,虚拟的NVMe等PCIe存储设备,为服务器提供提供统一的存储设备,同时支持裸金属、虚拟和容器场景。DPU统一管理内置存储、DAS存储、SAN存储,卸载本地存储协议和网络存储协议,实现存储的统一管理。提供基于设备层面的数据加解密、数据完整性校验、数据压缩解压缩等功能。

安全应用场景

安全应用场景通过DPU实现基于信任根的安全启动,实现数据传输安全、存储安全。DPU卸载零侵入管控组件,提供从硬件到软件各个层次的安全保证。基于信任根的安全启动,可编程实现的分布式防火墙、数据传输安全、数据存储安全。DPU中的一次性非易失性存储区中存放公钥,作为安全启动的可信根计算基础。在DPU固件法布施,采用数字签名系统的私钥进行加密。安全启动时,采用逐级验签的方式,确保系统固件的安全性、可靠性。防火墙卸载,支持租户定义自身的防火墙过滤规则,保护面向互联网的工作负载和VM之间的流量,隔离租户本地网络与服务提供商的虚拟网络。

DPU支持虚拟机数据传输加密,通过卸载IPSec VPN,识别VM流量,触发IPSec IKE协议和目的端协商,完成身份认证和加密参数协商,建立隧道。DPU支持RPC调用数据传输加密,主要指基于TLS协议的HTTP,HTTP2协议。DPU卸载存储数据的加解密功能,通过识别租户远端云盘访问请求,启动存储加解密引擎,加密写入云盘的数据,解密从云端读取的数据,实现存储安全。

电信与边缘计算场景

在电信与边缘计算应用场景下,DPU应用于云RAN、虚拟化边缘网关、VNF加速、边缘微服务器等多个环节,可以实现UPF-U(用户数据面)卸载,保证QoS、时延和带宽,可以卸载N3接口(采用GTP-U协议进行用户数据的隧道传输),N4接口中传输SMF需要通过UPF接收或发送的报文,以及N6接口。UPF或者SDN控制器向DPU下发rte-flow规则实现UPF-U的硬件卸载。此外,为了满足UPF的管理要求,DPU通过开放自动化管控接口,实现了资源的统一调配。

小 结

DPU逐渐应用于云网络、存储、安全、电信与边缘计算等场景,不同应用场景对DPU的要求不尽相同,因而要给出通用化DPU的性能、功能比较非常困难。在实际的应用中,建议结合具体应用场景,针对特定方向进行比较,选择最优性价比的产品。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18288

    浏览量

    222167
  • FPGA
    +关注

    关注

    1602

    文章

    21326

    浏览量

    593216
  • 加速器
    +关注

    关注

    2

    文章

    744

    浏览量

    36600
  • DPU
    DPU
    +关注

    关注

    0

    文章

    294

    浏览量

    23967
  • 虚拟机
    +关注

    关注

    1

    文章

    855

    浏览量

    27378

原文标题:DPU从炒作到应用:不同场景的性能要求

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NanoEdge AI的技术原理、应用场景及优势

    、NanoEdge AI 具有以下优势: - 低延迟:由于数据处理任务设备本地完成,因此 NanoEdge AI 可以实现较低的延迟,满足实时性要求较高的应用场景。 - 高安全性:将数据处理任务保留在设备本地
    发表于 03-12 08:09

    AG32VF-MIPI应用场景

    MIPI接口技术图像和视频传输中的应用越来越广泛,应用场景不断拓展,而不仅限于移动设备。MIPI接口物联网、智能家居、智能监控、智能电视、智能汽车等领域也得到广泛应用。 MI
    发表于 01-22 08:56

    《数据处理器:DPU编程入门》DPU计算入门书籍测评

    ,国内国外两股部队都在朝着超大规模计算部署。而专用处理器大规模处理上带来的经济和效率优势是通用计算不可比拟的。DPU云计算中高性能,高功耗的特点将会完美符合机房设备的特征。也称为需
    发表于 12-24 10:54

    《数据处理器:DPU编程入门》读书笔记

    首先感谢电子发烧友论坛提供的试读机会。 第一周先阅读了DPU的技术发展背景,了解到DPU是结合了高性能及软件可编程的多核CPU、高性能网络接口,以及各种灵活和可编程的加速引擎。
    发表于 12-21 10:47

    《数据处理器:DPU编程入门》+初步熟悉这本书的结构和主要内容

    之一。随着人们对云计算和大数据处理需求的增加,数据中心的计算负载也不断增加。传统的中央处理器(CPU)处理这些工作负载时可能会遇到瓶颈,难以提供足够的性能和效率。DPU通过提供专门的硬件加速,可以
    发表于 12-08 18:03

    什么是DPU

    DPU:专注于数据处理 如果想通过蛮力性能上击败传统的x86 CPU,结果注定会失败,这样做既没有竞争力,也无法扩展。如果说一个x86 CPU尚且无法以每秒100 Gbit的速度处理数据包,如何能
    发表于 11-03 10:55

    labview 和 wincc 的区别 使用场景

    labview 和 wincc 的区别 使用场景 都是上位机软件,都可以做监控软件 wincc的名气也比较大 对比的资料较少 写这些文章的人,从自己的从事的行业出发,带有自己的思维 使用的场景 肯定
    发表于 10-27 18:01

    【书籍评测活动NO.23】数据处理器:DPU编程入门

    的网络、存储、安全应用与服务 多位业内专家一致推荐 DPU 的典型应用场景 本书结构导图 作者简介 NVIDIA 技术服务(北京)有限公司是 NVIDIA 中国投资的全资子公司。自1993年成
    发表于 10-24 15:21

    【华秋干货铺】SMT组装工艺流程的应用场景

    工艺流程的应用场景。 01单面纯贴片工艺 应用场景: 仅在一面有需要焊接的贴片器件。 02双面纯贴片工艺 应用场景: A/B面均为贴片元件。 03单面混装工艺 应用场景: A面有贴
    发表于 10-20 10:33

    SMT组装工艺流程的应用场景

    工艺流程的应用场景。 01单面纯贴片工艺 应用场景: 仅在一面有需要焊接的贴片器件。 02双面纯贴片工艺 应用场景: A/B面均为贴片元件。 03单面混装工艺 应用场景: A面有贴
    发表于 10-20 10:31

    SMT组装工艺流程的应用场景(多图)

    工艺流程的应用场景。 一、单面纯贴片工艺 应用场景: 仅在一面有需要焊接的贴片器件。 二、双面纯贴片工艺 应用场景: A/B面均为贴片元件。 三、单面混装工艺 应用场景: A面有
    发表于 10-17 18:10

    直线模组的应用场景

    直线模组的应用场景
    的头像 发表于 10-09 17:36 592次阅读
    直线模组的应<b class='flag-5'>用场景</b>

    【KV260视觉入门套件试用体验】部署DPU镜像并开发一个图像识别程序

    任务上。 更轻量级的模型:TF-YOLOv3.5使用了较少的参数和较小的模型尺寸,这使得它在资源受限的设备上表现更好。 更强的泛化能力:TF-YOLOv3.5多个场景都能表现出较好的泛化能力
    发表于 09-18 14:15

    特锐祥贴片Y电容的技术参数、性能特点以及应用场景

    特锐祥是一家拥有丰富经验的电子元件供应商,其推出的特锐祥贴片Y电容是一款高性能的电容器件。今天弗瑞鑫小编将详细介绍特锐祥贴片Y电容的技术参数、性能特点以及应用场景
    的头像 发表于 06-29 17:33 419次阅读

    蓝牙多连接应用场景举例

    最多允许10****路外设接入; 三、实际应用场景举例: 3-1、 家居照明 场景:通过****APP 或者网关能够控制家庭中的每一盏或者多盏灯,即实现单播和组播,且对一致性要求较高,且不用考虑功耗
    发表于 05-09 09:09