0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用多个DPU实现云级架构

星星科技指导员 来源:NVIDIA 作者:Kevin Deierling 2022-04-19 15:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

区别SmartNIC 与数据处理器(DPU) 的依据是它的功能,而不是形态。对称为 SmartNICs 的一类数据中心智能网卡来说,它需要支持硬件传输和用于虚拟交换机加速的可编程数据路径。这些功能是必要的,但不足以使 其 成为 DPU 。一个真正的 DPU 还必须包括一个易于扩展的、 C语言编程的 Linux 环境,使数据中心架构师能够虚拟化云中的所有资源,并使它们看起来像本地资源。为了更好地理解为什么需要这样,让我们讨论一下­创建 DPU 的原因。

为什么世界需要 DPU

世界需要 DPU 的一个最重要原因是,目前的应用程序和数据中心的设计让 CPU 内核花费了太多的开销来支持网络功能。随着网络速度的提高(现在每条链路的速度高达 200gb / s ), CPU 使用了太多宝贵的内核来进行网络流量的分类、跟踪和控制。这些昂贵的 CPU 内核是为通用应用程序处理而设计的,最不值得的就是将它们用于网络数据包的查找和管理。毕竟,用CPU内核来分析数据并得到结果才是它们真正的价值所在。

计算虚拟化的引入使这种情况变得更糟,因为无论是在同一台服务器上运行的VM 或容器之间, 还是和其他的计算服务器或存储服务器之间,都需要更多的流量。软件定义存储( SDS )、超聚合基础设施( HCI )和大数据等的应用程序会增加服务器之间的东西向的通信流量,另外, RDMA 也通常被用来加速服务器之间的数据传输,这使得服务器对网络基础功能的处理要求更高。

随着通信量的增加和 VXLAN 、 NVGRE 或 GENEVE 等覆盖网络的使用,公共云和私有云越来越流行。但其需求的多层封装也进一步增加了网络的复杂性。软件定义的网络( SDN )带来了额外的数据包控制和处理的需求,这让 CPU 花费珍贵的内核来处理openvswitch ( OVS )等更多工作。

DPU 可以比标准 CPU 更快、更高效、更低的成本处理所有这些虚拟化的功能( SR-IOV 、 RDMA 、覆盖网络流量封装、 OVS 卸载)。

不可忽视的安全隔离

有时,出于安全原因,您需要将网络与 CPU 隔离开来。网络是黑客攻击或恶意软件入侵最有可能的载体,但也是你第一个发现或阻止黑客攻击的地方。它同时也是最有可能实现在线加密的地方。

DPU 作为特殊的 网卡 ,是检查网络流量、阻止攻击和加密传输的首选,最简单有效,既有性能优势,又有安全优势,因为它消除了将所有传入和传出的数据让CPU处理 并通过 PCIe 总线的频繁需要。它通过与主机CPU 分开运行来提供安全隔离。如果主机CPU 受损, DPU 仍然可以检测或阻止恶意活动。 DPU 可以在不立即涉及 CPU 的情况下检测或阻止攻击。

虚拟化存储和云

DPU 的一个较新用例是虚拟化软件定义的存储、超聚合基础设施和其他云资源。在虚拟化需求爆发之前,大多数服务器只运行本地存储,这并不总是高效的,但却很简单易行。每个操作系统、应用程序和 hypervisor 都知道如何使用本地存储。

然后是网络存储的兴起: SAN 、 NAS ,以及最近出现的 NVMe of Fabrics(NVMe-oF)。但是,并不是每个应用程序都是原生的并可感知 SAN。另外,一些操作系统和 hypervisor ,比如 Windows 和 VMware ,都还没有考虑到 NVMe-oF 。 DPU 可以支持虚拟化网络存储,即可以更高效也更易于管理,让虚拟化网络存储看起来就像本地存储,非常易于应用程序使用。一个 DPU 甚至可以虚拟化 GPU或其他神经网络处理器,这样任何服务器在需要时都可以通过网络访问任意数量的 GPU。

类似的DPU优势也适用于软件定义的存储和超聚合基础架构。两种架构传统上都使用管理层软件(通常作为 VM 或 hypervisor的一部分来运行)来虚拟化和抽象本地存储和网络,以使其可供集群中的其他服务器或客户端使用。这对于服务器的快速部署,及共享存储资源带来了极大的便利。然而,管理层和虚拟化占用了许多本应运行应用程序的 CPU 资源。更糟糕的是,网络带宽越大,存储速度越快,需要损耗的CPU 的资源就越多。

这也是智能 DPU 创造效率的地方。首先,它卸载并帮助虚拟化网络。它们加速了私有云和公共云,这就是为什么它们有时被称为 CloudNICs 。它们可以卸载网络和大部分甚至全部的存储虚拟化。 DPU 还可以减轻 SDS 和 HCI 的各种功能,如压缩、加密、重复数据消除、 RAID 、报告等。这一切都是为了把更昂贵的 CPU 内核送回它们最擅长的领域:运行应用程序。

图 1 。 DPU 是一种可编程的、专用的电子电路板,具有数据中心计算数据处理的硬件加速功能

必须有硬件加速

在介绍了主要的 DPU 用例之后,您应该已经清楚何时何地使用DPU会带来最大的好处:加速和卸载网络流量,虚拟化存储资源,通过网络共享 GPU, 以及支持 RDMA 和执行加解密。

那么 最优的DPU 需要具备什么?必须有硬件加速。 硬件加速提供了最好的性能和效率,这也意味着用更少的开销进行更多的卸载。为某些功能提供专用硬件的能力让采用DPU 的机会大大增加。

必须可编程

为了获得最佳性能,大多数加速功能必须在硬件上运行。为了获得最大的灵活性,这些功能的控制和编程必须在软件中运行。

在 DPU 上有许多功能可以编程,通常,特定的卸载方法、加密算法和传输机制不会有太大变化,但是路由规则、流表、加密的密钥和网络地址会一直会变化。前者是数据平面,后者是控制平面。数据平面规则和算法经过标准化后,可以被固化到芯片中。但控制平面规则和要求变化太快,无法固化,但可以在 FPGA 上运行(偶尔修改,但很困难),也可以在 支持C语言编程的 Linux 环境中运行(容易且可以经常修改)。

表 1 。 DPU 功能指南

在 DPU 上需要多少编程?

您可以选择在DPU 上有多少功能要由运行程序完成,也就是说,处理数据包的数据平面由DPU处理 (硬件加速或/和 开发的程序),同时, 用于设置和管理规则的控制平面,可以由用户决定是由DPU来全权处理,还是由位于其他地方的处理器,如 CPU来处理 。

例如,使用 Open vSwitch ,包交换可以在软件或硬件中完成,而控制平面则可以在 CPU 或 DPU 上运行。如果是常规的基础网卡,所有的交换和控制都必须由 CPU 上的软件完成。 使用 SmartNIC 时,交换在网卡的 ASIC 上运行,但控制仍必须在 CPU 上完成。 只有在真正的 DPU 中,交换是由DPU卡上的 ASIC完成,而控制平面也是在DPU包含的 Arm 内核上运行。

图 2 。 ConnectX-5 SmartNIC 卸载 OVS 切换到 NIC 硬件

DPU 和 SmartNIC 哪一个最好?

为了在数据中心充分实现应用程序的效率,传输卸载、可编程的数据平面以及用于虚拟交换的硬件卸载都是至关重要的功能。根据定义,支持这些功能是 SmartNIC 的重要部分,。但只是 DPU 的最基本要求之一, 并不能将 SmartNIC 提升到 DPU 的级别。

客户经常告诉我们,他们必须有 DPU,因为他们需要可编程的虚拟交换硬件加速支持。这主要是某些供应商的误导。如果某个供应商只能提供昂贵的、几乎无法编程的产品,他会告诉客户,“ DPU ”是实现这一目标的唯一方法。对我们来说,这种情况只需要我们的 ConnectX 系列的 SmartNIC 。

我觉得要将 SmartNIC 提升到 DPU 的高度,还需要支持更多的功能,比如能够运行控制平面,以及在 Linux 环境下提供 C 语言编程。我们很自豪地提供 BlueField DPU 来支持所有这些,它包括 ConnectX 的所有智能 网卡 功能,以及 4 到 16 个 64 位的 Arm 内核,当然,所有这些内核都运行 Linux ,并且易于编程。

在计划下一个基础架构的构建或更新时,请记住以下要点:

DPU 在卸载网络功能和虚拟化存储、网络和 GPU 等资源方面越来越有用

SmartNIC 可以在硬件中加速数据平面任务,但必须依靠host CPU来运行控制平面

控制平面软件和其他管理软件可以在常规 CPU 或 DPU 上运行。

NVIDIA 提供业界最佳的SmartNICs ( ConnectX )、 FPGA NIC ( Innova )和完全可编程并支持数据平面及控制平面 DPU s ( BlueField 可编程 DPU )。

关于作者

Kevin Deierling 从 2013 年 3 月开始担任 Mellanox 的营销副总裁。此前,他曾担任 Genia Technologies 的技术副总裁、 Silver Spring Networks 的首席架构师,并在 Spans Logic 负责营销和业务开发

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11327

    浏览量

    225888
  • Linux
    +关注

    关注

    88

    文章

    11817

    浏览量

    219549
  • 数据中心
    +关注

    关注

    18

    文章

    5767

    浏览量

    75205
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为架构大调整,波及千名员工,All in AI能否扭亏为盈

    电子发烧友网报道(文/黄山明)近日,有多家媒体报道,华为CEO张平安近期发文宣布将进行组织架构调整,多个部门将被裁撤整合,聚焦AI领域,超过上千名员工被波及。其中,有消息称,华为E
    的头像 发表于 08-26 09:22 7900次阅读

    2022全新版!Java分布式架构设计与开发实战(完结)

    表数据量突破千万大关,查询响应时间从毫秒骤降至秒甚至分钟,传统的单库单表架构已无法支撑海量数据的存储与访问需求。分库分表作为解决这一
    发表于 03-30 15:20

    RS485转WiFi串口数据采集透传终端技术架构实现原理

    架构、通信协议栈、数据透传机制及边端协同工作原理,为工业设备的无线化改造提供理论依据与技术参考。 2. 系统硬件架构设计 2.1 核心处理单元 终端采用高可靠性工业MCU作为主控核
    发表于 03-20 14:25

    TRENDS整合50多个系统,打造适配AI的制造业数据核心架构

    AI驱动自动化领域的领导者Boomi今日宣布,TRENDS Promotional Products采用Boomi企业平台,将50多个定制应用程序和传统系统整合为可扩展、适配AI的基础架构,助力企业
    的头像 发表于 02-10 16:18 1685次阅读

    中关村计算产业联盟党建交流活动在中科驭数圆满举办

    活动伊始,与会人员参观了中科驭数 DPU 展厅,深入了解 DPU 技术在计算领域的创新应用与发展前景。
    的头像 发表于 01-23 15:20 723次阅读

    基于DPU的智能盘框方案,华为如何大幅提升AI推理的效率?

    DPU
    脑极体
    发布于 :2026年01月20日 12:53:10

    定义企业智能化新路线:依托“边端”架构实现安全与韧性成长

    前言在全球AI创新浪潮中,中国已成为不可或缺的核心引擎。这为中国企业带来了利用先进AI技术重塑业务、实现全球化竞争的先发优势。然而,从技术尝鲜到收获红利,企业必须首先跨越从“上”到“深度用、高效
    的头像 发表于 12-16 09:24 666次阅读
    定义企业智能化新路线:依托“<b class='flag-5'>云</b>边端”<b class='flag-5'>架构</b>,<b class='flag-5'>实现</b>安全与韧性成长

    构建智能网基座:万店连锁药店网络架构升级实践

    前言随着计算、大数据、人工智能等技术在各行各业的深度应用,企业网络架构正面临着前所未有的变革压力。医药零售行业作为具有强监管、多分支、高并发特性的典型场景,其网络升级需求尤为迫切。药品监管政策
    的头像 发表于 11-12 09:59 767次阅读
    构建智能<b class='flag-5'>云</b>网基座:万店<b class='flag-5'>级</b>连锁药店网络<b class='flag-5'>架构</b>升级实践

    实现吉瓦灵活部署:维谛推出面向NVIDIA Omniverse DSX蓝图的快速交付系统参考架构

    维谛以针对NVIDIADSX蓝图的新一代吉瓦参考架构,持续强化其在AI基础设施领域的先发优势。基于预制式Vertiv™OneCore平台,新架构不仅实现了灵活的部署模式,更将“首次令
    的头像 发表于 11-07 15:18 757次阅读
    <b class='flag-5'>实现</b>吉瓦<b class='flag-5'>级</b>灵活部署:维谛推出面向NVIDIA Omniverse DSX蓝图的快速交付系统<b class='flag-5'>级</b>参考<b class='flag-5'>架构</b>

    RISC-V DPU,重塑数据中心算力格局?

    电子发烧友网综合报道 在现代数据中心架构中,数据处理单元(DPU)正迅速崛起为继 CPU 和 GPU 之后的第三颗核心芯片。DPU 专为数据密集型任务设计,通过卸载 CPU 的低效工作负载,如网络
    的头像 发表于 09-13 00:51 5046次阅读

    铁路巡检升级:翎智能高精度执法记录仪+指挥调度系统实现故障秒响应

    数据实时回传;结合AI智能调度算法,动态优化响应路径,将故障识别与资源调度效率提升至秒翎智能高精度巡检执法记录仪一、系统核心架构与技术实现高精度执法记录仪硬件
    的头像 发表于 07-29 22:37 920次阅读
    铁路巡检升级:<b class='flag-5'>云</b>翎智能高精度执法记录仪+指挥调度系统<b class='flag-5'>实现</b>故障秒<b class='flag-5'>级</b>响应

    MESH自组网赋能森林防火:翎智能无线自组网厘米定位与实时火情传输

    在森林防火的数字化革新中,翎智能以动态MESH自组网与北斗厘米定位技术为核心,构建了“无盲区、高精度、实时性”的应急通信体系。通过无中心动态组网、多模融合定位及宽窄带融合传输,其解决方案实现
    的头像 发表于 07-18 22:33 917次阅读
    MESH自组网赋能森林防火:<b class='flag-5'>云</b>翎智能无线自组网厘米<b class='flag-5'>级</b>定位与实时火情传输

    DPU核心技术论文再次登陆体系结构领域旗舰期刊《IEEE Transactions on Computers》

    能力,在降低了规模限制的硬件成本和设计周期的同时,又可通过软件编程实现不同功能的计算,具有较高的可扩展性和灵活性。中科驭数DPU芯片基于自研KPU架构设计。
    的头像 发表于 06-11 18:11 765次阅读
    <b class='flag-5'>DPU</b>核心技术论文再次登陆体系结构领域旗舰期刊《IEEE Transactions on Computers》

    第三届NVIDIA DPU黑客松开启报名

    碰撞的绝佳机会。本次竞赛采用开放式主题,参与者将通过 NVIDIA DOCA 软件框架构建创新的加速应用程序,充分挖掘 NVIDIA BlueField DPU 在 AI、网络、存储和安全等领域的强大潜能。
    的头像 发表于 05-27 10:16 1011次阅读

    多模融合,秒响应-翎智能应急指挥箱打造全域指挥“移动中枢”

    翎智能应急指挥终端是一款面向应急指挥场景研发的移动化、智能化终端设备,通过多模态通信技术融合、高精度定位、AI智能分析等技术手段,实现“多模融合,秒响应”的核心能力,成为覆盖全域场景的应急指挥
    的头像 发表于 04-29 18:01 972次阅读
    多模融合,秒<b class='flag-5'>级</b>响应-<b class='flag-5'>云</b>翎智能应急指挥箱打造全域指挥“移动中枢”