0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA BlueField DPU助力数据中心不断变化的需求

星星科技指导员 来源:NVIDIA 作者:John Kim 2022-04-14 16:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当今的数据中心正在迅速地发展,这就需要一种被称为DPU(数据处理器)的新型处理器。新数据中心的一些应用需要的是一种可卸载、加速和隔离的特定类型DPU架构。8月23日,在Hot Chips 33大会上,NVIDIA芯片架构师Idan Burstein探讨了数据中心不断变化的需求,以及这些需求如何推动NVIDIA BlueField DPU系列产品的架构。

为何需要DPU?

以前的数据中心需在专用服务器集群上独自运行应用,现如今已不同从前。现在,CPU计算、GPU计算和存储等资源已被解聚,可以根据需求将资源组合(分配和组装),还可以根据应用和工作负载的变化对资源进行重新组合或重新分配。

GPU加速的AI正在成为主流,其增强了大量的商业应用,而不仅仅是科学应用。以虚拟化为主的服务器,现在很可能是在裸金属服务器上的容器中运行,尽管这些服务器不再有管理程序或虚拟机,其仍然需要软件定义的基础设施。为支持保证信息安全的零信任方法,防火墙代理和反恶意软件过滤器等网络安全工具必须在每台服务器上运行。这些变化对网络、安全和管理所需的工作方式产生了巨大影响,进而推动了每台服务器对DPU的需求。

DPU任务的最佳定义:卸载、加速和隔离基础设施应用。

卸载:从服务器CPU中接管基础设施任务,这样就可以让尽可能多的CPU计算能力来运行应用。

加速:运用DPU芯片硬件中的加速,以比CPU更快的速度运行基础设施功能。

隔离:将关键的数据面和控制面功能转移到DPU上,这既减轻CPU的工作,同时还可以在CPU或其软件被破坏时保护这些功能。

一个DPU需要具备完成以上三个任务的能力。

poYBAGJX2PWAQ25UAAEqqbk2tEE887.png

图1:数据中心已发展成为软件定义、容器化和可组合的特性。卸载基础设施任务至DPU可提高服务器性能,效率与安全。

仅移动CPU核是不够的

一些DPU厂商所尝试的一种方法是,在DPU上放置大量的CPU核以用于卸载服务器CPU的应用。无论是ArmRISC、X86还是其他类型的CPU核,这种方法都具有根本缺陷,因为服务器的CPU或GPU对于CPU最优或GPU最优的应用已是高效的。虽然DPU上的Arm(或RISC及其他)核确实可能比一般的服务器CPU更节能,但除非Arm核有一个用于该特定应用的加速器,否则不值得为了节能而增加复杂性。

此外,目前市面上已出现基于Arm CPU的服务器,例如基于Amazon EC2 Graviton的实例、Oracle A1 实例,基于Ampere Computing 的Altra CPU,以及Fujitsu的 A64FX CPU的服务器。在Arm上高效运行的应用,均可部署在Arm服务器上。只有在某些功能必须与服务器 CPU 隔离的情况下,例如控制平面或基础设施应用程序的一部分,才需要移动到DPU的Arm核上。

无论从技术角度出发,还是从经济角度出发,将一个标准应用的工作负载从服务器的N个X86核卸载到N个或2N个DPU的Arm 核上都毫无意义。将AI或机器学习应用从服务器GPU卸载到DPU的Arm核上亦是如此。将应用从服务器的CPU和GPU转移到DPU的CPU上,并且不进行任何类型的加速的举动,充其量只是虚晃,最坏的情况还会降低服务器的性能和效率。

pYYBAGJX2P2ABeDNAADjiUBBcBo341.png

图2:将应用从服务器的CPU转移到无加速DPU的CPU核上,除了满足将这些应用与CPU服务器域中隔离的需求外,其他场景都毫无益处。

DPU最适合的加速类型

很明显,一个合适的DPU必须通过硬件加速来增加数据中心的最大效益。它应该加速什么?卸载涉及数据移动和安全性的应用,DPU是最佳选择。 例如,网络与远程直接内存访问 (RDMA) 都最适合卸载到 DPU 芯片,RDMA常用于加速 AI、HPC、大数据和存储应用的服务器之间的数据移动。

对比CPU,如果DPU 具有针对特定任务的加速硬件,卸载和运行效率将会提高很多。 若应用满足于 DPU 的硬件加速能力时,一个设计合理的 DPU 可以执行 30个、100个 甚至 是300 个 CPU 的工作。

DPU 的 CPU 核非常适合运行必须与服务器应用程序,以及操作系统域隔离开的控制平面,或安全应用。 例如,在裸金属服务器中,租户不希望在他们的服务器上运行管理程序,或虚拟机来进行远程管理、遥测或安全,因为这会损害性能,或干扰到应用程序。 然而,云运营商仍然需要能够监控服务器的性能并检测、阻止或隔离入侵该服务器的安全威胁。

DPU 可以独立于应用程序域来运行此软件,提供安全和控制,同时不干扰服务器的性能或操作。

关于作者

John Kim 是 NVIDIA 网络事业部的存储市场总监,致力于帮助客户和供应商从高性能网络连接、智能网卡卸载和远程直接数据存取 (RDMA) 中获益,尤其是在存储、大数据和人工智能领域。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11329

    浏览量

    225903
  • NVIDIA
    +关注

    关注

    14

    文章

    5690

    浏览量

    110118
  • 服务器
    +关注

    关注

    14

    文章

    10362

    浏览量

    91760
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出BlueField-4 STX存储架构

    NVIDIA 今日宣布推出 NVIDIA BlueField-4® STX 模块化参考架构,该架构可助力企业、云计算及 AI 服务商轻松部署加速存储基础设施,以满足代理式 AI 所需的
    的头像 发表于 03-18 14:40 282次阅读

    微软Azure数据中心国际版全面对接NVIDIA Rubin平台

    2026年CES大会见证了NVIDIA Rubin问世,而微软Azure数据中心(国际版)凭借前瞻战略已实现全面对接。通过在散热与网络领域的超前布局,Azure(国际版)将系统化方法与Rubin架构
    的头像 发表于 03-03 09:56 530次阅读

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    NVIDIA BlueField-4数据处理器重塑新型AI原生存储基础设施

    NVIDIA 宣布,NVIDIA BlueField®-4 数据处理器作为全栈 NVIDIA BlueF
    的头像 发表于 01-09 10:33 643次阅读

    德州仪器如何满足AI数据中心日益增长的电力需求

    生成式 AI 的兴起,正将数据中心的电力需求推向前所未有的高度。了解下一代 800VDC 电源架构如何助力直面这些挑战。
    的头像 发表于 12-15 09:52 986次阅读

    Power Integrations高压PowiGaN技术助力新兴800VDC数据中心总线架构发展

    Power Integrations正利用其高压PowiGaN技术,助力新兴800VDC数据中心总线架构的发展。作为已实现量产1250V和1700V高压GaN开关的重点供应商,PI正与NVIDIA合作,加速推动向800VDC供电
    的头像 发表于 11-20 16:49 1565次阅读

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和
    的头像 发表于 11-03 14:48 1220次阅读

    基于NVIDIA BlueField DPU的5G UPF数据面加速方案

    在第三届 NVIDIA DPU 黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
    的头像 发表于 09-04 11:26 1396次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量,均可通过智能
    发表于 08-13 19:01

    高性能开关在快速发展的数据中心的应用

    随着电信和数据中心的扩展,更多设备安装在机架中以满足不断提升的基础设施要求   如今的数字网络有着大量的流量和数据存储需求。从医疗到财务记录等传统
    的头像 发表于 08-04 11:23 2.2w次阅读
    高性能开关在快速发展的<b class='flag-5'>数据中心</b>的应用

    简单认识安森美AI数据中心电源解决方案

    面对AI算力需求爆发式增长,数据中心电力系统正面临前所未有的挑战。安森美(onsemi)推出的AI数据中心电源解决方案,直击能效、尺寸等痛点,助力客户把握
    的头像 发表于 07-05 13:03 3750次阅读
    简单认识安森美AI<b class='flag-5'>数据中心</b>电源解决方案

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是为中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供计算、存储和网络服务的设施。与大型数据中心相比,小型
    发表于 06-11 13:37

    第三届NVIDIA DPU黑客松开启报名

    碰撞的绝佳机会。本次竞赛采用开放式主题,参与者将通过 NVIDIA DOCA 软件框架构建创新的加速应用程序,充分挖掘 NVIDIA BlueField DPU 在 AI、网络、存储和
    的头像 发表于 05-27 10:16 1016次阅读

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案。
    的头像 发表于 05-22 09:50 1177次阅读

    数据中心液冷技术和风冷技术的比较

    近年来,随着数字经济的蓬勃发展,数据中心建设规模不断扩大,导致机房单位面积功耗居高不下,对数据中心散热制冷技术提出了更高的要求。同时,根据国家对数据中心的节能要求,全国范围内新建
    的头像 发表于 05-09 09:41 4660次阅读
    <b class='flag-5'>数据中心</b>液冷技术和风冷技术的比较