0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达网络 2024-05-29 09:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA DOCA 加速框架开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。DOCA 2.7是一个全面且功能丰富的版本,进一步拓展了 DOCA 软件框架的范围和价值,它提供了几个新的库、一站式应用和功能齐全的服务。

DOCA 2.7 扩展了 BlueField DPU 在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心,并加速了 NVIDIA Spectrum-X 网络平台,为 AI 工作负载提供了卓越的性能。

本文将详细介绍该版本的以下亮点:

借助 BlueField-3 SuperNIC 支持 Spectrum-X RA 1.0.1

DOCA PCC、DOCA Flow 和 OVS DOCA 增强功能

更新的 AI 云流量加密 – IPsec 功能的发布、PSP 功能的支持(测试版)

新的 DOCA 库

DOCA 服务增强功能

新增的 DOCA 管理服务(DMS)

借助 BlueField-3 SuperNIC 的

NVIDIA Spectrum-X RA 1.0.1

DOCA 2.7 为以太网 AI 云部署启用了NVIDIA Spectrum-X 1.0.1(SPC-X 1.0.1)参考架构。此架构经过严格测试,并优化了 BlueField SuperNIC 和 Spectrum SN5600 交换机的功能,可加速和管理 AI 集群中的东西向以太网流量。

适用于 BlueField-3 SuperNIC 的 DOCA 2.7 的新功能包括:

使用自动态路由和 DOCA 可编程拥塞控制(PCC)的无损 RoCE

DOCA-PCC 针对在 SPC-X 1.0.1 上运行的 AI 工作负载进行了优化

BlueField SuperNIC 默认为 NIC 模式

目前,此架构正在被多个 AI 云 CSP 广泛采用。

DOCA-PCC

DOCA PCC 库提供了高级编程接口,使您能够实现自己定制的拥塞控制(CC)算法。该库利用 NVIDIA BlueField-3 SuperNIC 加速来管理 CC,并提供可简化硬件复杂性的 API,从而使您能够专注于 CC 算法的功能实现。

DOCA PCC 还提供了开发最佳解决方案的灵活性,以处理和避免集群中的网络拥塞。每个网络都是不同的,并非所有网络都可以使用标准的现有拥塞控制解决方案。定制的拥塞控制对于 AI 工作流程至关重要,能够实现性能隔离、提高公平性和持续的低时延,同时防止在无损网络上发生丢包。

DOCA 2.7 提供了一系列旨在优化拥塞控制的功能。这些功能有助于监控网络性能、诊断问题和收集遥测数据。例如,在发生拥塞相关事件时,可以使用 Notification Point (NP)可编程性触发警报或操作。DOCA 2.7 还支持多个探针数据包,用于监控和遥测的数据包,以及增强网络可见性。

虽然这些功能不仅限于拥塞控制,但它们有助于诊断与拥塞相关的问题并改善整体网络运行状况。此外,通过监控 Spectrum 交换机可以获得的其他遥测信息,例如端口速度容量信息可以降低端口超额认购的可能性。跟踪网卡(端点)端口发送/接收(Tx/Rx)的字节有助于揭示拥塞的模式。

VirtIO-net 设备

DOCA 2.7 现在可为BlueField-3 DPU提供高达 2000 个功能 VirtIO-net 设备。此能力非常适合需要许多可用的低容量和低使用率活动设备(例如,需要网页访问多个端点)的情况。采用公共云/私有云的 CSP 和企业可以使用此功能来帮助扩展多租户环境。

DOCA Flow

DOCA Flow 提供了构建块来简化软件定义网络和软件定义安全相关的网络应用程序开发,从而将这些功能卸载、加速和隔离到 BlueField-3 DPU。作为用于卸载和加速网络转向流水线的转向库,DOCA Flow 实现了软件定义网络(SDN)服务的快速流水线可编程性。

DOCA 2.7 新增的 DOCA Flow 功能包括:

DOCA 连接跟踪(CT),可提高流水线的性能、效率和灵活性

用于调试的 DOCA Flow 流水线可视化 (Alpha)

LPM 管道增强,支持基于 VLAN 的流量

作为 DOCA 开发的核心,对 DOCA Flow 的变更专注于提高功能性能和用户体验,借助 DOCA-FLOW 应用程序实现更大规模和更好的性能,并为 DOCA-FLOW 开发者提供调试和性能工具。

OVS DOCA

OVS DOCA是一款针对 NVIDIA 网络服务进行高度优化的虚拟交换机。这是一种非常高效的设计,可使用 NVIDIA 网卡或 DPU 提升新一代性能和扩展性。OVS DOCA 基于 Open vSwitch,提供相同的北向 API、OpenFlow、CLI 和数据接口,确保成为 OVS 的直接替代方案。

OVS DOCA 能够更快地实现 NVIDIA 未来的创新网络功能。作为一项提供源代码的可定制服务,OVS DOCA 为 HBN 和其他适用于以太网交换的 NVIDIA 服务提供支持。

DOCA 2.7 包含多项增强功能,可进一步优化 OVS-DOCA。例如,DOCA 使您能够统一多个端口的代表口(representor),从而提供更好的资源利用率和扩展性。这意味着通过统一的代表口,可以更高效地管理更多端口,从而减少开销并简化配置。反过来,处理多个端口的单个代表口有助于实现更好的可扩展性。这对于大规模部署至关重要。

此外,发卡(hairpin)卸载功能可优化同一主机上虚拟机(VM)或容器之间的流量。这消除了将流量从外部路由到物理主机的需求,降低了时延,并促进了更快的数据交换,从而最终提高整体系统性能。

DOCA 2.7 的另一项新功能名为慢速路径计量(Slow Path Metering),可监视和控制非加速流量。这提高了安全性和资源优化,并为管理员提供了细粒度的控制,以便为特定类型的流量设置策略,从而定制网络行为。

DOCA 基于主机的网络

HBN是一项 DOCA 服务,使网络架构师能够完全基于三层(L3)协议来设计网络。这使得路由能够通过使用 DPU 作为 BGP 路由器,并在网络的服务器端(而不是在交换机上)运行。HBN 支持的 BGP EVPN 扩展可将 L3 底层网络扩展到具有 Overlay 二层(L2)和三层(L3)隔离网络的多租户环境。

HBN 解决方案将一组网络功能封装在一个容器内,而容器本身则封装为一个在 DPU 上运行的服务 Pod。这对裸金属 CSP、电信公司和企业客户非常有用。

DOCA 2.7 中的 HBN 新增功能包括:

对单端口 BlueField-3 SuperNIC 的支持

为本地 VRF 路由泄漏提供正式发布(GA)级支持

用于对称 EVPN 路由泄露的 EVPN 下游 VNI(DVNI)

具有 VRF-Lite 的 3 层 VLAN 子接口

BlueField 上行链路上的网络到网络的发夹路由支持

对二层(L2)VXLAN 上的有状态 ACL 的正式发布(GA)级支持

在面向主机接口上对 VLAN trunk 的初始支持

此更新通过单端口 BlueField SuperNIC 启用 GPU E/W 网络架构用例,提供了多项直接优势。

DOCA 2.7 功能不仅提高了隔离租户的共享服务和互联网访问的可扩展性和效率,而且还使 BlueField DPU 能够用作 EVPN overlay 网关。这为多租户云提供了外部连接。

DOCA SNAP 零拷贝静态加密

在 BlueField-3 上的DOCA SNAP v4 服务中添加了在线 AES-XTS 卸载功能。AES-XTS 是一种事实上的加密算法,用于保护存储设备上静态数据的机密性。现在,SNAP 可以在硬件中加速 AES-XTS 加密,从而优化和改进加密过程,同时降低 CPU 开销。

基于 AES-XTS 的 SNAP 静态数据加密,现已对零复制的 SPDK API 和 SNAP RPC 可用,这意味着可以对存储的数据进行加密和解密,而无需在内存中复制额外的副本。典型客户包括寻求使用新一代 DDR、LPDDR、GDDR 和 HBM 内存接口来提高性能的客户。

DOCA 2.7 新增的 DOCA SNAP 功能包括:

BlueField-3 支持 SNAP v4 服务

使用 SPDK API 为每个命名空间提供不同的加密密钥

支持 NVMe-oF RDMA/RoCE

与作为旁路的其他标准和非标准协议相集成

DOCA Firefly

DOCA Firefly 服务利用 NVIDIA DPU 的硬件加速提供精确的时间同步服务。DOCA Firefly 现在包括行业特定的配置文件,以改善用户体验并简化部署。除了现有的媒体行业配置文件外,DOCA 2.7 现在还提供电信行业配置文件,包括行业特定的功能和定制的性能参数。

这项服务已为电信、媒体和娱乐及金融服务等众多行业客户所采用。目前,它用于推动 MSG-Sphere 的严格计时要求。

AI 云流量加密和解密

DOCA 2.7 包括 DOCA IPsec 的修订版(现已正式发布),以及引入了 DOCA PSP 功能。

在 BlueField DPU 上运行的 DOCA 可以通过多种方式改进 IPsec 流程,同时加速网络流量的加密和解密。在此版本的新增中,DOCA Flow 现在可以支持所有 IPsec 模式和选项,同时提供 IPsec 协议的全面加速。

其他功能包括:

IPsec 正式发布

多线程支持

提高插入率

删除 DOCA IPsec 库并将其功能合并到 DOCA Flow 的 API 更新中

PSP是 Google 发布的一种新的网络安全协议。此版本是首个支持 PSP 的版本(技术预览版),通过 DOCA Flow 和在线 PSP 封装及硬件中的加密/解密来全面加速 PSP 协议。与 IPsec 相比,PSP 特别适合在大规模 AI 云中使用。

这些功能的示例用例包括:

北南向 AI 云网络加密

东西向 AI 云 GPU 到 GPU 流量

非 AI 云节点到节点加密

DOCA UROM 和 DOCA DevEmu

新的DOCA UROM库和服务支持卸载高性能计算(HPC)和 AI 工作负载。具体来说,HPC 的计算由主机执行,同时 HPC 的通信由 BlueField DPU 加速和卸载。这有助于优化 CPU 利用率,为 AI 训练和推理以及 HPC 应用程序提供性能提升。

DOCA 设备仿真库(DOCA DevEmu)使您能够在 BlueField DPU 上仿真自定义设备,并从主机通过 PCI 连接到该设备。这提供了几个优势,其中最重要的优势就是可以访问与卸载或加速相关的其他功能,但无需主机应用程序直接使用 DOCA API。

适用于 DPU 的 DOCA 通信通道

DOCA 通信通道(Comm Channel)在不受信任的主机客户端应用程序和 BlueField 软件服务之间提供增强的硬件隔离通信。它支持创新的安全和存储卸载服务。

DOCA 管理服务

DOCA 管理服务是一项 DOCA 2.7 新增的 DOCA 服务,可使用标准配置接口(API/CLI)简化 BlueField 的启动后配备和配置。

主要优势:

为所有工具提供相同的 API,无需了解所有工具及其不同的语法。

无需深入了解低级硬件细节,即可配置 NVIDIA 网卡。

使用行业标准配置接口(CLI 和 API)和数据模型(例如 gRPC/gNMI 和 OpenConfig),以确保更好的互操作性和易于集成。

通过专为与外部自动化系统和工具无缝集成而设计的强大 API,简化 DPU 管理任务的自动化。

总结

NVIDIA DOCA 框架能够利用行业标准 API 在 BlueField 网络平台上快速创建和管理应用程序和服务。借助 DOCA,开发者可以利用 NVIDIA BlueField DPU 和 SuperNIC 的强大功能,实现突破性的网络、安全和存储性能。

DOCA 2.7 中的新功能在 AI 云数据中心中通过 BlueField DPU 和 SuperNIC 提供的功能和优势来扩展其更广泛的价值。最近的增强功能不仅有助于为 AI 工作负载提供卓越的性能,而且还增加了扩展的安全和网络功能。这些改进相结合,为开发者提供了一个强大的平台。DOCA 2.7 还通过 BlueField-3 SuperNIC 支持 NVIDIA Spectrum-X 参考架构。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    6173

    浏览量

    181525
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110111
  • VLAN
    +关注

    关注

    1

    文章

    290

    浏览量

    37947
  • DPU
    DPU
    +关注

    关注

    0

    文章

    417

    浏览量

    27147

原文标题:借助 NVIDIA DOCA 2.7 增强 AI 云数据中心和 NVIDIA Spectrum-X

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA与亚马逊科技深化合作伙伴关系

    NVIDIA 和亚马逊科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对
    的头像 发表于 03-23 15:17 441次阅读

    NVIDIA Spectrum-X以太网硅光技术助力AI工厂网络创新

    NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDIA Spectrum-X 以太网硅光技术,为
    的头像 发表于 01-14 09:06 876次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>以太网硅光技术助力<b class='flag-5'>AI</b>工厂网络创新

    NVIDIA扩大与微软合作推动AI超级工厂建设

    在 Microsoft Ignite 大会上,NVIDIA 扩大与微软的合作,包括在由 NVIDIA Blackwell 平台驱动的全新 Microsoft Fairwater AI 超级工厂中部署新一代
    的头像 发表于 12-01 09:52 975次阅读

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助
    的头像 发表于 12-01 09:25 1412次阅读

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服务为
    的头像 发表于 11-03 14:48 1205次阅读

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    基于 NVIDIA Spectrum-X 以太网交换机的 AI 数据中心网络。 Meta 和 Oracle 正将 Spectrum-X 以太
    的头像 发表于 10-14 10:26 2062次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> 以太网交换机助力 Meta 和 Oracle 加速网络性能

    OpenAI和NVIDIA宣布达成合作,部署10吉瓦NVIDIA系统

    此次合作将助力 OpenAI 构建和部署至少 10 吉瓦(gigawatt)的 AI 数据中心,这些数据中心将采用 NVIDIA 系统,包含数百万块
    的头像 发表于 09-23 14:37 1569次阅读
    OpenAI和<b class='flag-5'>NVIDIA</b>宣布达成合作,部署10吉瓦<b class='flag-5'>NVIDIA</b>系统

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中心
    的头像 发表于 09-15 15:19 1657次阅读

    NVIDIA在Hot Chips 2025大会展示创新技术

    本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数
    的头像 发表于 08-27 12:52 2055次阅读

    NVIDIA推出Spectrum-XGS以太网技术

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级
    的头像 发表于 08-27 12:51 1467次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    :全球TOP3服务商在其新一代数据中心规模部署睿海光电产品 四、服务承诺:全方位保障客户利益 睿海光电提供行业领先的服务保障: 质量保证 :3年超长质保,终身维修服务 定制支持 :专业的OEM
    发表于 08-13 16:38

    NVIDIA DOCA 3.0版本的亮点解析

    NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每
    的头像 发表于 07-04 14:27 1377次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 3.0版本的亮点解析

    NVIDIA携手诺和诺德借助AI加速药物研发

    NVIDIA 宣布与诺和诺德开展合作,借助创新 AI 应用加速药物研发。此次合作也将支持诺和诺德与丹麦 AI 创新中心 (DCAI) 关于使
    的头像 发表于 06-12 15:49 1480次阅读

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案。
    的头像 发表于 05-22 09:50 1168次阅读