0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA DOCA 2.9版本的亮点解析

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-27 11:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA DOCA通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的开发,实现了工作负载卸载、加速和隔离,以支持现代、高效的数据中心。

如今,许多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 为快速开发和部署创新解决方案提供了标准化平台。这种方法可加快上市时间、降低成本,并帮助合作伙伴在使用 NVIDIA 硬件加速的同时专注于自身的核心优势。

DOCA 培育的开放生态系统促进了协作和互操作性,创造了各种互补解决方案。合作伙伴可以探索 AI 驱动的网络、高级安全和高性能存储等新兴市场,让自己处于数据中心创新的前沿。

DOCA 2.9的最新版本标志着 AI 计算网络架构和云计算基础设施的重大进步。这次全面的更新引入了许多新功能和改进功能,有助于改变高性能计算和网络格局。

ba6579b2-ab12-11ef-93f3-92fbcf53809c.png

图 1:DOCA 2.9 架构

利用增强的东西向计算网络架构优化 AI 网络

DOCA 2.9 版本的亮点包括改进的拥塞控制和新的遥测库,这对于优化数据中心内的网络流量至关重要,从而提供更好的性能、效率、可见性和控制。

支持 Spectrum-X 1.2 参考架构

Spectrum-X(SPC-X) 1.2 参考架构针对东西向以太网 AI 云环境进行了多项改进。该更新支持大规模横向扩展能力,可在单个网络架构中容纳多达 128K 个 GPU。该架构使用NVIDIA BlueField-3 SuperNIC和NVIDIA Spectrum-4 交换机的强大组合,连接到 NVIDIA DGX 和 NVIDIA HGX 平台,为 AI 工作负载提供出色的性能和效率。

DOCA 2.9 还改进了 Spectrum-X 的遥测能力和拥塞控制算法。这有助于更精细、更实时地监控网络性能,并改进拓扑检测,这对于优化大规模和长距离的 AI 工作负载至关重要。

DOCA 拥塞控制

DOCA 2.9 提升了适用于高性能计算和 AI 工作负载的拥塞控制算法,即NVIDIA 网络拥塞控制(NVNCC)。

NVNCC Gen2 和 InfiniBand 拥塞控制 IBCC 的全面推出标志着一个重要的里程碑。IBCC 专门针对 InfiniBand 上的 AI 工作负载进行了优化,而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法,现在支持长距离的 RoCE。

DOCA 遥测库

作为此版本的新增功能,DOCA 遥测库引入了高频采样功能,从而提高了 AI 驱动环境的网络监控能力。此更新可实现低于 100 微秒间隔的计数器读取,与之前的 0.5-1 秒间隔相比,实现了巨大飞跃。

主要功能包括用于指定计数器、时间间隔和频率的新 API,以及对多个性能计数器(例如 RX/TX 字节、端口、拥塞通知和 PCIe 延迟)的支持。这些增强功能可满足关键用例的需求,例如用于全集群异常检测的高频遥测(HFT)和用于应用程序分析的本地性能分析。

南北向云计算基础设施

的连接性和安全性正在增强

DOCA 2.9 中的南北向改进侧重于增强云资源与外部网络之间的连接性。

DOCA Flow

DOCA 2.9 为 DOCA Flow 引入了一项令人兴奋的新功能:“tune”性能分析工具。该工具目前处于 alpha 阶段,已无缝集成到 DOCA Flow 软件包之中,为用户提供有关其网络流配置的深入洞察。

“tune"工具可直观呈现已配置的流水线,使用户能够清楚地了解其流结构。这项可视化功能使管理员和开发者能够快速识别和优化流配置。

OVS-DOCA

OVS-DOCA现已正式发布,它具有本地镜像功能,并在 NVIDIA BlueField DPU 的软件定义网络方面向前迈出了一大步。此长期支持(LTS)版本为用户提供了一种对传统使用 DPDK 或内核数据路径(kernel datapath)的 OVS 解决方案的替代方案,为现代网络环境提供更高的效率和扩展功能。

发布版本引入了一些关键的增强功能,可提升 DOCA 的功能,包括通过 DOCA Flow API 大幅提升连接追踪(CT)功能的性能。用户可将每秒连接数(CPS)提高 100%,每秒数据包数(PPS)提高 50%。可扩展性和吞吐量也得到了增强,最多可支持三个网卡(NIC),从而实现更灵活、更强大的网络配置。

DOCA 基于主机的网络 2.4 版本

DOCA 基于主机的网络(HBN)不断发展,2.4 版本为适用于裸金属及服务环境的无控制器 VPC 网络带来了许多增强功能。DOCA HBN 2.4 以 BGP EVPN 为基础,引入了令人印象深刻的可扩展性改进,支持高达 8K 个 VTEP 和 80K 个 Type-5 路由。

最新版本通过内核下一跳(Next-Hop)组和 OVS-DOCA 故障转移增强了 ECMP 路由,提高了网络弹性和性能。其中一个关键的新增功能是 Overlay 网关的有状态 SNAT+PAT,使私有租户 IP 能够通过共享公共 IP 地址访问外部网络。

DOCA FireFly

增强的DOCA Firefly服务通过硬件加速为 NVIDIA DPU(数据处理器)带来先进的时间同步功能。此更新引入了两项显著特性:同步以太网(SyncE)支持和数据传输服务(DTS)集成。

SyncE 可在网络设备之间实现高精度频率同步,对于电信网络(尤其是移动基础设施)至关重要。DTS 支持支持通过遥测通道传输 PTP 信息,从而实现持续的网络时间服务监控。

NVIDIA Rivermax SDK

Rivermax SDK的增强功能主要侧重于降低延迟、最小化 CPU 使用率,以及最大化数据密集型应用程序的带宽和 GPU 利用率。一项重要的新增功能是支持 Internet Protocol Media Experience(IPMX),这是专业视听环境中新兴的 AV over IP 开放标准。

在 Rivermax 的支持下,DOCA 2.9 还支持 NVIDIA Holoscan for Media,这是一个专为媒体和娱乐行业定制的认证平台。该功能优化了未压缩和压缩视频流的处理,简化了用于高性能媒体处理的 I/O 操作。

NVIDIA DOCA App Shield

DOCA App Shield 库的增强功能提高了其在主机监控和威胁检测方面的能力。一项重要的新增功能是包括了预先生成的操作系统配置文件,使各种操作系统的设置过程更加简化。

对于 Linux 环境,App Shield 现在提供高级容器监控功能,使安全团队能够密切关注容器化工作负载。该服务已得到扩展,可列出网络连接,并提供有关每个进程的网络连接详细信息,从而更深入地洞察潜在的安全威胁。

DOCA SNAP virtio-fs

DOCA SNAP virtio-fs 测试版是一项利用 NVIDIA BlueField-3 DPU 强大功能来提供安全加速文件系统存储的服务。此解决方案使用内置的 virtio-fs 驱动程序向主机公开本地文件系统语义,同时直接在 DPU 上运行远程文件系统存储逻辑。

该版本还引入了 SNAP Virtio-fs 的测试版,作为公共 NGC 服务容器提供。它启用了 NFS Linux 内核文件系统,并集成到 BlueField-3 内核中。开发者可以基于 SPDK FSDEV 创建自定义文件系统堆栈,从而实现灵活性和性能优化。

此解决方案支持在 AI 计算服务器中实现云规模分布式文件系统存储,提供具有隔离和策略实施的安全环境,同时加速性能并卸载虚拟机管理程序任务。

开放虚拟网络裸金属租户隔离

DOCA 2.9 包括一项新的编排服务,增强软件定义网络(SDN)环境中的租户隔离。开放虚拟网络(OVN)裸金属租户隔离功能可保护多租户环境中的南北向流量,确保 AI 工作负载保持安全和独立,即使在密集的计算集群中也是如此。

此服务基于上游 OVN 构建,提供用于租户隔离的简化、强大的 API,以及用于在 BlueField DPU 上轻松部署的 Ansible Playbook。关键创新在于卸载和加速基于 SDN 的租户 BlueField DPU,通过隔离特定进程来提高速度和效率。这种集中组织允许使用 API 调用轻松更改隔离设置,从而更好地控制网络管理。这使得它非常适合希望使用 SDN 创建多租户云的 AI 云和工厂。

设备管理和开发工具

DOCA 2.9 简化了大规模部署所需的设备管理流程。此版本还为开发者提供了新的优化和分析工具,可帮助他们更好地洞察应用程序和数据路径性能。

DOCA 管理服务 (DMS)

DOCA 管理服务(DMS)也升级为发布状态,为管理 BlueField DPU 和 SuperNIC 提供了增强功能。此更新引入了通过单个 API 端点管理多台设备的能力,从而简化了在复杂的多设备环境中的操作。

一项重要改进是支持节点重启后的配置“持久性”,从而确保设备设置在系统重启期间保持不变。此外,还新增了设配配置的批量导入/导出功能,可实现大规模部署的高效管理。

DOCA 数据路径加速器

数据路径加速器(DPA)工具包的增强功能为开发者提供了更强大的性能优化和分析工具。其中一项突出功能是将 DPA 性能计数器与新的 Nsight 工具相集成,从而更深入地洞察应用程序性能。

一个重要的新增功能是DOCA-DPA-Comms 库,目前处于测试阶段。该库简化了基于 DPA 的数据路径实现,为开发者提供了更高级别的抽象。它可用于 BlueField-3 DPU 和即将推出的 NVIDIA ConnectX-8 SuperNIC,确保 NVIDIA 高级网络硬件产品线具有广泛的兼容性。

用于简化部署和支持的平台和 DOCA 软件包

改善用户体验是 DOCA 发展的核心。本次发布包括许多旨在简化和改进部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它适用于需要 RDMA over Converged Ethernet 功能的环境。

NVIDIA 还针对 BlueField-3 推出了 PLDM 固件更新。该测试版支持使用 PCIe 上的标准 PLDM over MCTP 实现无缝固件更新,使服务器在激活之前能够正常运行。这一零信任功能支持 NIC 和 DPU 模式,并且无需 DPU-BMC 1GbE 连接。

此外,此版本标志着 MLNX_OFED 的最终长期支持(LTS)成为独立版本,该版本现已作为主机配置文件 DOCA-OFED 使用。

从用于 InfiniBand 和以太网解决方案的 MLNX_OFED 驱动和工具套件过渡到 DOCA-OFED,可实现集成在 DOCA 框架内的统一、可扩展和可编程网络堆栈。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109072
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143085
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74643
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296489

原文标题:NVIDIA DOCA 2.9 通过新的性能和安全功能来增强 AI 和云计算基础设施

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出全新BlueField-4 DPU

    全新 NVIDIA BlueField DPU 具有 800Gb/s 的吞吐量,其集成的 NVIDIA ConnectX-9 SuperNIC 和 NVIDIA DOCA 微服务为 A
    的头像 发表于 11-03 14:48 590次阅读

    Quartus Prime Pro 25.1版本的安装和使用

    如果用户开发板是基于Agilex 3、Agilex 5等高阶器件,则需要安装高版本的Quartus软件比如Quartus Prime Pro 25.1版本,这个版本在安装包和license获取(免费)等方面跟以往的Quartus
    的头像 发表于 10-07 13:06 2038次阅读
    Quartus Prime Pro 25.1<b class='flag-5'>版本</b>的安装和使用

    Keithley静电计通断测量要点解析

    在现代电子测试中,Keithley静电计凭借其高精度与稳定性成为科研和工业领域的常用工具。进行通断测量时,准确掌握操作要点是确保数据可靠性的关键。以下是使用Keithley静电计进行通断测量的核心要点解析
    的头像 发表于 09-09 11:44 473次阅读
    Keithley静电计通断测量要<b class='flag-5'>点解析</b>

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是一种面向图
    的头像 发表于 09-09 09:54 728次阅读

    NVIDIA DOCA 3.0版本亮点解析

    NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每
    的头像 发表于 07-04 14:27 950次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 3.0<b class='flag-5'>版本</b>的<b class='flag-5'>亮点解析</b>

    第三届NVIDIA DPU黑客松开启报名

    碰撞的绝佳机会。本次竞赛采用开放式主题,参与者将通过 NVIDIA DOCA 软件框架构建创新的加速应用程序,充分挖掘 NVIDIA BlueField DPU 在 AI、网络、存储和安全等领域的强大潜能。
    的头像 发表于 05-27 10:16 743次阅读

    NVIDIA将为每家AI工厂提供网络安全

    NVIDIA DOCA Argus 框架可检测 AI 工作负载中的威胁并对之做出响应,同时与企业安全系统无缝集成,从而提供实时洞察。
    的头像 发表于 05-07 15:11 796次阅读
    <b class='flag-5'>NVIDIA</b>将为每家AI工厂提供网络安全

    NVIDIA NVLink 深度解析

    训练万亿参数人工智能模型至关重要 ^4^。深度分析报告旨在全面探讨 NVIDIA NVLink,涵盖其定
    的头像 发表于 05-06 18:14 4027次阅读

    NVIDIA虚拟GPU 18.0版本亮点

    NVIDIA 虚拟 GPU(vGPU)技术可在虚拟桌面基础设施(VDI)中解锁 AI 功能,使其比以往更加强大、用途更加广泛。vGPU 通过为各种虚拟化环境中的 AI 驱动工作负载提供动力,提高了
    的头像 发表于 04-07 11:28 1129次阅读

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 1692次阅读

    英伟达GTC25亮点NVIDIA Blackwell Ultra 开启 AI 推理新时代

    英伟达GTC25亮点NVIDIA Blackwell Ultra 开启 AI 推理新时代
    的头像 发表于 03-20 15:35 1212次阅读

    motorBench 2.45.0版本说明

    电子发烧友网站提供《motorBench 2.45.0版本说明.pdf》资料免费下载
    发表于 01-22 16:15 0次下载
    motorBench 2.45.0<b class='flag-5'>版本</b>说明

    OurBMC 24.12版本正式上线

    日前,经过社区开发者的共同努力,OurBMC 全新升级,24.12版本正式上线。
    的头像 发表于 01-07 13:45 1293次阅读

    英特尔Quartus Prime Pro 24.3版本的全新亮点

    Quartus Prime Pro 24.3 版具有诸多强大特性和增强功能,可助力FPGA开发人员加快编译速度、提高设计效率以及缩短产品上市时间。令人振奋的是,在此次版本中,我们推出了对Agilex
    的头像 发表于 12-13 10:28 2172次阅读

    豆神AI Windows PC端1.0版本登陆微软商城

    豆神 Al Windows PC端 1.0 版本已于 12 月初正式登陆微软商城。作为定制版本的核心亮点,豆神教育首次面向 Windows用户全面推出为中国青少年提供大语文领域素质能力培养的数字内容产品和 AI智能学习工具 PC
    的头像 发表于 12-10 11:16 1490次阅读