0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA网络运营商优化Kubernetes横向扩展GPU部署和管理

星星科技指导员 来源:NVIDIA 作者:Itay Ozery 2022-04-14 14:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

GPU 加速计算在云计算、企业计算和边缘计算领域的日益普及,越来越依赖于强健而强大的网络基础设施。 NVIDIA ConnectX SmartNICs 和 NVIDIA BlueField DPU 提供了高吞吐量、低延迟的连接,使 GPU 资源能够跨节点群扩展。为了满足对云本地 AI 工作负载的需求, NVIDIA 提供了 GPU 运营商,旨在简化 Kubernetes 上的横向扩展 GPU 部署和管理。

今天, NVIDIA 宣布了 NVIDIA 网络运营商的 1.0 版本。作为 NVIDIA GPU 运算符 的一个模拟,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则就需要手工操作。它在具有 NVIDIA 网络接口的任何集群节点上加载所需的驱动程序、库、设备插件和 CNI 。

与 GPU 运营商配合,网络运营商启用了 GPU 直接 RDMA ,这是一项关键技术,可将云本地 AI 工作负载加速几个数量级。该技术在 NVIDIA GPU 之间提供了高效的零拷贝数据传输,同时利用了 SmartNICs 和 DPU 中的硬件引擎。图 1 显示了两个 GPU 节点之间的 GPU 直接 RDMA 技术。节点 1 上的 GPU 通过网络直接与节点 2 上的 GPU 通信,绕过 CPU 设备。

poYBAGJXvmKANta6AABdA5uuq1Q305.png

图 1 。 GPU 两个 GPU 节点之间的直接 RDMA 技术

NGC 网络运营商现在可在 NGC 和 NVIDIA 上使用 Kubernetes 自定义资源 ( CRD )和 操作员框架 来提供实现加速联网所需的主机软件。这篇文章讨论了网络运营商内部的内容,包括它的特性和功能。

易于部署和操作的 Kubernetes 网络

网络运营商致力于使 Kubernetes 网络变得简单和轻松。它是 Apache2 。 0 许可下的一个开源软件项目。 1.0 版本针对运行在裸机服务器基础设施和 Linux 虚拟化环境中的 Kubernetes 进行了验证。以下是 1.0 版的主要功能:

在裸机 Kubernetes 环境中自动部署主机软件组件,以实现以下功能:

macvlan 辅助网络

SR-IOV 二次网络(分配给 pod 的 VF )

主机设备辅助网络(分配给 pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 运算符)

在嵌套的 Kubernetes 环境(在 Linux VMs 中运行的 Kubernetes Pods )中自动部署主机软件组件,以创建以下内容:

SR-IOV 二级网络(分配给 VM 的 VF 的#个,并通过不同的 POD )

主机设备辅助网络(分配给 Pod 的 PF )

GPU 直接 RoCE (使用 NVIDIA GPU 运算符)

平台支持:

Kubernetes v1 。 17 或更高版本

容器运行时: Containerd

裸机主机操作系统/ Linux 来宾操作系统: Ubuntu 20 。 04

Linux KVM 虚拟化

舵图安装

虽然启用了 GPU 的节点是一个主要用例,但是网络运营商对于启用独立于 NVIDIA GPU 的加速 Kubernetes 网络环境也很有用。一些示例包括设置 SR-IOV 网络和 DPDK 以加速电信 NFV 应用程序、建立 RDMA 连接以快速访问 NVMe 存储等等。

NVIDIA 网络运营商内部

网络运营商被设计成一个 Kubernetes 运营商,它利用多个定制资源为一个节点添加加速的网络功能。 1 。 0 版本支持多种网络模型,可适应各种 Kubernetes 网络环境和不同的应用程序需求。如今,网络运营商只为二级网络配置 RoCE 。这意味着主吊舱网络保持不变。将来的工作可能会允许为主网络配置 RoCE 。

以下各节介绍网络运营商打包和使用的不同组件。

节点功能发现

节点功能发现 ( NFD )是一个 Kubernetes 插件,用于检测硬件特性和系统配置。网络运营商使用 NFD 来检测安装了 NVIDIA SmartNICs 和 GPU 的节点,并将它们标记为这样的节点。基于这些标签,网络运营商安排适当的软件资源。

CNI 木耳

Multus CNI 是 Kubernetes 的容器网络接口( CNI )插件,支持将多个网络接口连接到 pod 。通常在库伯内特斯,每个吊舱只有一个网络接口。使用 Multus ,您可以创建具有多个接口的多宿主 Pod 。 Multus 充当一个 meta-plugin ,一个可以调用多个其他 CNI 插件的 CNI 插件。 NVIDIA 网络运营商安装 Multus ,将用于高速 GPU – GPU 通信的二级网络添加到集装箱吊舱中。

NVIDIA OFED 驱动器

NVIDIA OpenFabrics 企业分销( OFED ) 网络库和驱动程序由 节点标签 网络团队打包和测试。 NVIDIA OFED 通过 Infiniband 和以太网互连支持 远程直接内存访问 ( RDMA )。网络运营商使用 NVIDIA 将预编译的 NVIDIA OFED 驱动程序容器部署到每个 Kubernetes 主机上。容器在启动或停止时加载和卸载 NVIDIA OFED 驱动程序。

NVIDIA 对等内存驱动程序

NVIDIA 对等内存驱动程序 是一个客户端,它与网络驱动程序交互,以在 GPU 和主机内存之间提供 RDMA 。网络运营商在同时具有 ConnectX 适配器和 NVIDIA GPU 的节点上安装 NVIDIA 对等内存驱动程序。当容器启动和停止时,此驱动程序也会自动加载和卸载。

RDMA 共享设备插件

Kubernetes 设备插件框架 向 Kubernetes 节点上运行的 Kubelet 代理播发系统硬件资源。网络运营商部署 RDMA 共享设备插件 向 Kubelet 播发 RDMA 资源,并向节点上运行的 pod 公开 RDMA 设备。它允许吊舱执行 RDMA 操作。节点上运行的所有 pod 共享对相同 RDMA 设备文件的访问。

容器网络 CNI 插件

Macvlan CNI 公司 和 主机设备 CNI 是在 CNI 项目下托管的通用容器网络插件。 macvlan CNI 创建一个新的 MAC 地址,并将所有通信转发到容器。主机设备 CNI 将已经存在的设备移动到容器中。网络运营商使用这些 CNI 插件创建 macvlan 网络,并将 NIC 物理功能分别分配给容器或虚拟机。

SR-IOV 设备插件和 CNI

SR-IOV 是一种在虚拟机或容器吊舱与 NIC 硬件之间提供直接接口的技术。它绕过了主机 CPU 和操作系统,从 I / O 任务中释放出昂贵的 CPU 资源,并大大加快了连接速度。 SR-IOV 设备插件 和 CNI 插件 启用 Kubernetes 节点上可用的 SR-IOV 虚拟功能( VF )。这两者都是网络运营商创建 SR-IOV VF 并将其分配给处理 GPU -to- GPU 通信的二级网络所必需的。

SR-IOV 操作员

SR-IOV 操作符旨在帮助用户在集群中提供和配置 SR-IOV 设备插件和 SR-IOV CNI 插件。网络运营商使用 SR-IOV 操作员 在 Kubernetes 集群中部署和管理 SR-IOV 。

Whereabouts CNI

Whereabouts CNI 是一个 IP 地址管理( IPAM ) CNI 插件,可以在 Kubernetes 集群中分配 IP 地址。网络运营商使用此 CNI 为承载 GPU -to- GPU 通信的二级网络分配 IP 地址。

更好的结合: NVIDIA 加速计算和网络

图 2 显示了网络运营商如何与 GPU 运营商协同工作来部署和管理主机网络软件。

pYYBAGJXvmuAFa1cAALBlwdJFKQ894.png

图 2 。网络运营商与 NVIDIA GPU 运营商一起安装,以在 EGX 堆栈上自动化 GPU 直接 RDMA 配置

以下部分描述了支持的网络模型和相应的主机软件组件。

RoCE 共享模式

共享模式意味着在节点上的多个容器 pod 之间共享单个 IB 设备的方法。此网络模型针对需要高性能网络的企业和边缘环境进行了优化,无需多租户。网络运营商安装以下软件组件:

Multus CNI

RoCE 共享模式设备插件

Macvlan CNI

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

SR-IOV 、 RoCE 和 DPDK 网络

如前所述, SR-IOV 是一种提供对 NIC 硬件的直接访问的加速技术。此网络模型针对运行在裸机上的多租户 Kubernetes 环境进行了优化。网络运营商安装以下软件组件:

Multus CNI

SR-IOV 设备插件

SR-IOV CN

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

NIC PF 直通

这种网络模式适合要求极高的应用。网络运营商可以将 NIC 物理功能分配给 Pod ,以便 Pod 充分利用它。网络运营商安装以下主机软件组件:

Multus CNI

SR-IOV 设备插件

主机开发 CNI

Whereabouts IPAM CNI

网络运营商还在 GPU 节点上安装 NVIDIA OFED 驱动程序和 NVIDIA 对等内存。

为横向扩展 GPU 集群优化 Kubernetes 网络

NVIDIA GPU 和网络运营商都是 NVIDIA EGX 企业平台的一部分,该平台允许 GPU 加速计算与传统企业应用程序在同一 IT 基础设施上协同工作。总而言之,运营商使 NVIDIA GPU 成为库伯内特斯的一等公民。现在发布用于生产环境,网络运营商简化了 Kubernetes 网络,带来了必要的简单性和可扩展性级别,以便在企业中实现扩展培训和边缘推断。

关于作者

Itay Ozery 是 NVIDIA 网络产品营销总监。他为 Mellanox 的云网络解决方案推动战略性产品营销和产品管理计划。 Itay 在网络安全领域领导了大规模的业务和项目,并与数据中心和电信服务提供商在 IT 系统和网络工程领域担任过多个职位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2426

    浏览量

    46301
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109088
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134455
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    碎片化网络安全监管正增加移动运营商成本与风险

    GSMA今日发布重大独立研究报告《网络安全监管对移动运营商的影响》,显示移动运营商每年在核心网络安全活动上的支出已达150至190亿美元,预计到2030年这一数字将升至400至420亿
    的头像 发表于 12-05 15:49 77次阅读

    华为全域安全园区网络解决方案助力运营商开辟toB市场

    当AI驱动的超宽带时代加速到来,运营商也正从“卖联接”向“卖服务”深度转型,企业对园区网络的安全需求也日益提升。在2025全球超宽带高峰论坛(UBBF)上,围绕“AI繁荣UBB,激发运营商新增
    的头像 发表于 10-30 10:38 544次阅读

    Omdia高级首席分析师畅谈运营商面临的网络挑战

    Omdia高级首席分析师Sameer Ashfaq Malik指出,运营商面临三大核心网络挑战:传统服务收入低迷、新兴服务(如人工智能)规模化进程缓慢,以及运营成本(OPEX)持续攀升。“AI
    的头像 发表于 10-13 09:19 765次阅读

    尝鲜|首套运营商网络路由5G SA测试专网搭建完成并对外提供服务

    为了更好的服务蜂窝无线技术及运营商测试认证相关业务,搭建了技术服务业少有的5G测试专网,可独立灵活配置、完整端到端5G(含RedCap、LAN)的网络架构。通过走真正运营商网络路由的方
    的头像 发表于 08-31 08:07 853次阅读
    尝鲜|首套<b class='flag-5'>运营商</b><b class='flag-5'>网络</b>路由5G SA测试专网搭建完成并对外提供服务

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的头像 发表于 08-18 11:50 996次阅读

    乌干达运营商联合华为全面升级绿色网络基础设施

    近日,乌干达领先电信运营商联合华为,在高价值区域批量部署GreenAAU系列中的EasyAAU,全面升级绿色网络基础设施。这一举措标志着乌干达通信技术进入新阶段,将为用户带来更快的网络
    的头像 发表于 08-15 09:31 735次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwe
    的头像 发表于 07-28 14:31 775次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对亚马逊云科技服务的支持

    美国运营商5G RedCap部署进入快车道

    ,RedCap正在该运营商的独立组网(SA)5G网络上运行。 该运营商正在与Semtech、Telit Cinterion和Rhino Mobility等模块供应合作,以
    的头像 发表于 07-25 14:12 771次阅读
    美国<b class='flag-5'>运营商</b>5G RedCap<b class='flag-5'>部署</b>进入快车道

    普强智能外呼系统助力大型运营商提升服务效率

    在日益激烈的通信行业中,运营商作为提供网络服务的核心供应,面临着提升客户服务质量、增强用户粘性的巨大挑战。传统的客服模式在处理海量、重复性咨询时效率受限,难以满足用户对高效、便捷服务的期望。随着人工智能技术的飞速发展,智能外呼
    的头像 发表于 07-23 16:30 909次阅读

    华为荣登GlobalData运营商基础设施管理服务排名报告Leader象限第一名

    象限第一名。 报告对通信服务从商业模式、解决方案、网络设计与优化网络转型能力、服务规模、和业务敏捷性六个维度进行了全面评估,华为综合得分第一。这印证了华为在对全球
    的头像 发表于 05-22 18:43 904次阅读
    华为荣登GlobalData<b class='flag-5'>运营商</b>基础设施<b class='flag-5'>管理</b>服务排名报告Leader象限第一名

    Kubernetes Helm入门指南

    Helm 是 Kubernetes 的包管理工具,它允许开发者和系统管理员通过定义、打包和部署应用程序来简化 Kubernetes 应用的
    的头像 发表于 04-30 13:42 2898次阅读
    <b class='flag-5'>Kubernetes</b> Helm入门指南

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    全新的存储认证和参考架构让企业 IT 部门能更轻松地选择和部署 AI 基础设施,实现最优的性能和能效。 AI 部署的成功依靠速度、数据和规模。因此,NVIDIA 正在扩展
    的头像 发表于 03-21 19:38 1711次阅读

    5G网络中,信令测试仪如何帮助提升用户体验?

    、会话管理失败等问题。 精确调整网络参数: 信令测试仪能够对网络中的各种参数进行细致的调整和优化,如发射功率、小区覆盖范围、切换策略等。 通过精确调整这些参数,信令测试仪可以帮助
    发表于 03-21 14:33

    MWC25 GTI年度大奖!爱立信5G可编程网络助力运营商差异化运营,提升网络价值

    GTI及业界的普遍认可。   全球已经建成200多张高性能5G网络运营商希望能充分挖掘5G网络的潜力,以提高网络投资的回报。在5G-A时代,爱立信希望通过帮助
    的头像 发表于 03-06 14:40 608次阅读
    MWC25  GTI年度大奖!爱立信5G可编程<b class='flag-5'>网络</b>助力<b class='flag-5'>运营商</b>差异化<b class='flag-5'>运营</b>,提升<b class='flag-5'>网络</b>价值

    使用 Flexus 云服务器 X 实例部署 Kubernetes 图形化管理平台

    Kubernetes 作为当今最流行的容器编排平台,随着云计算、微服务架构和 DevOps 文化的普及,Kubernetes 在自动化部署扩展
    的头像 发表于 01-21 16:14 554次阅读
    使用 Flexus 云服务器 X 实例<b class='flag-5'>部署</b> <b class='flag-5'>Kubernetes</b> 图形化<b class='flag-5'>管理</b>平台