0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Red Hat和NVIDIA构建集成云就绪基础设施方案

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-07 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

IT 世界正在向云转移,云是建立在 Kubernetes 管理的容器上的。我们认为,下一个合乎逻辑的步骤是使用数据处理器( DPU )加速这一基础设施,以提高性能、效率和安全性。

Red Hat 和 NVIDIA 正在构建一个集成的云就绪基础设施解决方案, Red Hat OpenShift 的管理和自动化,以及 NVIDIA BlueField DPU 。

红帽 OpenShift 的好处

许多流行的云基础设施项目使用 Kubernetes 管理的容器。然而,实施 Kubernetes 可能是一项艰巨的任务,尤其是对于那些无法投入专职人员成为 Kubernetes 专家的组织来说。

Red Hat OpenShift 为管理 Kubernetes 容器以及应用程序部署、更新和生命周期管理提供了一套强大的功能。 OpenShift 包括自动化和安全工具,以及受支持的开源模型,以使云基础设施更经济、可靠和可扩展。

根据 2021 的数据, 85% 以上的容器编排项目都使用了 Red Hat 调查, Kubernetes ,而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最流行选择。 OpenShift 是业界领先的企业 Kubernetes 平台,财富 500 强中超过 50% 的商业银行、电信公司和航空公司都使用该平台。

显然,大多数企业都想要一个受支持的 Kubernetes 模型, Red Hat OpenShift 是最受欢迎的选择之一。

DPU 的工作原理

DPU 卸载、加速基础设施工作负载,并将其与服务器的 CPU 隔离。例如, BlueField DPU 可以从 CPU 上卸载网络、网络虚拟化、数据加密和时间同步任务,并在特制的硅上运行。

其他基础设施软件,如远程管理、防火墙代理、网络控制平面和存储虚拟化,可以在 BlueField 的 Arm 处理器内核上运行。这样做可以释放服务器的 CPU 内核,而这些内核可以运行应用程序和租户工作负载。

该功能还将基础设施和安全工作负载隔离在单独的域中。结果是一组服务器以更快的网络运行更多的应用程序,提高了数据中心的效率和安全性。

在一个典型的云基础设施中,网络流量会穿越物理服务器和在这些服务器上运行的容器。这需要在每台服务器中都有一个分组交换解决方案,为了获得最大的效率,应用程序容器需要一种与 DPU 的加速网络卸载进行通信的方式。

传统的方法是通过 Kubernetes 和开放虚拟网络( OVN )访问开放虚拟交换机(开放虚拟交换机或 OVS )。 OVN 提供网络抽象,默认部署策略是在主机服务器的 CPU 上同时运行 OVN 和 OVS 。

然而,当网络速度超过 10 Gbps 时,这种方法会消耗大量 CPU 核。 Kubernetes 需要一个解决方案来在 DPU 上运行 OVN 和 OVS 功能,这样所有的数据包交换、报头重写、封装/去封装和数据包过滤都可以在网络硬件上完成,而不是在 CPU 上的软件中完成。

增加红帽和 NVIDIA 之间的网络集成

红帽和 NVIDIA 已经合作,将 OpenShift 的管理能力与 DPU 的加速能力相结合。

带有 Red Hat Enterprise Linux 的 整合的第一阶段始于 2018 年 将网络流量卸载到 NVIDIA ConnectX SmartNIC 。网络数据平面(使用 OVS 或 DPDK )在 SmartNIC ASIC 上运行,但网络控制平面仍完全在 X86 CPU 上的软件中运行。

pYYBAGJ2FYaAdO2sAAEJwlrlZDc662.png

图 1 。运行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通过 OVS 将网络数据平面卸载到 NVIDIA ConnectX SmartNIC ,而控制平面在 X86 CPU 上运行 。

2021 ,两家公司采取了下一步行动,将 Red Hat OpenShift 与 NVIDIA BlueField DPU 一起部署,并进行了性能基准测试。在 NVIDIA GTC 2021 年,我们 demonstrated 讨论了将网络转移到 DPU 的优势,并发表了一篇文章 通过将网络功能转移到 NVIDIA BlueField-2 DPU ,优化数据中心的服务器利用率 。

在这个解决方案中,带有覆盖卸载( OVS 和 Geneve 卸载)的网络数据平面和网络控制平面(在 OVN Kubernetes 吊舱中)在 DPU 上运行,并带有 Red Hat Enterprise Linux 。 OpenShift 的主要组件,包括 Red Hat Enterprise Linux CoreOS ,仍保留在 x86 CPU 上。

pYYBAGJ2FYeAKqIxAADbUGWAGkU277.png

图 2 。运行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通过 OVN 和 OVS 将网络数据平面和控制平面卸载到 BlueField-2 DPU 。 DPU 在其 Arm 内核上运行 Red Hat Enterprise Linux 。

在图 2 中的部署场景中, BlueField-2 在以下方面起着重要作用:

Geneve (虚拟覆盖网络)封装/去封装

IPsec 封装/去封装

加密/解密路由

网络地址转换( NAT )

主机 CPU 和容器只看到简单的未封装、未加密的数据包, CPU 不需要执行任何这些任务,因为它们被卸载到 DPU 。这种负载水平将 CPU 利用率降低了 70% ,释放了每台服务器上的大量 CPU 电源,以运行额外的业务/租户工作负载。

在 DPU 上运行 OpenShift

如 2022 年 GTC 所述 , Red Hat 和 NVIDIA 已经迈出了下一步,将 OpenShift (包括 Red Hat Enterprise Linux CoreOS )迁移到 BlueField DPU 的 Arm 内核上运行 Red Hat OpenShift 双集群设计 这包括独立的租户和基础设施集群。

Red Hat Enterprise Linux CoreOS 是 OpenShift 控制平面或主节点和工作节点支持的操作系统。这是 OpenShift 中执行调度、维护、升级和群集自动化的部分。它包括容器管理工具和安全加固,使其更能抵御黑客攻击,现在它可以在主机 x86 CPU 和 DPU Arm 内核上运行。

BlueField DPU 在各种主机服务器上运行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ,形成了一个基础架构工作集群。同时,在 x86 CPU 上运行的 OpenShift 管理租户吊舱和集群。

将 OpenShift 基础架构群集软件卸载到 BlueField Arm 内核上而不是主机 x86 内核上运行,可以节省额外的 x86 CPU 开销、更高的性能和更强的安全隔离。

poYBAGJ2FYmAeRbtAAJKBEvgoGM834.png

图 3 。从 Red Hat OpenShift 4.10 开始,您可以在 x86 CPU 上运行 OpenShift 来管理租户,也可以在 BlueField DPU Arm 内核上运行 OpenShift 来管理集群基础架构。

云本机、软件定义的网络是 BlueField DPU 用例的一个很好的例子,在 BlueField DPU 环境中,OVN和OVS在 BlueField DPU 上运行并由其卸载。许多其他基础设施服务,如网络加密、防火墙代理、虚拟路由器、遥测代理等,也可以在 DPU 上运行,以获得更大的好处。

OpenShift 在 DPU 上卸载带来了显著的成本节约效益

为了了解 DPU 卸载对降低数据中心成本的影响, NVIDIA 和 Red Hat 为一个配备 51K 服务器的中型数据中心构建了一个 TCO 模型。我们认为该数据中心支持 100 万个应用程序,每个应用程序需要每秒 10 万个数据包( PPS )的交换性能。

我们考虑了 两种服务器部署方案 :有无 DPU :

没有 DPU 完全在软件中运行虚拟交换的服务器仅实现 350k PPS 。

使用 DPU 将 OVN 和 OVS 卸载到 DPU 的服务器的性能提高了 54 倍,达到每台服务器 1870 万个 PPS 。

将虚拟交换机卸载到 DPU 上也为每台服务器节省了八个 CPU 内核。基于此测试, TCO 模型产生了 6850 万美元的惊人资本支出节约 。 这些节约是通过减少 10K DPU 增强型服务器而实现的,这是因为每台服务器具有更高的网络性能和 CPU 核心节约。

我们看到,由于服务器占地面积较小而节省了电力,这最终导致基于 DPU 的服务器具有更好的 TCO 模型。随着我们将负载平衡器、防火墙、加密、 web 服务器等附加功能卸载到 DPU ,这些 TCO 节约将变得更好,最终为支持云计算的数据中心实现惊人的效率。

解决方案路线图和在 BlueField 上部署 OpenShift

在 BlueField 上运行 OpenShift 的双集群 OpenShift 体系结构现已在 OpenShift 4.10 中作为开发者预览版或早期试用版提供,预计将于 2022 年正式提供。

但 NVIDIA 和红帽队并没有就此止步。我们计划测试网络流量加密/解密的卸载,因为这是一项 CPU 密集型任务。

BlueField-2 DPU 可以以高达 100 Gbps 的速度卸载 IPsec 加密/解密,以高达 200 Gbps 的速度卸载 TLS 加密/解密。

BlueField-3 预计将以更高的速度支持 IPSec 、 TLS 和 MACsec 。

从 OpenShift 到 DPU 的线速加密卸载的实施将提高租户的数据安全性,并帮助您更接近零信任安全状态。

与 DPU 的其他潜在集成包括更复杂的软件定义的网络卸载、在 BlueField 上运行防火墙代理、精确时间同步、带数据包速度的视频流,以及使用 DPU 收集遥测数据。

蓝田 -2 DPU 现在可从 NVIDIA 获得,蓝田 -3 DPU 将于 2022 年晚些时候开始采样。此外, BlueField DPU 不久将在 NVIDIA LaunchPad 云服务中进行测试。

如果您想在运行 NVIDIA BlueField DPU 的 Red Hat OpenShift 上进行测试或开发,请使用 表明你的兴趣 。

总结

如果您的公司希望在数据中心采用云原生计算, NVIDIA BlueField DPU 、 Red Hat Enterprise Linux 和 Red Hat OpenShift 的组合将提供一个高效、创新的开放式混合云平台,具有新的安全功能。这个强大的平台提供硬件加速功能,以运行关键的软件定义的网络、存储和安全功能。

现在,可以分配更多的服务器资源来运行云本地工作负载,以及传统的业务应用程序。

关于作者

Ash Bhalgat 是 NVIDIA 网络业务部门的云和电信市场开发高级总监。他领导云和电信解决方案、技术营销和合作伙伴生态系统业务开发,以推动网络投资组合收入和市场份额增长。

John Kim 是 NVIDIA 网络事业部的存储市场总监,致力于帮助客户和供应商从高性能网络连接、智能网卡卸载和远程直接数据存取 (RDMA) 中获益,尤其是在存储、大数据和人工智能领域。John 是非常活跃的博主、会议演讲嘉宾和网络直播节目主持人,也是存储网络行业协会网络存储论坛 (SNIA NSF) 的主席。John的高科技生涯从 IT 支持人员和网络管理员开始,先后在NetApp 和 EMC等企业级软件公司以及存储供应商从事解决方案市场、产品管理和生态联盟工作。他于 2013 年加入 Mellanox,之后于 2020 年加入 NVIDIA。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109092
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74650
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143067
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA携手OpenAI构建AI基础设施

    NVIDIA 首席执行官黄仁勋、OpenAI 首席执行官 Sam Altman 和 OpenAI 总裁 Greg Brockman 宣布了一项新的合作伙伴关系,旨在推动 OpenAI 的发展,并支持几乎所有行业和用户大规模使用 AI。
    的头像 发表于 09-23 14:38 666次阅读

    NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章

    NVIDIA 通过全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施,为机器人领域开启新篇章   · 全新 NVIDIA Omniverse NuRec 3D
    的头像 发表于 08-12 11:29 1366次阅读
    <b class='flag-5'>NVIDIA</b>通过全新 Omniverse库、Cosmos物理AI模型及AI计算<b class='flag-5'>基础设施</b>,为机器人领域开启新篇章

    欧洲联手NVIDIA打造AI基础设施

    NVIDIA 于近日宣布,其正在携手欧洲各国、科技和行业领导者,共同建造 NVIDIA Blackwell AI 基础设施,以强化数字主权、支撑经济增长,并推动欧洲大陆成为 AI 工业革命的领导者。
    的头像 发表于 06-16 14:25 1106次阅读

    维谛加速推进人工智能基础设施演进,助力NVIDIA 800 VDC 电源架构发布

    为适配下一代AI工厂的需求,维谛规划在2026年推出800VDC解决方案,支撑英伟达NVIDIA整机柜计算平台。作为全球领先的关键数字基础设施及连续性解决方案提供商,维谛(Vertiv
    的头像 发表于 05-22 14:18 825次阅读
    维谛加速推进人工智能<b class='flag-5'>基础设施</b>演进,助力<b class='flag-5'>NVIDIA</b> 800 VDC 电源架构发布

    NVIDIA推出NVLink Fusion技术

    NVIDIA 发布 NVIDIA NVLink Fusion,这款全新芯片将助力行业用户通过全球领先且广泛采用的计算互连架构 —— NVIDIA NVLink 打造的强健合作伙伴生态系统,构建
    的头像 发表于 05-22 09:59 706次阅读

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案
    的头像 发表于 05-22 09:50 732次阅读

    NVIDIA携手谷歌助力企业引入代理式AI

    谷歌 Gemini 模型即将支持本地部署,可通过搭载 NVIDIA Blackwell 架构的基础设施,在 Google 分布式上运行 NVIDIA 机密计算。
    的头像 发表于 04-11 16:32 905次阅读

    PoE交换机如何助力智慧城市基础设施建设?

    迈向数字化转型,PoE交换机在构建智慧城市网络中的作用日益重要。PoE技术为现代城市提供高效、可靠的供电和数据传输基础设施,为智慧设备和系统的无缝集成奠定基础。随着智慧城市需求的不断演进,PoE交换机将在灵活、可扩展和可持续的城
    发表于 03-25 10:20

    英伟达GTC2025亮点:NVIDIA与行业领先存储企业共同推出面向AI时代的新型企业基础设施

    存储提供商构建搭载 AI 查询智能体的基础设施,利用 NVIDIA 计算、网络和软件,针对复杂查询进行推理并快速生成准确响应 NVIDIA 推出了
    的头像 发表于 03-21 09:42 1061次阅读

    NVIDIA 与行业领先的存储企业共同推出面向 AI 时代的新型企业基础设施

    存储提供商构建搭载 AI 查询智能体的基础设施,利用 NVIDIA 计算、网络和软件,针对复杂查询进行推理并快速生成准确响应   美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年
    发表于 03-19 10:11 414次阅读
    <b class='flag-5'>NVIDIA</b> 与行业领先的存储企业共同推出面向 AI 时代的新型企业<b class='flag-5'>基础设施</b>

    华为打造移动AI时代领先电信基础设施

    使能平台,助力运营商电信基础设施从架构、自动化、绿色、AI等方面全面升级,从容应对复杂网络挑战,使能AI业务创新,打造移动AI时代领先电信基础设施。 从电报、电话、移动通信、移动互联网,再到如今的AI、、量子技术,人类历史上的
    的头像 发表于 03-08 11:39 1106次阅读

    AWS印度投资83亿美元扩建基础设施

    近日,亚马逊科技宣布了一项重大投资决策。作为到2030年在印度投资127亿美元计划的关键一环,该公司将向印度马哈拉施特拉邦的基础设施项目投入83亿美元,旨在进一步扩大印度的计算能
    的头像 发表于 01-24 13:56 828次阅读

    RAKsmart公司介绍:全球领先的互联网基础设施服务提供商

    RAKsmart公司介绍:全球领先的互联网基础设施服务提供商。
    的头像 发表于 01-13 16:24 1291次阅读

    亚马逊科技AI Networking解决方案回顾

    前一段时间的2024 re:Invent 大会中,亚马逊科技可谓是重磅连连,发布了全套最新AI networking基础设施方案
    的头像 发表于 12-27 11:25 1930次阅读
    亚马逊<b class='flag-5'>云</b>科技AI Networking解决<b class='flag-5'>方案</b>回顾

    高鸿信安全国产可信低空经济信息基础设施解决方案

    全国产可信低空经济信息基础设施解决方案以可信信息基础设施为根基,运用国产平台及可信计算技术,在操作系统层及管理层部署可信计算系列软件,实现关键信息设备的内生安全,为系统构建主动防御的能
    的头像 发表于 12-13 10:13 1025次阅读
    高鸿信安全国产可信低空经济信息<b class='flag-5'>基础设施</b>解决<b class='flag-5'>方案</b>