0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Red Hat和NVIDIA构建集成云就绪基础设施方案

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-07 14:45 次阅读

IT 世界正在向云转移,云是建立在 Kubernetes 管理的容器上的。我们认为,下一个合乎逻辑的步骤是使用数据处理器( DPU )加速这一基础设施,以提高性能、效率和安全性。

Red Hat 和 NVIDIA 正在构建一个集成的云就绪基础设施解决方案, Red Hat OpenShift 的管理和自动化,以及 NVIDIA BlueField DPU 。

红帽 OpenShift 的好处

许多流行的云基础设施项目使用 Kubernetes 管理的容器。然而,实施 Kubernetes 可能是一项艰巨的任务,尤其是对于那些无法投入专职人员成为 Kubernetes 专家的组织来说。

Red Hat OpenShift 为管理 Kubernetes 容器以及应用程序部署、更新和生命周期管理提供了一套强大的功能。 OpenShift 包括自动化和安全工具,以及受支持的开源模型,以使云基础设施更经济、可靠和可扩展。

根据 2021 的数据, 85% 以上的容器编排项目都使用了 Red Hat 调查, Kubernetes ,而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最流行选择。 OpenShift 是业界领先的企业 Kubernetes 平台,财富 500 强中超过 50% 的商业银行、电信公司和航空公司都使用该平台。

显然,大多数企业都想要一个受支持的 Kubernetes 模型, Red Hat OpenShift 是最受欢迎的选择之一。

DPU 的工作原理

DPU 卸载、加速基础设施工作负载,并将其与服务器的 CPU 隔离。例如, BlueField DPU 可以从 CPU 上卸载网络、网络虚拟化、数据加密和时间同步任务,并在特制的硅上运行。

其他基础设施软件,如远程管理、防火墙代理、网络控制平面和存储虚拟化,可以在 BlueField 的 Arm 处理器内核上运行。这样做可以释放服务器的 CPU 内核,而这些内核可以运行应用程序和租户工作负载。

该功能还将基础设施和安全工作负载隔离在单独的域中。结果是一组服务器以更快的网络运行更多的应用程序,提高了数据中心的效率和安全性。

在一个典型的云基础设施中,网络流量会穿越物理服务器和在这些服务器上运行的容器。这需要在每台服务器中都有一个分组交换解决方案,为了获得最大的效率,应用程序容器需要一种与 DPU 的加速网络卸载进行通信的方式。

传统的方法是通过 Kubernetes 和开放虚拟网络( OVN )访问开放虚拟交换机(开放虚拟交换机或 OVS )。 OVN 提供网络抽象,默认部署策略是在主机服务器的 CPU 上同时运行 OVN 和 OVS 。

然而,当网络速度超过 10 Gbps 时,这种方法会消耗大量 CPU 核。 Kubernetes 需要一个解决方案来在 DPU 上运行 OVN 和 OVS 功能,这样所有的数据包交换、报头重写、封装/去封装和数据包过滤都可以在网络硬件上完成,而不是在 CPU 上的软件中完成。

增加红帽和 NVIDIA 之间的网络集成

红帽和 NVIDIA 已经合作,将 OpenShift 的管理能力与 DPU 的加速能力相结合。

带有 Red Hat Enterprise Linux 的 整合的第一阶段始于 2018 年 将网络流量卸载到 NVIDIA ConnectX SmartNIC 。网络数据平面(使用 OVS 或 DPDK )在 SmartNIC ASIC 上运行,但网络控制平面仍完全在 X86 CPU 上的软件中运行。

pYYBAGJ2FYaAdO2sAAEJwlrlZDc662.png

图 1 。运行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通过 OVS 将网络数据平面卸载到 NVIDIA ConnectX SmartNIC ,而控制平面在 X86 CPU 上运行 。

2021 ,两家公司采取了下一步行动,将 Red Hat OpenShift 与 NVIDIA BlueField DPU 一起部署,并进行了性能基准测试。在 NVIDIA GTC 2021 年,我们 demonstrated 讨论了将网络转移到 DPU 的优势,并发表了一篇文章 通过将网络功能转移到 NVIDIA BlueField-2 DPU ,优化数据中心的服务器利用率 。

在这个解决方案中,带有覆盖卸载( OVS 和 Geneve 卸载)的网络数据平面和网络控制平面(在 OVN Kubernetes 吊舱中)在 DPU 上运行,并带有 Red Hat Enterprise Linux 。 OpenShift 的主要组件,包括 Red Hat Enterprise Linux CoreOS ,仍保留在 x86 CPU 上。

pYYBAGJ2FYeAKqIxAADbUGWAGkU277.png

图 2 。运行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通过 OVN 和 OVS 将网络数据平面和控制平面卸载到 BlueField-2 DPU 。 DPU 在其 Arm 内核上运行 Red Hat Enterprise Linux 。

在图 2 中的部署场景中, BlueField-2 在以下方面起着重要作用:

Geneve (虚拟覆盖网络)封装/去封装

IPsec 封装/去封装

加密/解密路由

网络地址转换( NAT )

主机 CPU 和容器只看到简单的未封装、未加密的数据包, CPU 不需要执行任何这些任务,因为它们被卸载到 DPU 。这种负载水平将 CPU 利用率降低了 70% ,释放了每台服务器上的大量 CPU 电源,以运行额外的业务/租户工作负载。

在 DPU 上运行 OpenShift

如 2022 年 GTC 所述 , Red Hat 和 NVIDIA 已经迈出了下一步,将 OpenShift (包括 Red Hat Enterprise Linux CoreOS )迁移到 BlueField DPU 的 Arm 内核上运行 Red Hat OpenShift 双集群设计 这包括独立的租户和基础设施集群。

Red Hat Enterprise Linux CoreOS 是 OpenShift 控制平面或主节点和工作节点支持的操作系统。这是 OpenShift 中执行调度、维护、升级和群集自动化的部分。它包括容器管理工具和安全加固,使其更能抵御黑客攻击,现在它可以在主机 x86 CPU 和 DPU Arm 内核上运行。

BlueField DPU 在各种主机服务器上运行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ,形成了一个基础架构工作集群。同时,在 x86 CPU 上运行的 OpenShift 管理租户吊舱和集群。

将 OpenShift 基础架构群集软件卸载到 BlueField Arm 内核上而不是主机 x86 内核上运行,可以节省额外的 x86 CPU 开销、更高的性能和更强的安全隔离。

poYBAGJ2FYmAeRbtAAJKBEvgoGM834.png

图 3 。从 Red Hat OpenShift 4.10 开始,您可以在 x86 CPU 上运行 OpenShift 来管理租户,也可以在 BlueField DPU Arm 内核上运行 OpenShift 来管理集群基础架构。

云本机、软件定义的网络是 BlueField DPU 用例的一个很好的例子,在 BlueField DPU 环境中,OVN和OVS在 BlueField DPU 上运行并由其卸载。许多其他基础设施服务,如网络加密、防火墙代理、虚拟路由器、遥测代理等,也可以在 DPU 上运行,以获得更大的好处。

OpenShift 在 DPU 上卸载带来了显著的成本节约效益

为了了解 DPU 卸载对降低数据中心成本的影响, NVIDIA 和 Red Hat 为一个配备 51K 服务器的中型数据中心构建了一个 TCO 模型。我们认为该数据中心支持 100 万个应用程序,每个应用程序需要每秒 10 万个数据包( PPS )的交换性能。

我们考虑了 两种服务器部署方案 :有无 DPU :

没有 DPU 完全在软件中运行虚拟交换的服务器仅实现 350k PPS 。

使用 DPU 将 OVN 和 OVS 卸载到 DPU 的服务器的性能提高了 54 倍,达到每台服务器 1870 万个 PPS 。

将虚拟交换机卸载到 DPU 上也为每台服务器节省了八个 CPU 内核。基于此测试, TCO 模型产生了 6850 万美元的惊人资本支出节约 。 这些节约是通过减少 10K DPU 增强型服务器而实现的,这是因为每台服务器具有更高的网络性能和 CPU 核心节约。

我们看到,由于服务器占地面积较小而节省了电力,这最终导致基于 DPU 的服务器具有更好的 TCO 模型。随着我们将负载平衡器、防火墙、加密、 web 服务器等附加功能卸载到 DPU ,这些 TCO 节约将变得更好,最终为支持云计算的数据中心实现惊人的效率。

解决方案路线图和在 BlueField 上部署 OpenShift

在 BlueField 上运行 OpenShift 的双集群 OpenShift 体系结构现已在 OpenShift 4.10 中作为开发者预览版或早期试用版提供,预计将于 2022 年正式提供。

但 NVIDIA 和红帽队并没有就此止步。我们计划测试网络流量加密/解密的卸载,因为这是一项 CPU 密集型任务。

BlueField-2 DPU 可以以高达 100 Gbps 的速度卸载 IPsec 加密/解密,以高达 200 Gbps 的速度卸载 TLS 加密/解密。

BlueField-3 预计将以更高的速度支持 IPSec 、 TLS 和 MACsec 。

从 OpenShift 到 DPU 的线速加密卸载的实施将提高租户的数据安全性,并帮助您更接近零信任安全状态。

与 DPU 的其他潜在集成包括更复杂的软件定义的网络卸载、在 BlueField 上运行防火墙代理、精确时间同步、带数据包速度的视频流,以及使用 DPU 收集遥测数据。

蓝田 -2 DPU 现在可从 NVIDIA 获得,蓝田 -3 DPU 将于 2022 年晚些时候开始采样。此外, BlueField DPU 不久将在 NVIDIA LaunchPad 云服务中进行测试。

如果您想在运行 NVIDIA BlueField DPU 的 Red Hat OpenShift 上进行测试或开发,请使用 表明你的兴趣 。

总结

如果您的公司希望在数据中心采用云原生计算, NVIDIA BlueField DPU 、 Red Hat Enterprise Linux 和 Red Hat OpenShift 的组合将提供一个高效、创新的开放式混合云平台,具有新的安全功能。这个强大的平台提供硬件加速功能,以运行关键的软件定义的网络、存储和安全功能。

现在,可以分配更多的服务器资源来运行云本地工作负载,以及传统的业务应用程序。

关于作者

Ash Bhalgat 是 NVIDIA 网络业务部门的云和电信市场开发高级总监。他领导云和电信解决方案、技术营销和合作伙伴生态系统业务开发,以推动网络投资组合收入和市场份额增长。

John Kim 是 NVIDIA 网络事业部的存储市场总监,致力于帮助客户和供应商从高性能网络连接、智能网卡卸载和远程直接数据存取 (RDMA) 中获益,尤其是在存储、大数据和人工智能领域。John 是非常活跃的博主、会议演讲嘉宾和网络直播节目主持人,也是存储网络行业协会网络存储论坛 (SNIA NSF) 的主席。John的高科技生涯从 IT 支持人员和网络管理员开始,先后在NetApp 和 EMC等企业级软件公司以及存储供应商从事解决方案市场、产品管理和生态联盟工作。他于 2013 年加入 Mellanox,之后于 2020 年加入 NVIDIA。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4541

    浏览量

    101472
  • 数据中心
    +关注

    关注

    15

    文章

    4125

    浏览量

    69343
  • 大数据
    +关注

    关注

    64

    文章

    8576

    浏览量

    136514
收藏 人收藏

    评论

    相关推荐

    垂直起降机场:飞行基础设施的未来是绿色的

    电动垂直起降(eVTOL)飞机的日益发展为建立一个新的网络来支持它们提供了理由,这将推动开发绿色基础设施新模式的机会。这些电气化的“短途”客运和货运飞机通常被描述为飞行汽车,是区域飞行和城市出租车
    发表于 03-25 06:59

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA Spectrum-X800 以太网络,数据中心必备的优化 AI 网络
    发表于 03-19 10:05 80次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI <b class='flag-5'>基础设施</b>

    KVM矩阵系统助力企业构建高效、安全的IT基础设施

    随着企业信息化程度的不断提高,IT基础设施的重要性日益凸显。如何构建高效、安全的IT基础设施成为了企业面临的重要挑战。KVM矩阵系统作为一种先进的远程管理解决方案,以其高效、灵活、安全
    的头像 发表于 02-18 14:53 250次阅读

    《数据处理器:DPU编程入门》读书笔记

    ,实现了由传统基础设施到现代基于“零信任”环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。 卸载AI、机器学习、安全
    发表于 12-21 10:47

    利用 NVIDIA AI Foundation Models 构建自定义企业级生成式 AI

    在生成式 AI 领域,构建企业级大语言模型(LLM)需要具备采集高质量数据、设置加速基础设施和优化模型方面的专业知识。 开发者可以从预训练模型开始,根据自己的用例对模型进行微调,从而节省时间并使其
    的头像 发表于 11-17 21:30 394次阅读
    利用 <b class='flag-5'>NVIDIA</b> AI Foundation Models <b class='flag-5'>构建</b>自定义企业级生成式 AI

    NVIDIA 校招 | 基础设施部门正在热招!

    时代带来了新动力 - GPU 在能够感知和理解世界的计算机、机器人和自动驾驶汽车中发挥着大脑的作用。 NVIDIA 成功的一个核心因素是我们拥有 GPU / SoC 开发所需要的先进的基础设施和完整
    的头像 发表于 10-26 09:05 266次阅读
    <b class='flag-5'>NVIDIA</b> 校招 | <b class='flag-5'>基础设施</b>部门正在热招!

    嵌入式软件架构基础设施设计方法

    基础设施,分为硬件基础设施和软件基础设施。硬件基础设施,包含常用器件库、封装库、原理图库和硬件参考设计等等;而今天我们讨论的重点,主要在于软件基础设
    的头像 发表于 10-12 16:09 376次阅读

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    。为了帮助满足这一需求,Oracle 云基础设施(OCI)于近日宣布,在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core GPU ,同时 NVIDIA L40S GPU
    的头像 发表于 09-25 20:40 274次阅读
    Oracle 云<b class='flag-5'>基础设施</b>提供新的 <b class='flag-5'>NVIDIA</b> GPU 加速计算实例

    NVIDIA AI Enterprise 4.0 推出,助力企业构建生产就绪的生成式 AI 为业务赋能

    时。NVIDIA 正在将专业知识投入到解决方案的开发过程中,助力企业实现这样的飞跃。 推出 NVIDIA AI Enterprise 4.0 最新版  NVIDIA AI Enterp
    的头像 发表于 09-19 20:20 373次阅读
    <b class='flag-5'>NVIDIA</b> AI Enterprise 4.0 推出,助力企业<b class='flag-5'>构建</b>生产<b class='flag-5'>就绪</b>的生成式 AI 为业务赋能

    最大化数据库性能在虚拟Red Hat Enterprise Linux环境

    电子发烧友网站提供《最大化数据库性能在虚拟Red Hat Enterprise Linux环境.pdf》资料免费下载
    发表于 08-03 11:06 0次下载
    最大化数据库性能在虚拟<b class='flag-5'>Red</b> <b class='flag-5'>Hat</b> Enterprise Linux环境

    自动驾驶对公路基础设施有何深刻影响

    自动驾驶对公路基础设施的影响主要包括物理基础设施、交通控制设备(TCD)和其它路边基础设施、运输管理和运营系统(TSMO)及其基础设施、多 式联运
    发表于 06-01 14:25 0次下载
    自动驾驶对公路<b class='flag-5'>基础设施</b>有何深刻影响

    基于云解决方案基础设施

    我们的团队可以帮助您选择正确的平台,并迁移您的服务器、数据库和应用程序。基于云解决方案基础设施有助于最大的企业和增长最快的初创企业变得更加敏捷,并降低成本。
    的头像 发表于 05-30 09:13 249次阅读

    Red Hat和Arm为云、边缘和电信部署解锁软件创新

    Arm和Red Hat在多个标准化工作中合作,推动整个硬件和软件生态系统的创新。由Arm推动的关键标准化计划之一是SystemReady。SystemReady是一个基于一组硬件和固件标准的合规性认证计划,确保软件的后续层,特别是操作系统(OS),在Arm体系结构上无缝运
    的头像 发表于 05-29 10:21 424次阅读

    NVIDIA 与微软合作加速企业就绪的生成式 AI

    NVIDIA AI Enterprise 与 Azure 机器学习集成,提供端到端云平台,供开发者构建、部署和管理大型语言模型的 AI 应用 微软 Build 大会——太平洋时间 2023
    的头像 发表于 05-25 09:15 353次阅读
    <b class='flag-5'>NVIDIA</b> 与微软合作加速企业<b class='flag-5'>就绪</b>的生成式 AI

    算力基础设施关键技术

    算力基础设施是算力网络的核心,以构建高效、灵活、敏捷的算力基础设施为目标,积极引入云原生、无服务器计算、异构计算、算力卸载等技术,探索算力原生、存算一体等新方向, 持续增强算力能力,释放算力价值
    发表于 05-24 16:38 7次下载
    算力<b class='flag-5'>基础设施</b>关键技术