0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA操作符加速Kubernetes

星星科技指导员 来源:NVIDIA 作者:Troy Estes 2022-04-11 16:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Kubernetes 是一个开源的容器编排系统,用于自动化计算机应用程序部署、扩展和管理。它是一个非常流行的工具,可以用于自动展开和回滚、水平扩展、存储编排等。对于许多组织来说, Kubernetes 是其基础架构的关键组件。

安装和扩展 Kubernetes 的一个关键步骤是确保它正确利用基础设施的其他组件。 NVIDIA 运营商优化 Kubernetes 上的 GPU 和 NIC 的安装和管理,使软件堆栈能够在云中运行最需要资源的工作负载,如 AI 、 ML 、 DL 和 HPC ,数据中心和边缘。 NVIDIA 运营商由 GPU 运营商和网络运营商组成,是开源的,基于运营商框架。

NVIDIA GPU 运算符

NVIDIA GPU 操作符被打包为一个 Helm 图表,并安装和管理软件组件的生命周期,以便 GPU 加速的应用程序可以在 Kubernetes 上运行。这些组件包括 GPU 功能发现、 NVIDIA 驱动程序、 Kubernetes 设备插件、 NVIDIA 容器工具包和 DCGM 监控。

GPU 操作符使基础结构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期,因此无需单独管理每个节点。以前,基础架构团队必须管理两个操作系统映像,一个用于 GPU 节点,另一个用于 CPU 节点。当使用 GPU 操作符时,基础设施团队也可以将 CPU 映像与 GPU 工作节点一起使用。

NVIDIA 网络运营商

网络运营商负责自动化 Kubernetes 集群中主机网络组件的部署和管理。它包括 Kubernetes 设备插件、 NVIDIA 驱动程序、 NVIDIA 对等内存驱动程序和 Multus 、 macvlan CNIs 。这些组件以前是手动安装的,但通过网络运营商实现了自动化,简化了部署过程,并通过增强的客户体验实现了加速计算。

单独或一起使用, NVIDIA 操作符简化了 Kubernetes 上的 GPU 和 SmartNIC 配置,并与合作伙伴云平台兼容。要了解有关这些组件的更多信息,以及 NVIDIA 操作员如何解决运行 AI 、 ML 、 DL 和 HPC 工作负载的关键挑战,并简化初始设置和第 2 天操作,请查看按需网络研讨会“ 用 NVIDIA Operators 加速 Kubernetes ”。

关于作者

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109048
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134419
  • 计算机
    +关注

    关注

    19

    文章

    7763

    浏览量

    92666
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Co
    的头像 发表于 12-01 09:25 464次阅读

    C语言位操作符

    C 语言位操作符包括按位与( )、按位或(|)、按位异或(^)、按位取反(~)、左移(<<)和右移(>>)。 按位与( ) 只有当两个二进制位
    发表于 11-21 07:52

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA Dynamo,包括由 NVIDIA Blackwell
    的头像 发表于 07-28 14:31 770次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对亚马逊云科技服务的支持

    NVIDIA RTX AI加速FLUX.1 Kontext现已开放下载

    NVIDIA RTX 与 NVIDIA TensorRT 现已加速 Black Forest Labs 的最新图像生成和编辑模型;此外,Gemma 3n 现可借助 RTX 和 NVIDIA
    的头像 发表于 07-16 09:16 1854次阅读

    NVIDIA全栈加速代理式AI应用落地

    在近期举办的 AWS 中国峰会上,NVIDIA 聚焦于“NVIDIA 全栈加速代理式 AI 应用落地”,深入探讨了代理式 AI (Agentic AI) 技术的前沿发展以及在企业级应用中的深远影响。本文将为您详细介绍此次分享的技
    的头像 发表于 07-14 11:41 1051次阅读

    NVIDIA Isaac Sim与NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了机器人仿真参考应用 NVIDIA Isaac Sim 和机器人学习框架 NVIDIA Isaac Lab 的更新,以加速各种形态
    的头像 发表于 05-28 10:06 1745次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 AI 应用的发展。
    的头像 发表于 05-27 14:03 751次阅读

    Kubernetes Helm入门指南

    Helm 是 Kubernetes 的包管理工具,它允许开发者和系统管理员通过定义、打包和部署应用程序来简化 Kubernetes 应用的管理工作。Helm 的出现是为了解决在 Kubernetes
    的头像 发表于 04-30 13:42 2893次阅读
    <b class='flag-5'>Kubernetes</b> Helm入门指南

    NVIDIA Cosmos加速机器人和自动驾驶汽车物理AI发展

    NVIDIA Cosmos 通过可预测未来世界状态的世界基础模型加速物理 AI 的发展。
    的头像 发表于 04-24 11:01 935次阅读
    <b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>加速</b>机器人和自动驾驶汽车物理AI发展

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 888次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark助力企业节省大量成本

    英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速计算和推理软件与 Oracle 的
    的头像 发表于 03-21 12:01 1171次阅读
    英伟达GTC2025亮点:Oracle与<b class='flag-5'>NVIDIA</b>合作助力企业<b class='flag-5'>加速</b>代理式AI推理

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速计算和推理软件与 Oracle 的 AI 基础设施以及生成式 AI 服务首次实现集成,以帮助全球企业组织加速创建代理式
    发表于 03-19 15:24 467次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力企业<b class='flag-5'>加速</b>代理式 AI 推理

    利用NVIDIA DPF引领DPU加速云计算的未来

    越来越多的企业开始采用加速计算,从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架(DPF),该框架提供了基础构建模块来释放 NVIDIA BlueField
    的头像 发表于 01-24 09:29 1260次阅读
    利用<b class='flag-5'>NVIDIA</b> DPF引领DPU<b class='flag-5'>加速</b>云计算的未来

    简述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布了对NVIDIA Isaac的重要更新。NVIDIA Isaac 是一个由加速库、应用框架和 AI 模型组成的平台,可
    的头像 发表于 01-17 09:57 1742次阅读
    简述<b class='flag-5'>NVIDIA</b> Isaac的重要更新

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA GPU:详细列出了支持
    发表于 12-16 14:25