0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业可在Kubernetes上轻松扩展NVIDIA GPU

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 14:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。

通过使用 Kubernetes 简化 GPU 的部署和管理, GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。

GPU Operator 1.9 现已推出,其中包括几个关键功能,以及其他更新,使用户可以更快地开始使用并保持不间断服务。

GPU 操作员 1.9 包括:

支持使用 DGX 操作系统的 NVIDIA DGX A100 系统

简化的安装过程

使用 DGX 操作系统支持 DGX A100

对于 1.9 , GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件,包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建端到端可扩展计算平台。

DGX A100 配备了世界上最先进的加速器,使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在,有了 GPU 运营商的支持,企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。

简化的安装过程

对于 GPU 运营商的早期版本,使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利,以便成功使用 GPU 运营商。由于授权密钥过期,用户需要重新应用这些密钥,以确保其工作流程不会中断。

GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是,对于断开连接的集群,它消除了对私有包存储库的依赖。

版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持,对预装 MOFED 使用 GPUDirect RDMA 的支持,对容器运行时的自动检测,以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。

此外, GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。

GPU 操作员 1.9 :

helm install --wait --generate-name nvidia/gpu-operator

GPU 操作员 1.8 及更早版本:

helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd

GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中, K8s 管理员必须按照文档 禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。

GPU 操作员资源

以下资源可用于使用 NVIDIA GPU 运营商:

GPU 操作员 1.9 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

关于作者

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5511

    浏览量

    109159
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5111

    浏览量

    134515
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 599次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 3167次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的头像 发表于 08-18 11:50 1049次阅读

    NVIDIA Jetson AGX Thor开发者套件概述

    NVIDIA Jetson AGX Thor 开发者套件为您提供出色的性能和可扩展性。它由 NVIDIA Blackwell GPU和128 GB 显存提供动力支持,提供高达 2070
    的头像 发表于 08-11 15:03 1635次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo,包括由
    的头像 发表于 07-28 14:31 801次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对亚马逊云科技服务的支持

    生产环境中Kubernetes容器安全的最佳实践

    随着容器化技术的快速发展,Kubernetes已成为企业级容器编排的首选平台。然而,在享受Kubernetes带来的便利性和可扩展性的同时,安全问题也日益凸显。本文将从运维工程师的角度
    的头像 发表于 07-14 11:09 516次阅读

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展NVIDIA Blueprint)相结合,为各国和企业简化了全栈式 AI 开发
    的头像 发表于 06-16 14:28 1119次阅读

    如何在Ubuntu安装NVIDIA显卡驱动?

    专有显卡驱动。本文将详细介绍在Ubuntu系统安装NVIDIA显卡驱动的多种方法,帮助用户根据自身情况选择最适合的安装方式。 二,硬件参数 平台:PX22_GPU CPU:I7-1165G7
    的头像 发表于 05-07 16:05 2112次阅读
    如何在Ubuntu<b class='flag-5'>上</b>安装<b class='flag-5'>NVIDIA</b>显卡驱动?

    NVIDIA虚拟GPU 18.0版本的亮点

    NVIDIA 虚拟 GPU(vGPU)技术可在虚拟桌面基础设施(VDI)中解锁 AI 功能,使其比以往更加强大、用途更加广泛。vGPU 通过为各种虚拟化环境中的 AI 驱动工作负载提供动力,提高了
    的头像 发表于 04-07 11:28 1167次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 1096次阅读

    英伟达GTC2025亮点:NVIDIA认证计划扩展企业存储领域,加速AI工厂部署

    全新的存储认证和参考架构让企业 IT 部门能更轻松地选择和部署 AI 基础设施,实现最优的性能和能效。 AI 部署的成功依靠速度、数据和规模。因此,NVIDIA 正在扩展
    的头像 发表于 03-21 19:38 1742次阅读

    英伟达GTC25亮点:NVIDIA Dynamo开源库加速并扩展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 的推理优化
    的头像 发表于 03-20 15:03 1090次阅读

    Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理

    Oracle 数据库与 NVIDIA AI 相集成,使企业能够更轻松、快捷地采用代理式 AI       美国加利福尼亚州圣何塞 —— GTC  —— 2025 年 3 月 18 日
    发表于 03-19 15:24 479次阅读
    Oracle 与 <b class='flag-5'>NVIDIA</b> 合作助力<b class='flag-5'>企业</b>加速代理式 AI 推理

    解锁新应用:探索GPU扩展是如何提升渲染农场的工作效率

    联瑞GPU扩展方案在渲染农场的应用,是在原有计算机设备的基础增加GPU的数量,不用额外购买GPU服务器,有效的帮助
    的头像 发表于 01-09 17:13 640次阅读
    解锁新应用:探索<b class='flag-5'>GPU</b><b class='flag-5'>扩展</b>是如何提升渲染农场的工作效率

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1294次阅读