0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业可在Kubernetes上轻松扩展NVIDIA GPU

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 14:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。

通过使用 Kubernetes 简化 GPU 的部署和管理, GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。

GPU Operator 1.9 现已推出,其中包括几个关键功能,以及其他更新,使用户可以更快地开始使用并保持不间断服务。

GPU 操作员 1.9 包括:

支持使用 DGX 操作系统的 NVIDIA DGX A100 系统

简化的安装过程

使用 DGX 操作系统支持 DGX A100

对于 1.9 , GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件,包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建端到端可扩展计算平台。

DGX A100 配备了世界上最先进的加速器,使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在,有了 GPU 运营商的支持,企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。

简化的安装过程

对于 GPU 运营商的早期版本,使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利,以便成功使用 GPU 运营商。由于授权密钥过期,用户需要重新应用这些密钥,以确保其工作流程不会中断。

GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是,对于断开连接的集群,它消除了对私有包存储库的依赖。

版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持,对预装 MOFED 使用 GPUDirect RDMA 的支持,对容器运行时的自动检测,以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。

此外, GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。

GPU 操作员 1.9 :

helm install --wait --generate-name nvidia/gpu-operator

GPU 操作员 1.8 及更早版本:

helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd

GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中, K8s 管理员必须按照文档 禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。

GPU 操作员资源

以下资源可用于使用 NVIDIA GPU 运营商:

GPU 操作员 1.9 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

关于作者

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110288
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA与Google Cloud携手推进代理式与物理AI发展

    企业可以使用 NVIDIA Vera Rubin 驱动的 A5X 实例 (可扩展至近 100 万个 Rubin GPU)、Google Distributed Cloud
    的头像 发表于 04-27 15:35 596次阅读

    NVIDIAKubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模 AI 工作负载的全新开源项目。
    的头像 发表于 04-01 09:10 877次阅读

    Oracle和NVIDIA合作加速向量搜索和企业数据处理

    Oracle 和 NVIDIA 正在与客户合作,将 GPU 加速的向量索引构建应用于实际工作负载。Oracle Private AI Services Container 初期支持 CPU 执行,现
    的头像 发表于 03-23 15:26 541次阅读

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    的部署、监控和维护,让即使不具备深厚Kubernetes知识的用户也能轻松管理集群。 1.2 核心价值:可视化多集群管理 KubePi允许管理员导入多个Kubernetes集群,并通过精细的权限控制将不
    发表于 02-11 12:53

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 630次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 4896次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 2111次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1564次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 7290次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4593次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 20
    的头像 发表于 08-18 11:50 1745次阅读

    NVIDIA Jetson AGX Thor开发者套件概述

    NVIDIA Jetson AGX Thor 开发者套件为您提供出色的性能和可扩展性。它由 NVIDIA Blackwell GPU和128 GB 显存提供动力支持,提供高达 2070
    的头像 发表于 08-11 15:03 2156次阅读

    NVIDIA Dynamo新增对亚马逊云科技服务的支持

    亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo,包括由
    的头像 发表于 07-28 14:31 1187次阅读
    <b class='flag-5'>NVIDIA</b> Dynamo新增对亚马逊云科技服务的支持

    生产环境中Kubernetes容器安全的最佳实践

    随着容器化技术的快速发展,Kubernetes已成为企业级容器编排的首选平台。然而,在享受Kubernetes带来的便利性和可扩展性的同时,安全问题也日益凸显。本文将从运维工程师的角度
    的头像 发表于 07-14 11:09 1021次阅读

    NVIDIA技术助力企业创建主权AI智能体

    AI Factory 的经验证设计将加速基础设施与软件(包括全新 NVIDIA NIM 微服务和经扩展NVIDIA Blueprint)相结合,为各国和企业简化了全栈式 AI 开发
    的头像 发表于 06-16 14:28 1608次阅读