0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用GPU Operator 1.8简化GPU对部署场景的管理

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 16:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本文中,我们将介绍 GPU Operator release 1.8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:

增加了对 GPU 操作员升级的支持

支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器

支持收集 GPU 操作员状态指标

GPU 运营商和网络运营商改进多节点培训

支持 Red Hat OpenShift 4.8

NVIDIA 软件生命周期管理

GPU Operator 的 1.8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。

从 1.8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1.8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1.8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合: NVIDIA 加速计算和联网

最近, NVIDIA 发布了 NVIDIA Network Operator 。 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布 。

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4

概括

以下资源可用于使用 NVIDIA GPU 运算符:

GPU 操作员 1.8 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。

关于作者

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5687

    浏览量

    110117
  • 数据中心
    +关注

    关注

    18

    文章

    5767

    浏览量

    75208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2?
    发表于 03-13 06:38

    Visionfive 2 缺少文件img-gpu-powervr-bin-1.17.6210866.tar.gz怎么解决?

    您好,我开始按照 SDK 快速入门指南构建镜像。 我失败了 WGEThttp://sources.buildroot.net/img-gpu
    发表于 03-11 07:08

    FPGA+GPU异构混合部署方案设计

    为满足对 “纳秒级实时响应” 与 “复杂数据深度运算” 的双重需求,“FPGA+GPU”异构混合部署方案通过硬件功能精准拆分与高速协同,突破单一硬件的性能瓶颈 ——FPGA聚焦低延迟实时交易链路,GPU承接高复杂度数据处理任务,
    的头像 发表于 01-13 15:20 488次阅读

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的头像 发表于 12-13 10:12 1429次阅读
    在Python中借助NVIDIA CUDA Tile<b class='flag-5'>简化</b><b class='flag-5'>GPU</b>编程

    汽车中的GPU是如何使用的?

    。我们从GPU在汽车中的应用场景及其具体需求出发,深入探讨了GPU对汽车行业发展的影响,并对未来趋势提出了关键判断。1、GPU计算在汽车中的应用场景
    的头像 发表于 12-03 14:45 9704次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    分析GPU核心参数体系:算力、显存大小、显存带宽、热门架构特性等关键指标,旨在帮您理解不同应用场景下,如何选择最合适的GPU算力解决方案。1、算力GPU执行浮点运算
    的头像 发表于 10-09 09:28 1538次阅读
    如何看懂<b class='flag-5'>GPU</b>架构?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、内容创作和 3D 可视化等应用的性能。
    的头像 发表于 08-18 11:50 1645次阅读

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    Cincoze GM-1100嵌入式MXM GPU工控机

    规格的GPU模块,无论是轻量级或高性能AI应用皆可弹性选择。模块化架构让后续升级更为便利,仅需更换MXM GPU模块即可,简化升级流程。 特殊散
    的头像 发表于 07-23 11:11 623次阅读
    Cincoze GM-1100嵌入式MXM <b class='flag-5'>GPU</b>工控机

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算,GPU凭借强大并行计算能力,极大提升运算效率。然而,就像高速运转的精密仪器易出状况
    的头像 发表于 07-17 18:56 1315次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端侧部署

    ImaginationTechnologies宣布率先完成百度文心大模型(ERNIE4.5开源版)在其GPU硬件上的端侧部署。适配完成后,开发者可在搭载ImaginationGPU的设备上实现高效
    的头像 发表于 07-01 08:17 1099次阅读
    Say Hi to ERNIE!Imagination <b class='flag-5'>GPU</b>率先完成文心大模型的端侧<b class='flag-5'>部署</b>

    GPU架构深度解析

    、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。1、GPU架构的演变早期的GPU采用固定功能流水线架构,专为图形渲染任务而
    的头像 发表于 05-30 10:36 2025次阅读
    <b class='flag-5'>GPU</b>架构深度解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 4920次阅读

    iTOP-3588S开发板四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB内存,32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。 内置NPU RK3588S内置NPU,支持INT4/INT8/INT16/FP16混合运算
    发表于 05-15 10:36