0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用GPU Operator 1.8简化GPU对部署场景的管理

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-11 16:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在本文中,我们将介绍 GPU Operator release 1.8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:

增加了对 GPU 操作员升级的支持

支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器

支持收集 GPU 操作员状态指标

GPU 运营商和网络运营商改进多节点培训

支持 Red Hat OpenShift 4.8

NVIDIA 软件生命周期管理

GPU Operator 的 1.8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。

从 1.8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1.8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1.8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合: NVIDIA 加速计算和联网

最近, NVIDIA 发布了 NVIDIA Network Operator 。 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布 。

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7

GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7

GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6

GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4

概括

以下资源可用于使用 NVIDIA GPU 运算符:

GPU 操作员 1.8 发行说明

入门指南

GPU NGC 上的操作员舵图

GitHub 上的 GPU 运算符

NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。

关于作者

Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。

Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109087
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74649
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    汽车中的GPU是如何使用的?

    。我们从GPU在汽车中的应用场景及其具体需求出发,深入探讨了GPU对汽车行业发展的影响,并对未来趋势提出了关键判断。1、GPU计算在汽车中的应用场景
    的头像 发表于 12-03 14:45 4906次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    分析GPU核心参数体系:算力、显存大小、显存带宽、热门架构特性等关键指标,旨在帮您理解不同应用场景下,如何选择最合适的GPU算力解决方案。1、算力GPU执行浮点运算
    的头像 发表于 10-09 09:28 577次阅读
    如何看懂<b class='flag-5'>GPU</b>架构?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    GPU架构深度解析

    、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。1、GPU架构的演变早期的GPU采用固定功能流水线架构,专为图形渲染任务而
    的头像 发表于 05-30 10:36 1319次阅读
    <b class='flag-5'>GPU</b>架构深度解析

    可以手动构建imx-gpu-viv吗?

    使用 imx-gpu-viv-6.4.3.p4.2.aarch64.bin。 https://www.nxp.com/lgfiles/NMG/MAD/YOCTO//imx-gpu-viv-6.4.3.p4.2-aarch64.bin 我需要
    发表于 03-28 06:35

    极速部署!GpuGeek提供AI开发者的云端GPU最优解

    在AI开发领域,算力部署的效率和资源调度的灵活性直接影响研发进程与创新速度。随着模型复杂度的提升和全球化协作需求的增长,开发者对GPU云服务的核心诉求已从单纯追求硬件性能,转向对部署效率、跨区域协作
    的头像 发表于 03-17 11:27 651次阅读
    极速<b class='flag-5'>部署</b>!GpuGeek提供AI开发者的云端<b class='flag-5'>GPU</b>最优解

    无法在GPU上运行ONNX模型的Benchmark_app怎么解决?

    在 CPU 和 GPU 上运行OpenVINO™ 2023.0 Benchmark_app推断的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失败。
    发表于 03-06 08:02

    如何在DL工作台中启用GPU/MYRIAD/HDDL?

    如何在 DL 工作台中启用 GPU/MYRIAD/HDDL
    发表于 03-05 07:03

    OpenVINO™检测到GPU,但网络无法加载到GPU插件,为什么?

    OpenVINO™安装在旧的 Windows 10 版本 Windows® 10 (RS1) 上。 已安装 GPU 驱动程序版本 25.20.100.6373,检测到 GPU,但网络无法加载
    发表于 03-05 06:01

    GPU渲染才是大势所趋?CPU渲染与GPU渲染的现状与未来

    在3D建模和渲染领域,随着技术的发展,CPU渲染和GPU渲染这两种方法逐渐呈现出各自独特的优势,并且在不同的应用场景中各有侧重。尽管当前我们处在一个CPU渲染和GPU渲染并行发展的时代,但随着硬件
    的头像 发表于 02-06 11:04 1232次阅读
    <b class='flag-5'>GPU</b>渲染才是大势所趋?CPU渲染与<b class='flag-5'>GPU</b>渲染的现状与未来

    GPU按需计费的优势

    GPU按需计费,是指用户根据实际使用的GPU资源和时间进行费用结算,而非传统的一次性购买或固定租赁模式。以下,是对GPU按需计费优势的总结,由AI部落小编整理。
    的头像 发表于 01-14 10:43 626次阅读

    FPGA+GPU+CPU国产化人工智能平台

    平台采用国产化FPGA+GPU+CPU构建嵌入式多核异构智算终端,可形成FPGA+GPU、FPGA+CPU、CPU+FPGA等组合模式,形成低功耗、高可扩展性的硬件系统,结合使用场景灵活搭配,已有
    的头像 发表于 01-07 16:42 1747次阅读
    FPGA+<b class='flag-5'>GPU</b>+CPU国产化人工智能平台

    Triton编译器与GPU编程的结合应用

    优化,以及生成高效的并行执行计划。 GPU编程的挑战 GPU编程面临的主要挑战包括: 编程复杂性 :GPU编程需要对硬件架构有深入的理解,包括线程、块和网格的概念。 内存管理
    的头像 发表于 12-25 09:13 1314次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    问题,但会降低旧GPU硬件性能,可通过NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些GPU计算需要启用,可通过命令行工具nvidia
    发表于 12-16 14:25