0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-04-01 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模 AI 工作负载的全新开源项目。

人工智能 (AI) 已迅速成为现代计算中最重要的工作负载之一。

对于绝大多数企业来说,AI 工作负载在 Kubernetes 上运行——一个可实现容器化应用的部署、扩缩容与管理自动化的开源平台。

为了使全球开发者社区能够更高效透明地管理高性能 AI 基础设施,NVIDIA 将向云原生计算基金会 (Cloud Native Computing Foundation, CNCF) 捐赠关键软件——NVIDIA 动态资源分配 (DRA) GPU 驱动程序。CNCF 是一个供应商中立组织,致力于促进和维护云原生生态系统。

该捐赠消息于本周在阿姆斯特丹举行的 CNCF 年度盛会 KubeCon Europe 上发布,此举标志着驱动程序从供应商管理转向 Kubernetes 项目治理,社区拥有完整的所有权。这种开放的环境鼓励更多的专家参与贡献想法,加速创新,并助力确保技术与现代云环境适配。

CNCF 首席技术官 Chris Aniszczyk 表示:“NVIDIA 与 Kubernetes 和 CNCF 社区深度合作,将 NVIDIA DRA GPU 驱动程序贡献至上游,是开源 Kubernetes 和 AI 基础设施的一个重要里程碑。通过将硬件创新与上游 Kubernetes 和 AI 兼容性工作相结合,NVIDIA 让高性能 GPU 编排工作更为无缝,且便于开发者使用。”

此外,NVIDIA 与 CNCF 的机密容器 (Confidential Containers) 社区合作,为 Kata Containers 引入了 GPU 支持,其为一种兼具容器特性的轻量级虚拟机。这将硬件加速扩展到更强大的隔离环境,通过工作负载分离以提高安全性,并使 AI 工作负载能够在更强的保护机制下运行,组织由此可以轻松实施机密计算来保护数据。

简化 AI 基础设施

在过去,管理数据中心内为 AI 提供动力的强大 GPU 需要付出巨大努力。

这一贡献旨在使高性能计算更易于使用。开发者的受益点包括:

提高效率:该驱动程序支持NVIDIA Multi-Process Service和NVIDIA Multi-Instance GPU技术,可实现更智能的 GPU 资源共享,从而有效利用计算能力。

大规模扩展:提供原生支持,可将系统连接在一起,兼容NVIDIA 多节点 NVLink互联技术。这对于在 NVIDIA Grace Blackwell 系统和下一代 AI 基础设施上训练大型 AI 模型至关重要。

灵活性:开发者可以根据需要动态重新配置硬件,随时更改资源分配方式。

精度:该软件支持微调请求,允许用户根据其应用需求指定特定的算力、显存设置或互连配置。

全行业协作

NVIDIA 正在与行业领导者合作,包括亚马逊云科技、博通Canonical、Google Cloud、微软、Nutanix、红帽和SUSE,共同推动这些功能的发展,造福整个云原生生态系统。

红帽首席技术官兼全球工程高级副总裁 Chris Wright 表示:“开源将成为每个成功企业 AI 策略的核心,为推动生产级 AI 工作负载的高性能基础设施组件带来标准化。NVIDIA 捐赠的 NVIDIA DRA GPU 驱动程序有助于巩固开源在 AI 演进中的作用,我们期待与 NVIDIA 以及 Kubernetes 生态系统中更广泛的社区展开合作。”

CERN 平台基础设施负责人 Ricardo Rocha 表示:“开源软件及其背后维系的社区是科学计算和研究基础设施的基石。对于 CERN 这样需要高效分析 PB 级数据来实现科研突破的组织来说,社区驱动的创新有助于加快科学发展步伐。NVIDIA 捐赠的 DRA 驱动程序强化了研究人员所依赖的生态系统,使他们能够同时处理传统科学计算和新兴机器学习工作负载中的数据。”

扩展开源视野

这一项捐赠只是 NVIDIA 支持开源社区的更广泛举措的一部分。其他举措还包括在上周 GTC 大会上发布的NVSentinel(GPU 故障修复系统) 以及AI Cluster Runtime(智能体 AI 框架)。

此外,NVIDIA 还于GTC 大会宣布了全新开源项目,包括NVIDIA NemoClaw参考软件栈以及NVIDIA OpenShell运行时,用于安全运行自主智能体。OpenShell 支持细粒度可编程策略安全性和隐私管理,并与 Linux、eBPF 和 Kubernetes 原生集成。

NVIDIA 还宣布,其高性能 AI 工作负载调度器 KAI Scheduler 已作为 CNCF Sandbox 项目上线,这是朝着促进更广泛的协作并确保技术与更广泛的云原生生态系统需求同步发展迈出的关键一步。开发者和企业组织可以立即使用 KAI Scheduler 并提出建议。

NVIDIA 致力于积极维护和贡献 Kubernetes 及 CNCF 项目,助力满足企业 AI 客户的严格需求。

此外,在NVIDIA Dynamo1.0 发布后,NVIDIA 正在借助 Grove扩展 Dynamo 生态系统,Grove 是一个用于在 GPU 集群上编排 AI 工作负载的开源 Kubernetes 应用编程接口。Grove 能够使开发者在单一声明式资源中表达复杂的推理系统,目前正在与 llm-d 推理堆栈集成,以便在 Kubernetes 社区中得到更广泛的采用。

开发者和企业组织可以开始使用NVIDIA DRA 驱动程序。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110096
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5259

    浏览量

    136039
  • AI
    AI
    +关注

    关注

    91

    文章

    40941

    浏览量

    302520

原文标题:NVIDIA 向 Kubernetes 社区捐赠动态资源分配 GPU 驱动程序,推动开源 AI 发展

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云平台资源动态分配:技术原理与系统架构全解析

    一、引言在数字化业务高速发展的当下,云计算已成为算力承载的核心底座。传统静态资源分配模式采用固定配额配置,无法适配业务流量的实时波动,极易出现高峰资源不足、低峰资源闲置的问题。云平台
    的头像 发表于 04-13 16:01 67次阅读
    云平台<b class='flag-5'>资源</b><b class='flag-5'>动态分配</b>:技术原理与系统架构全解析

    Kubernetes Ingress Controller对比解析

    Kubernetes集群对外提供服务时,Ingress是标准的服务暴露方式。Ingress资源定义了HTTP/HTTPS路由规则,而Ingress Controller则是这些规则的实现者
    的头像 发表于 04-09 10:09 195次阅读

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2
    发表于 03-13 06:38

    二进制 GPU 驱动程序需要什么才能启动?

    二进制 GPU 驱动程序需要什么才能启动? 我想的是 USB、SD 卡、HDMI 和 ETH。 我猜音频没有 DAC,所以我们需要使用 USB 耳机加密狗?
    发表于 03-13 06:00

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    同集群(Cluster)和命名空间(Namespace)的管理权限分配给指定用户。这意味着: 开发人员 :可以管理集群中运行的应用程序并进行故障排查,而无需深入掌握复杂的Kubernetes命令。 运
    发表于 02-11 12:53

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU
    的头像 发表于 09-23 17:15 2611次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4324次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1625次阅读

    为FreeRTOS增加新的设备驱动程序

    如果你正在使用FreeRTOS构建嵌入式系统,并且考虑添加新的设备驱动程序,那么这篇文章很适合你。高效的设备集成不仅仅是让设备功能正常运行——更关乎模块化、可靠性和安全性。
    的头像 发表于 08-06 15:44 1105次阅读
    为FreeRTOS增加新的设备<b class='flag-5'>驱动程序</b>

    zephyr设备驱动程序模型

        1:Zephyr 内核支持多种设备驱动程序驱动程序是否可用取决于board 和驱动程序。 Zephyr 设备模型为配置作为系统一部分的驱动程序提供了一致的设备模型。设备型号负
    的头像 发表于 07-29 10:34 830次阅读
    zephyr设备<b class='flag-5'>驱动程序</b>模型

    SK海力士无锡首个应急救援驿站捐赠AED设备

    近日,SK海力士无锡市首个应急救援驿站(山水城(雪浪街道)石塘社区捐赠自动体外除颤仪(AED)设备,助力提升基层应急救援能力,为居民生命健康筑起坚实屏障。
    的头像 发表于 05-28 15:36 954次阅读

    CY4500 EZ-PD协议分析仪缺少驱动程序怎么解决?

    一直说他们会在短期内发布驱动程序,但遗憾的是从未实现。如果确实存在驱动程序,我们希望看到相关证据。 谁能提供文件名和下载链接?并向社区解释英飞凌为何选择不在其软件(包括最新的 4.0.0 软件)中
    发表于 05-23 06:43

    如何在Ubuntu上安装NVIDIA显卡驱动?

    专有显卡驱动。本文将详细介绍在Ubuntu系统上安装NVIDIA显卡驱动的多种方法,帮助用户根据自身情况选择最适合的安装方式。 二,硬件参数 平台:PX22_GPU CPU:I7-11
    的头像 发表于 05-07 16:05 2846次阅读
    如何在Ubuntu上安装<b class='flag-5'>NVIDIA</b>显卡<b class='flag-5'>驱动</b>?

    Kubernetes Helm入门指南

    Helm 是 Kubernetes 的包管理工具,它允许开发者和系统管理员通过定义、打包和部署应用程序来简化 Kubernetes 应用的管理工作。Helm 的出现是为了解决在 Kuberne
    的头像 发表于 04-30 13:42 3205次阅读
    <b class='flag-5'>Kubernetes</b> Helm入门指南

    Linux环境再升级:PLIN驱动程序正式发布

    PLIN驱动程序现已正式发布,本文将展示如何安装PLIN驱动程序,以及如何在Linux环境下进行基本的PLIN通信操作,确保您能够快速掌握并应用这一新工具。
    的头像 发表于 04-21 15:29 1218次阅读
    Linux环境再升级:PLIN<b class='flag-5'>驱动程序</b>正式发布