0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2026-04-01 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模 AI 工作负载的全新开源项目。

人工智能 (AI) 已迅速成为现代计算中最重要的工作负载之一。

对于绝大多数企业来说,AI 工作负载在 Kubernetes 上运行——一个可实现容器化应用的部署、扩缩容与管理自动化的开源平台。

为了使全球开发者社区能够更高效透明地管理高性能 AI 基础设施,NVIDIA 将向云原生计算基金会 (Cloud Native Computing Foundation, CNCF) 捐赠关键软件——NVIDIA 动态资源分配 (DRA) GPU 驱动程序。CNCF 是一个供应商中立组织,致力于促进和维护云原生生态系统。

该捐赠消息于本周在阿姆斯特丹举行的 CNCF 年度盛会 KubeCon Europe 上发布,此举标志着驱动程序从供应商管理转向 Kubernetes 项目治理,社区拥有完整的所有权。这种开放的环境鼓励更多的专家参与贡献想法,加速创新,并助力确保技术与现代云环境适配。

CNCF 首席技术官 Chris Aniszczyk 表示:“NVIDIA 与 Kubernetes 和 CNCF 社区深度合作,将 NVIDIA DRA GPU 驱动程序贡献至上游,是开源 Kubernetes 和 AI 基础设施的一个重要里程碑。通过将硬件创新与上游 Kubernetes 和 AI 兼容性工作相结合,NVIDIA 让高性能 GPU 编排工作更为无缝,且便于开发者使用。”

此外,NVIDIA 与 CNCF 的机密容器 (Confidential Containers) 社区合作,为 Kata Containers 引入了 GPU 支持,其为一种兼具容器特性的轻量级虚拟机。这将硬件加速扩展到更强大的隔离环境,通过工作负载分离以提高安全性,并使 AI 工作负载能够在更强的保护机制下运行,组织由此可以轻松实施机密计算来保护数据。

简化 AI 基础设施

在过去,管理数据中心内为 AI 提供动力的强大 GPU 需要付出巨大努力。

这一贡献旨在使高性能计算更易于使用。开发者的受益点包括:

提高效率:该驱动程序支持NVIDIA Multi-Process Service和NVIDIA Multi-Instance GPU技术,可实现更智能的 GPU 资源共享,从而有效利用计算能力。

大规模扩展:提供原生支持,可将系统连接在一起,兼容NVIDIA 多节点 NVLink互联技术。这对于在 NVIDIA Grace Blackwell 系统和下一代 AI 基础设施上训练大型 AI 模型至关重要。

灵活性:开发者可以根据需要动态重新配置硬件,随时更改资源分配方式。

精度:该软件支持微调请求,允许用户根据其应用需求指定特定的算力、显存设置或互连配置。

全行业协作

NVIDIA 正在与行业领导者合作,包括亚马逊云科技、博通Canonical、Google Cloud、微软、Nutanix、红帽和SUSE,共同推动这些功能的发展,造福整个云原生生态系统。

红帽首席技术官兼全球工程高级副总裁 Chris Wright 表示:“开源将成为每个成功企业 AI 策略的核心,为推动生产级 AI 工作负载的高性能基础设施组件带来标准化。NVIDIA 捐赠的 NVIDIA DRA GPU 驱动程序有助于巩固开源在 AI 演进中的作用,我们期待与 NVIDIA 以及 Kubernetes 生态系统中更广泛的社区展开合作。”

CERN 平台基础设施负责人 Ricardo Rocha 表示:“开源软件及其背后维系的社区是科学计算和研究基础设施的基石。对于 CERN 这样需要高效分析 PB 级数据来实现科研突破的组织来说,社区驱动的创新有助于加快科学发展步伐。NVIDIA 捐赠的 DRA 驱动程序强化了研究人员所依赖的生态系统,使他们能够同时处理传统科学计算和新兴机器学习工作负载中的数据。”

扩展开源视野

这一项捐赠只是 NVIDIA 支持开源社区的更广泛举措的一部分。其他举措还包括在上周 GTC 大会上发布的NVSentinel(GPU 故障修复系统) 以及AI Cluster Runtime(智能体 AI 框架)。

此外,NVIDIA 还于GTC 大会宣布了全新开源项目,包括NVIDIA NemoClaw参考软件栈以及NVIDIA OpenShell运行时,用于安全运行自主智能体。OpenShell 支持细粒度可编程策略安全性和隐私管理,并与 Linux、eBPF 和 Kubernetes 原生集成。

NVIDIA 还宣布,其高性能 AI 工作负载调度器 KAI Scheduler 已作为 CNCF Sandbox 项目上线,这是朝着促进更广泛的协作并确保技术与更广泛的云原生生态系统需求同步发展迈出的关键一步。开发者和企业组织可以立即使用 KAI Scheduler 并提出建议。

NVIDIA 致力于积极维护和贡献 Kubernetes 及 CNCF 项目,助力满足企业 AI 客户的严格需求。

此外,在NVIDIA Dynamo1.0 发布后,NVIDIA 正在借助 Grove扩展 Dynamo 生态系统,Grove 是一个用于在 GPU 集群上编排 AI 工作负载的开源 Kubernetes 应用编程接口。Grove 能够使开发者在单一声明式资源中表达复杂的推理系统,目前正在与 llm-d 推理堆栈集成,以便在 Kubernetes 社区中得到更广泛的采用。

开发者和企业组织可以开始使用NVIDIA DRA 驱动程序。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5760

    浏览量

    110446
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5350

    浏览量

    136329
  • AI
    AI
    +关注

    关注

    91

    文章

    42482

    浏览量

    303421

原文标题:NVIDIA 向 Kubernetes 社区捐赠动态资源分配 GPU 驱动程序,推动开源 AI 发展

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Imagination GPU 驱动程序 26.1:Vulkan 功能增强与 Android 17 预览版

    在Imagination,强大且具有前瞻性的软件是充分发挥我们GPUIP价值的基石。随着26.1版驱动程序的发布,我们延续了长期以来的承诺:提供持续的更新,以增加功能、提升性能,并紧跟不断演进
    的头像 发表于 05-12 11:30 413次阅读
    Imagination <b class='flag-5'>GPU</b> <b class='flag-5'>驱动程序</b> 26.1:Vulkan 功能增强与 Android 17 预览版

    Kubernetes资源限制怎么配置

    Kubernetes 中,资源限制(Resource Limits)是 Pod 调度的核心依据,也是保障集群稳定性的关键配置。很多初学者接触 Kubernetes 时,最常踩的坑就是资源
    的头像 发表于 05-12 09:59 451次阅读

    云平台资源动态分配:技术原理与系统架构全解析

    一、引言在数字化业务高速发展的当下,云计算已成为算力承载的核心底座。传统静态资源分配模式采用固定配额配置,无法适配业务流量的实时波动,极易出现高峰资源不足、低峰资源闲置的问题。云平台
    的头像 发表于 04-13 16:01 188次阅读
    云平台<b class='flag-5'>资源</b><b class='flag-5'>动态分配</b>:技术原理与系统架构全解析

    Kubernetes Ingress Controller对比解析

    Kubernetes集群对外提供服务时,Ingress是标准的服务暴露方式。Ingress资源定义了HTTP/HTTPS路由规则,而Ingress Controller则是这些规则的实现者
    的头像 发表于 04-09 10:09 377次阅读

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2
    发表于 03-13 06:38

    二进制 GPU 驱动程序需要什么才能启动?

    二进制 GPU 驱动程序需要什么才能启动? 我想的是 USB、SD 卡、HDMI 和 ETH。 我猜音频没有 DAC,所以我们需要使用 USB 耳机加密狗?
    发表于 03-13 06:00

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    同集群(Cluster)和命名空间(Namespace)的管理权限分配给指定用户。这意味着: 开发人员 :可以管理集群中运行的应用程序并进行故障排查,而无需深入掌握复杂的Kubernetes命令。 运
    发表于 02-11 12:53

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 673次阅读

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1601次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    RTThread线程退出后rt_malloc动态创建的资源没有释放怎么解决?

    测试过程中,在一个线程中用rt_malloc动态创建4KB的资源,在线程运行过程中用rt_thread_delete()使线程退出,用memtrace查看内存分配情况,动态创建的4KB
    发表于 10-13 07:06

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU
    的头像 发表于 09-23 17:15 2795次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4668次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1784次阅读

    为FreeRTOS增加新的设备驱动程序

    如果你正在使用FreeRTOS构建嵌入式系统,并且考虑添加新的设备驱动程序,那么这篇文章很适合你。高效的设备集成不仅仅是让设备功能正常运行——更关乎模块化、可靠性和安全性。
    的头像 发表于 08-06 15:44 1222次阅读
    为FreeRTOS增加新的设备<b class='flag-5'>驱动程序</b>

    zephyr设备驱动程序模型

        1:Zephyr 内核支持多种设备驱动程序驱动程序是否可用取决于board 和驱动程序。 Zephyr 设备模型为配置作为系统一部分的驱动程序提供了一致的设备模型。设备型号负
    的头像 发表于 07-29 10:34 947次阅读
    zephyr设备<b class='flag-5'>驱动程序</b>模型