0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用 NVIDIA AI Enterprise 3.0 优化生产级 AI 的性能和效率

NVIDIA英伟达 来源:未知 2023-04-17 23:15 次阅读

NVIDIA AI Enterprise 是一款端到端的安全云原生 AI 软件套件。最近发布的 NVIDIA AI Enterprise 3.0 加入了帮助优化生产级 AI 性能与效率的新功能。本文将详细介绍以下新功能及其工作原理

· Magnum IO GPUDirect Storage

· VMware vSphere 8.0的 GPU 虚拟化功能

· Red Hat Enterprise Linux(RHEL)KVM 8 和 9

· Fractional multi-vGPU 支持

· 对 NVIDIA AI 的扩展支持

生产级 AI 功能

NVIDIA AI Enterprise 3.0 版本中的新 AI 工作流有助于缩短生产级 AI 的开发时间。这些工作流是常见 AI 用例的参考应用,包括联络中心智能虚拟助理、音频转录、数字指纹等。

未加密的预训练模型也首次包括在内,这确保了 AI 的可解释性并使开发者能够查看模型的权重和偏差,并了解模型的偏差。

NVIDIA AI Enterprise 现在支持 NGC 目录中发布的所有 NVIDIA AI 软件。已经使用过 NGC 的开发者现在可以无缝过渡到 NVIDIA AI Enterprise 并使用支持 50 多个 AI 框架、预训练模型和 SDK 的 NVIDIA Enterprise Support。

基础设施性能功能

NVIDIA AI Enterprise 3.0 包含许多有助于优化基础设施性能的新功能,因此用户可以从他们的 AI 投资中获得最大收益并最大程度地节约成本和时间。下面将对这些功能进行详细说明。

Magnum IO GPUDirect Storage

企业现在可以在部署 NVIDIA AI Enterprise 3.0 的情况下,利用 Magnum IO GPUDirect Storage 的性能优势来加速和扩展他们的 AI 工作负载。GPUDirect Storage 1.4 打通了本地或远程存储与 GPU 内存之间的直接数据路径,为复杂的工作负载提供无与伦比的性能。

GPUDirect Storage 简化并提高了存储和 GPU 缓冲区之间的数据流的效率,适用于在 GPU 上消耗或产生数据而不需要 CPU 处理的应用。该功能通过远程直接内存访问(RDMA),在从存储到 GPU 内存的直接路径上快速移动数据,减少延迟并通过消除回弹缓冲区产生的多余复制来减轻 CPU 的负担。

GPUDirect Storage 带来了明显的性能提升。与 NumPy 相比,使用 NVIDIA DALI 进行深度学习推理时,性能提高了 7.2 倍。

美国国家航空航天局(NASA)的火星探测器演示项目使用 NVIDIA IndeX 和 GPUDirect Storage 以及 27000 多个 NVIDIA GPU 来模拟逆向推进,在使用 PCIe 交换机和 NVLinks 以及 GPUDirect Storage 时,带宽提高了 5 倍。

406dec70-dd32-11ed-bfe3-dac502259ad0.png

图 1. GPUDirect Storage 提供了一条从存储出发、完全跳过 CPU 的直接路径,消除了绑定在 CPU 上的回弹缓冲。

VMware vSphere 8.0 的 GPU 虚拟化功能

NVIDIA AI Enterprise 3.0 引入了对 VMware vSphere 8 的支持,包括多项可加速性能和提高运行效率的功能。VMware 环境现在可以在一个虚拟机上添加多达 8 个虚拟 GPU,vGPU 数量比之前的版本多了一倍。这提高了大型 ML 模型的性能,为复杂的 AI 和 ML 工作负载提供了更高的可扩展性。

随着设备组的引入,IT 管理员现在可以更好的控制虚拟机的放置。vSphere 附带的管理工具分布式资源调度(DRS)可确定虚拟机的最佳放置位置。

新的设备组功能提供了对 PCIe 设备的洞察,这些设备在硬件层面上(通过 NVLink 或 PCIe 开关)相互配对,IT 管理员可以从中选择一个子集,提交给虚拟机作出 DRS 调度决策。

通过设备组,IT 管理员可以确保设备子集被一起分配给虚拟机。例如,如果用户想要通过扩展 GPU 来加速大型模型,IT 管理员可以创建一个包含 GPU 的设备组并通过 NVLink 连接这些设备,比如图 2 中的设备组 1。

如果用户想要向外扩展到多台服务器以进行分布式训练,可以使用共享同一 PCIe 交换机的 GPU 和 NIC 组成设备组,比如图 2 中的设备组 2。

4091dd92-dd32-11ed-bfe3-dac502259ad0.png

图 2. 有两个 GPU 的设备组(左)和服务器上有一个 GPU 与网卡的设备组(右)

Red Hat Enterprise Linux KVM

NVIDIA AI Enterprise 3.0 将虚拟化支持扩展至 Red Hat Enterprise Linux 8.4、8.6、8.7、9.0 和 9.1,使企业能够将 KVM 功能扩展到他们的 AI 工作负载。通过 RHEL KVM,管理员可以在一个虚拟机上添加多达 16 个虚拟 GPU,将计算密集型工作负载的处理速度提高数倍。

Fractional multi-vGPU 支持

管理员现在可以通过 NVIDIA AI Enterprise 3.0,为一台虚拟机配置多个 Fractional vGPU,从而更加灵活地根据工作负载优化虚拟机的配置。在该版本发布之前,每台虚拟机只能通过一个或多个整数份 GPU 加速。

管理员现在能够更加灵活地根据工作负载的计算需求,为一个虚拟机分配多个部分 vGPU 配置文件。例如,当运行具有不同计算需求的多个推理工作负载时,管理员可以根据工作负载的内存需求,为一个虚拟机分配不同数量帧缓冲器的 NVIDIA A100 Tensor Core GPU 的部分配置文件。

需要注意的是,所有部分配置文件必须是相同的板卡类型和系列。可以将一个或多个物理 GPU 分成这些份额的 vGPU 配置文件。该功能在 VMware vSphere 8 和 RHEL KVM 8 和 9 上均可以使用。

40abb082-dd32-11ed-bfe3-dac502259ad0.png

图 3. 将一个配置文件分成多个 vGPU 分配给一个虚拟机

对 NVIDIA AI 的扩展支持

NVIDIA AI Enterprise 为 NGC 目录中发布的所有 NVIDIA AI 软件提供支持,该目录目前包含 50 多个框架和模型。所有受支持的模型都标有“NVIDIA AI Enterprise Supported”以帮助用户轻松识别支持的软件。

40c3de96-dd32-11ed-bfe3-dac502259ad0.png

图 4. 所有 NVIDIA AI Enterprise 支持的模型在 NGC 目录中都有标注

总结

通过最新 3.0 版本的 NVIDIA AI Enterprise,企业可以使用最新的性能和效率优化功能缩短生产级 AI 的开发时间。NVIDIA LaunchPad 使用户可以在私有加速计算环境中即时、短期访问 NVIDIA AI Enterprise 软件套件,包括各种动手实操实验室。

即刻点击“阅读原文”扫描下方海报二维码在 NVIDIA On-Demand 上观看 GTC 精选回放,包括主题演讲相关精选、中国本地精选内容、生成式 AI 专题以及全球各行业及领域最新成果!


原文标题:使用 NVIDIA AI Enterprise 3.0 优化生产级 AI 的性能和效率

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3327

    浏览量

    87768

原文标题:使用 NVIDIA AI Enterprise 3.0 优化生产级 AI 的性能和效率

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用NVIDIA AI Enterprise IGX在边缘赋能任务关键型AI

    NVIDIA SDK 在加速智慧城市、医疗和机器人等领域的 AI 应用方面发挥了重要作用。
    的头像 发表于 04-26 09:46 67次阅读
    利用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b> IGX在边缘赋能任务关键型<b class='flag-5'>AI</b>

    NanoEdge AI的技术原理、应用场景及优势

    :在工业生产过程中,NanoEdge AI 可以帮助实现对生产线的实时监控和故障预测,提高生产效率和降低维护成本。 3.智能交通:通过将 N
    发表于 03-12 08:09

    NVIDIA AI Enterprise助力九州未来构建MaaS平台

    本案例中,九州未来的团队基于NVIDIA AI Enterprise的全栈软件套件,构建其 MaaS 大模型一体化开发及部署平台,该平台同时支持云端部署和私有化部署,通过九州未来开发的算力调度平台软件,实现云端资源与大模型一体机
    的头像 发表于 01-10 17:24 536次阅读

    Dropbox 与 NVIDIA 携手为数百万客户带来个性化的生成式 AI

    NVIDIA 于 17 日宣布开展合作。双方将借助 AI 的力量为数百万 Dropbox 客户增强其知识工作,并提高生产力。 此次合作将通过新的个性化生成式
    的头像 发表于 11-20 20:55 327次阅读
    Dropbox 与 <b class='flag-5'>NVIDIA</b> 携手为数百万客户带来个性化的生成式 <b class='flag-5'>AI</b>

    在 Azure 机器学习上充分发挥 NVIDIA AI Enterprise 的强大功能

    的方式实现这些技术的落地。 NVIDIA AI Enterprise 是一款全面的软件套件,专门用于帮助企业大规模实现企业就绪的 AI、机器学习(ML)和数据分析,并提供安全性、可靠性
    的头像 发表于 11-17 21:30 367次阅读
    在 Azure 机器学习上充分发挥 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b> 的强大功能

    NVIDIA AI 现已在 Oracle Cloud Marketplace 推出

    OCI 在业内率先扩展了企业对 NVIDIA DGX 云 AI 超级计算平台和 NVIDIA AI Enterprise 软件的访问权限。
    的头像 发表于 10-24 10:30 237次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> 现已在 Oracle Cloud Marketplace 推出

    Infosys 与 NVIDIA 合作,助力全球企业利用生成式 AI 提高生产

    决方案来提高生产力。 本次扩大合作将把包含模型、工具、运行时的 NVIDIA AI Enterprise 生态系统和 GPU 系统集成至 Infosys
    的头像 发表于 09-21 19:35 258次阅读

    AI智能呼叫中心

    实际情况进行资源的自动调度和优化,从而进一步提高工作效率和降低人力成本。总结,AI智能呼叫中心凭借自动化处理、个性化服务、数据驱动决策以及节约成本等一系列优势,为企业建立了更加高效、智能的服务系统,随着
    发表于 09-20 17:53

    NVIDIA AI Enterprise 4.0 推出,助力企业构建生产就绪的生成式 AI 为业务赋能

    时。NVIDIA 正在将专业知识投入到解决方案的开发过程中,助力企业实现这样的飞跃。 推出 NVIDIA AI Enterprise 4.0 最新版 
    的头像 发表于 09-19 20:20 390次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b> 4.0 推出,助力企业构建<b class='flag-5'>生产</b>就绪的生成式 <b class='flag-5'>AI</b> 为业务赋能

    全球领先系统制造商推出 NVIDIA AI 就绪型服务器,为企业大幅提升生成式 AI 性能

    NVIDIA BlueField-3 DPU 和 NVIDIA AI Enterprise 软件 使企业能够微调生成式
    的头像 发表于 08-23 19:10 376次阅读

    NVIDIA AI Enterprise 加速 LLM 与推荐系统开发在线研讨会

    环境,如何确保模型部署后的可用性和可靠性,以及如何监控和维护模型的性能等都是开发中需要解决的问题以及困难所在,这些问题也极大地制约了企业在开发 AI 应用上的生产力提升。 NVIDIA
    的头像 发表于 07-10 20:25 280次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b> 加速 LLM 与推荐系统开发在线研讨会

    什么是 NVIDIA AI Enterprise

    利用 NVIDIA AI 企业在 Azure 机器学习上的力量
    的头像 发表于 07-05 16:30 1056次阅读
    什么是 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b>

    NVIDIA AI Enterprise 提供了简化端到端人工智能管道的软件

    NVIDIA 与 Snowflake 协作提升数据云 AI 能力
    的头像 发表于 07-05 16:30 290次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> <b class='flag-5'>Enterprise</b> 提供了简化端到端人工智能管道的软件

    AI视觉检测在工业领域的应用

    随着制造业的智能化、自动化程度越来越高,AI视觉检测系统已经成为一种重要的智能制造设备,它能够大幅提高生产线上的检测能力和效率。 一、AI视觉检测系统的作用 工业
    发表于 06-15 16:21

    NVIDIA 与微软合作加速企业就绪的生成式 AI

    NVIDIA AI Enterprise 与 Azure 机器学习集成,提供端到端云平台,供开发者构建、部署和管理大型语言模型的 AI 应用 微软 Build 大会——太平洋时间 20
    的头像 发表于 05-25 09:15 376次阅读
    <b class='flag-5'>NVIDIA</b> 与微软合作加速企业就绪的生成式 <b class='flag-5'>AI</b>