0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA NGC目录中的GPU优化容器

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-01 11:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

借助 NVIDIA NGC 目录中的 GPU 优化容器,更快地开发和部署应用。

什么是容器?

容器是一种便携式软件单元,可将应用及其所有依赖项合并为一个软件包,该软件包不受底层主机操作系统限制。这样无需再构建复杂的环境,并简化了应用开发到部署的过程。

NVIDIA NGC 目录包含一系列用于深度学习机器学习、可视化和高性能计算(HPC)应用的 GPU 优化容器,这些容器均已经过了性能、安全性和可扩展性测试。

NGC 目录中的容器的优势

轻松部署

内置库和依赖项可让您轻松部署和运行应用。

加快训练速度

TensorFlow 和 PyTorch 等 NVIDIA AI 容器每月会提供针对性能优化的更新版本,以便加快 AI 训练和推理速度。

运行位置不受限制

在 bare metal、虚拟机(VM)和 Kubernetes 上,将容器部署在任意位置(云端、内部私有云和边缘)的多 GPU/多节点系统上。

放心部署

容器经过常见漏洞和暴露(CVE)扫描(附有安全报告),并通过 NVIDIA AI Enterprise 得到了可选的企业支持。

性能优化

NVIDIA 构建的 Docker 容器每月都会更新,第三方软件也会定期更新,以提供所需的功能,便于您从现有基础架构中获得出色性能,并缩短找出解决方案的时间。

借助 BERT-Large 进行自然语言处理

BERT-Large 利用 VoltaV100 和 Ampere A100 GPU 上的混合精度运算和 Tensor Core,在保持目标准确性的同时缩短训练时间。

在单节点的 8x V100 (16GB) 和 A100 (40GB) 上使用 TensorFlow 时,BERT-Large 和训练的性能表现。混合精度。BERT 的批量大小:3 (V100)、24(A100)

用于图像处理的 ResNet50 v1.5

此模型使用 Volta、Turing 和 NVIDIA Ampere GPU 体系架构上的 Tensor Core 进行混合精度训练,以加快训练速度。

在单节点 8x V100 (16GB) 和 A100 (40GB) 上使用 TensorFlow 时,ResNet 50 的性能表现。混合精度。ResNet50 批量大小:26

用于深度学习的 Matlab

持续开发 Matlab 深度学习容器可提高训练和推理性能。

Windows 10Intel Xeon E5-2623 @2.4GHz,NVIDIA Titan V 12GB GPU

用于各种工作负载的容器

AI 容器

TensorFlow

TensorFlow 是一个用于高性能数值计算的开源软件库。

PyTorch

PyTorch 是具有 Python 前端的 GPU 加速型张量计算框架。

NVIDIA Triton 推理服务器

NVIDIA Triton 推理服务器是一种开源推理解决方案,可更大限度地提高 GPU 的利用率和性能。

NVIDIA TensorRT

NVIDIA TensorRT 是一个C++ 库,可加快 NVIDIA GPU 上的高性能推理。

应用框架

NVIDIA Clara

用于医疗成像的 NVIDIA Clara Train 是一个应用框架,包含超过 20 个先进的预训练模型、迁移学习和联合学习工具、AutoML,以及 AI 辅助的标记数据。

DeepStream

DeepStream 是一款流分析工具包,可用于基于 AI 的视频、音频和图像理解和多传感器处理。

NVIDIA Riva

NVIDIA Riva 是一个应用框架,适用于在 GPU 上提供实时性能的多模态对话式 AI 服务。

Merlin Training

Merlin HugeCTR 是 NVIDIA Merlin 的组件,是一款专为推荐系统设计的深度神经网络训练框架。

HPC 容器

NAMD

NAMD 是一段并行分子动力学代码,旨在实现生物大分子系统的高性能模拟

GROMACS

GROMACS 是一款热门的分子动力学应用,用于模拟蛋白质和脂质。

Relion

Relion 采用经验贝叶斯方法分析低温电子显微镜(cryo EM)。

NVIDIA HPC SDK

NVIDIA HPC SDK 是编译器、库和工具的综合套件,用于构建、部署和管理 HPC 应用。

点击阅读原文,了解更多 AI 和 HPC 容器相关内容

NVIDIA 深度学习培训中心

我们的 NVIDIA 深度学习培训中心还推出了 AI 和 HPC 容器及 NGC 相关课程,您可以复制链接查看课程详情。

使用容器实现高性能计算

学习使用容器化环境开发高性能计算(HPC)应用程序,降低编码的复杂性和可移植性,从而提高开发效率。

原文标题:DevZone | AI和HPC容器

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5727

    浏览量

    110296
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5322

    浏览量

    136213
  • 容器
    +关注

    关注

    0

    文章

    542

    浏览量

    23059

原文标题:DevZone | AI和HPC容器

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于实现大规模
    的头像 发表于 04-01 09:10 881次阅读

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 638次阅读

    使用USDRT优化NVIDIA Omniverse的动态数据更改功能

    NVIDIA Omniverse 开发,此前我们已探讨了常见的性能瓶颈、如何使用 Tracy 等工具进行问题定位,并初步介绍了 FSD(Fabric Scene Delegation
    的头像 发表于 01-12 09:11 712次阅读
    使用USDRT<b class='flag-5'>优化</b><b class='flag-5'>NVIDIA</b> Omniverse的动态数据更改功能

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 4919次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 2114次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    NVIDIA RTX PRO 5000 72GB Blackwell GPU现已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 现已全面上市,将基于 NVIDIA Blackwell 架构的强大代理式与生成式 AI 能力带到更多桌面和专业用户手中。
    的头像 发表于 12-24 10:32 1229次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB Blackwell <b class='flag-5'>GPU</b>现已全面上市

    NVIDIA Omniverse基于Container的部署推流方案

    为了让客户能够高效安装和部署 NVIDIA Omniverse 及 NVIDIA Isaac 平台,NVIDIA 现已推出简单便捷的容器化部署方案,以支持在数据中心的服务器
    的头像 发表于 12-17 10:17 1076次阅读
    <b class='flag-5'>NVIDIA</b> Omniverse基于Container的部署推流方案

    在Python借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1565次阅读
    在Python<b class='flag-5'>中</b>借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    Blackwell 架构 GPU 端专业图形卡,高度仅为全高 GPU 的二分之一。如果您需要的是一块半高显卡,能适配小机箱,功耗不高,还要具备 AI 及光线追踪性能的话,那么
    的头像 发表于 11-28 09:39 7298次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世
    的头像 发表于 09-23 17:15 2764次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    DeepSeek R1 MTP在TensorRT-LLM的实现与优化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录,Multi-Token Prediction (MTP) 实现了大幅提速
    的头像 发表于 08-30 15:47 4806次阅读
    DeepSeek R1 MTP在TensorRT-LLM<b class='flag-5'>中</b>的实现与<b class='flag-5'>优化</b>

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4599次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1750次阅读

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战
    的头像 发表于 07-23 10:34 2668次阅读
    如何在Ray分布式计算框架下集成<b class='flag-5'>NVIDIA</b> Nsight Systems进行<b class='flag-5'>GPU</b>性能分析

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延迟场景的性能纪录:在 G
    的头像 发表于 07-02 19:31 3743次阅读
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>优化</b>DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景<b class='flag-5'>中</b>的性能纪录