0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 与飞桨团队合作开发基于 ResNet50 的模型示例

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-10-18 10:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你还在头疼于经典模型的复现吗?不知何处可以得到全面可参照的 Benchmark?

为了让飞桨开发者可以快速复现顶尖的精度和超高的性能,NVIDIA 与飞桨团队合作开发了基于 ResNet50 的模型示例,并将持续开发更多的基于 NLP 和 CV 等领域的经典模型,后续陆续发布的模型有 BERT、PP-OCR、PP-YOLO 等,欢迎持续关注。

深度学习模型是什么?

深度学习包括训练和推理两个环节。训练是指通过大数据训练出一个复杂的神经网络模型,即用大量标记过的数据来“训练”相应的系统,使之可以适应特定的功能。推理是指利用训练好的模型,使用新数据推理出各种结论。深度学习模型是在训练工作过程中生成,并将其保存,用于推理当中。

3a7b4034-4e20-11ed-a3b6-dac502259ad0.png

深度学习训练推理示意图

NVIDIA Deep Learning Examples

全新上线飞桨 ResNet50

NVIDIA Deep Learning Examples 仓库上线了基于飞桨实现的 ResNet50 模型的性能优化结果,该示例全面适配各类 NVIDIA GPU 和各种硬件拓扑(单机单卡,单机多卡),极致优化性能。值得一提的是,Deep Learning Examples 中飞桨 ResNet50 模型训练速度已超过对应的 PyTorch 版 ResNet50。

3af18e88-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 仓库中基于飞桨与 PyTorch 的 ResNet50 模型在同等 GPU 配置下的训练性能比较,GPU 配置为 NVIDIA DGX A100(8x A100 80GB)。

*数据来源:[1][2]

NVIDIA Deep Learning Examples 仓库中飞桨 ResNet50 有哪些优势?

优势一:通过使用 DALI 等工具,加速 GPU 数据预处理性能

NVIDIA Data Loading Library( DALI )专注于使用 GPU 加速深度学习应用中的数据加载和预处理。深度学习数据预处理涉及到复杂的、多个阶段的处理过程,如 ResNet50 模型训练过程中,在 CPU 上处理图片的加载、解码、裁剪、翻转、缩放和其他数据增强等操作会成为瓶颈,限制训练和推理的性能和可扩展性。DALI 将这些操作转移到 GPU 上,最大限度地提高输入流水线的吞吐量,并且其中数据预取,并行执行和批处理的操作对用户是透明的。

优势二:通过使用 AMP,ASP 等工具,提高推理性能

飞桨内置支持 AMP(自动混合精度)及 ASP(自动稀疏化)模块,AMP 模块可在模型训练过程中,自动为算子选择合适的计算精度(FP32/FP16),充分利用 Tensor Cores 的性能,在不影响模型精度的前提下,大幅加速模型训练。

ASP 模块实现了一个工作流将深度学习模型从稠密修剪为 2:4 的稀疏模式,经过重训练之后,可恢复到与稠密模型相当的精度。稀疏模型可以充分利用 A100 Tensor Core GPU 的加速特性,被修剪的权重矩阵参数存储量减半,并且可以获得理论上 2 倍的计算加速,从而大幅提高推理性能。

优势三:通过集成 TensorRT,优化推理模型

飞桨推理集成了 TensorRT,称为 Paddle-TRT。它可以把部分模型子图交给 TensorRT 加速,而其他部分仍然用飞桨执行,从而达到最佳的推理性能。

优势四:丰富的 Benchmark

NVIDIA Deep Learning Examples 仓库中

有哪些 Benchmark?

NVIDIA Deep Learning Examples 仓库中的 Benchmark 主要包含训练精度结果、训练性能结果、推理性能结果、Paddle-TRT 性能结果几个方面。

1、训练精度结果

3b0a8dac-4e20-11ed-a3b6-dac502259ad0.png

训练精度: NVIDIA DGX A100 (8x A100 80GB)

*数据来源:[1]

3b4da61e-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的提高精度: NVIDIA DGX A100 (8x A100 80GB)

*数据来源:[1]

2、训练性能结果

3b6ce75e-4e20-11ed-a3b6-dac502259ad0.png

训练性能: NVIDIA DGX A100 (8x A100 80GB)

*数据来源:[1]

3b8aa3b6-4e20-11ed-a3b6-dac502259ad0.png

集成 ASP 的训练性能: NVIDIA DGX A100 (8x A100 80GB)

*数据来源:[1]

3、推理性能结果

3bfc266c-4e20-11ed-a3b6-dac502259ad0.jpg

推理性能: NVIDIA DGX A100 (1x A100 80GB)

*数据来源:[1]

4、Paddle-TRT 性能结果

3c63f922-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能结果: NVIDIA DGX A100 (1x A100 80GB)

*数据来源:[1]

3cdb0cc4-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能结果: NVIDIA A30 (1x A30 24GB)

*数据来源:[1]

3cfce2ea-4e20-11ed-a3b6-dac502259ad0.jpg

Paddle-TRT 性能结果: NVIDIA A10 (1x A10 24GB)

*数据来源:[1]

如何下载 NVIDIA Deep Learning Examples 中的飞桨 ResNet50?

登录 GitHub NVIDIA Deep Learning Examples 仓库, 找到 PaddlePaddle/Classification/RN50/1.5,下载模型源代码即可。

3d60954c-4e20-11ed-a3b6-dac502259ad0.png

NVIDIA Deep Learning Examples 飞桨 ResNet50 下载页面

飞桨容器如何安装?

容器包含了深度学习框架在运行时所需的所有部件(包括驱动,工具包等),它具有轻量化与可复制性、打包和执行环境合二为一以及简化应用程序部署等优势,因此,被认为是在同一环境中实现“构建、测试、部署”的最佳平台。容器允许我们创建标准化可复制的轻量级开发环境,摆脱来自 Hypervisor 所带来运行开销。应用程序可以基于 Container Runtime 运行在“任意”系统中。

NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

NGC 飞桨容器已经集成入飞桨官网主页。你可以选择 “飞桨版本”+“Linux”+“Docker”+“CUDA 11.7”找到对应的 Container 下载指令。

3e05508c-4e20-11ed-a3b6-dac502259ad0.png

并参考《NGC 飞桨容器安装指南》下载安装:https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

3e57eb58-4e20-11ed-a3b6-dac502259ad0.png

运行结果如下:

3f156b06-4e20-11ed-a3b6-dac502259ad0.png

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109086
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143060
  • 飞桨
    +关注

    关注

    0

    文章

    37

    浏览量

    2615

原文标题:NVIDIA Deep Learning Examples飞桨ResNet50模型上线训练速度超PyTorch ResNet50

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVID
    的头像 发表于 12-01 09:25 487次阅读

    基于瑞芯微RK3576的resnet50训练部署教程

    Resnet50简介ResNet50网络是2015年由微软实验室的何恺明提出,获得ILSVRC2015图像分类竞赛第一名。在ResNet网络提出之前,传统的卷积神经网络都是将一系列的卷积层和池化层
    的头像 发表于 09-10 11:19 1113次阅读
    基于瑞芯微RK3576的<b class='flag-5'>resnet50</b>训练部署教程

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用深度学习框架进行高效训练、推理和部署。在大语言
    的头像 发表于 07-02 16:53 1128次阅读

    全志科技携凌嵌入式T527核心板亮相OpenHarmony开发者大会

    全志科技作为OpenHarmony生态的重要合作伙伴受邀参会,还重点介绍了与凌嵌入式合作开发的FET527-C核心板
    的头像 发表于 05-30 11:02 1402次阅读
    全志科技携<b class='flag-5'>飞</b>凌嵌入式T527核心板亮相OpenHarmony<b class='flag-5'>开发</b>者大会

    模型时代的深度学习框架

    作者:算力魔方创始人/英特尔创新大使刘力 在 CNN时代 ,AI模型的参数规模都在百万级别,仅需在单张消费类显卡上即可完成训练。例如,以业界知名的CNN模型ResNet50 为例,模型
    的头像 发表于 04-25 11:43 654次阅读
    大<b class='flag-5'>模型</b>时代的深度学习框架

    基于RV1126开发板的resnet50训练部署教程

    本教程基于图像分类算法ResNet50的训练和部署到EASY-EAI-Nano(RV1126)进行说明
    的头像 发表于 04-18 15:07 919次阅读
    基于RV1126<b class='flag-5'>开发</b>板的<b class='flag-5'>resnet50</b>训练部署教程

    燧原科技正式纳入例行版本发布体系

    燧原科技与经过长时间的适配合作和持续集成(CI)建设,对合⼊的每⼀行代码都在燧原硬件上进⾏了验证。如今,燧原正式纳入
    的头像 发表于 04-11 11:31 824次阅读
    燧原科技正式纳入<b class='flag-5'>飞</b><b class='flag-5'>桨</b>例行版本发布体系

    百度框架3.0正式版发布

    、推理等任务都离不开深度学习框架的优化与支撑。 框架3.0,从设计理念上实现了从底层硬件适配到顶层开发体验的全面进化,在训练效率、性能、兼容性等关键指标上建立了新标杆。 其中, “动静统一自动并行”、“大
    的头像 发表于 04-02 19:03 1040次阅读
    百度<b class='flag-5'>飞</b><b class='flag-5'>桨</b>框架3.0正式版发布

    英伟达GTC2025亮点:NVIDIA与GE医疗合作 引入物理AI推进自主诊断成像开发

    NVIDIA 推出 Isaac for Healthcare 医疗设备仿真平台,加速自主成像系统与机器人研发 NVIDIA 宣布与 GE 医疗合作,共同推进自主成像技术创新,重点开发
    的头像 发表于 03-21 09:26 1705次阅读

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪型基础,助力构建能够独立工作或以团队形式完成复杂
    发表于 03-19 09:31 335次阅读
    <b class='flag-5'>NVIDIA</b> 推出开放推理 AI <b class='flag-5'>模型</b>系列,助力<b class='flag-5'>开发</b>者和企业构建代理式 AI 平台

    NVIDIA 发布全球首个开源人形机器人基础模型 Isaac GR00T N1——并推出加速机器人开发的仿真框架

    推出完全可定制的 GR00T N1 基础模型,为人形机器人赋予通用技能与推理技能 NVIDIA、Google DeepMind 和 Disney Research 合作开发新一代开源物理引擎
    发表于 03-19 09:30 602次阅读
    <b class='flag-5'>NVIDIA</b> 发布全球首个开源人形机器人基础<b class='flag-5'>模型</b> Isaac GR00T N1——并推出加速机器人<b class='flag-5'>开发</b>的仿真框架

    GaN HEMT的SPICE模型使用指南及示例

    GaN HEMT的SPICE模型使用指南及示例总结 本文档基于GaN HEMT的实测特性描述了当前版本的模型。该模型专为与PSpice和LTspice配合使用而
    的头像 发表于 03-11 17:43 1950次阅读
    GaN HEMT的SPICE<b class='flag-5'>模型</b>使用指南及<b class='flag-5'>示例</b>

    如何在C#中部署PP-OCRv4模型

    《超4万6千星的开源OCR黑马登场,PaddleOCR凭什么脱颖而出?》收到了读者热烈反响c,很多读者提出:如何在C#中部署PP-OCRv4模型?本文从零开始详细介绍整个过程。
    的头像 发表于 02-17 10:58 2648次阅读
    如何在C#中部署<b class='flag-5'>飞</b><b class='flag-5'>桨</b>PP-OCRv4<b class='flag-5'>模型</b>

    使用OpenVINO C# API轻松部署PP-OCRv4模型

    ​ 作者:算力魔方创始人/英特尔创新大使刘力 《超4万6千星的开源OCR黑马登场,PaddleOCR凭什么脱颖而出?》 收到了读者热烈反响,很多读者提出:如何在C#中部署PP-OCRv4模型
    的头像 发表于 02-12 10:42 2018次阅读
    使用OpenVINO C# API轻松部署<b class='flag-5'>飞</b><b class='flag-5'>桨</b>PP-OCRv4<b class='flag-5'>模型</b>

    NVIDIA推出面向RTX AI PC的AI基础模型

    NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型,为数字人、内容创作、生产力和开发提供强大助力。
    的头像 发表于 01-08 11:01 870次阅读