0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

NVIDIA英伟达 来源:未知 2022-11-15 21:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

PaddleSlim 发布 AI 模型自动压缩的工具,带来全新升级 AI 模型一键自动压缩体验。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器在 NVIDIA GPU 上体验!

PaddleSlim 自动压缩工具,

30+CV、NLP 模型实战

众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的 AI 模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以 BERT、GPT 为代表的预训练模型等,这成为企业 NLP 模型部署落地的拦路虎。

针对企业落地模型压缩迫切的需求,PaddleSlim 团队开发了一个低成本、高收益的 AI 模型自动压缩工具(ACT, Auto Compression Toolkit),无需修改训练源代码,通过几十分钟量化训练,保证模型精度的同时,极大的减小模型体积,降低显存占用,提升模型推理速度,助力 AI 模型的快速落地!

使用 ACT 中的基于知识蒸馏的量化训练方法训练 YOLOv7 模型,与原始的 FP32 模型相比,INT8 量化后的模型减小 75%,在 NVIDIA GPU 上推理加速 5.90 倍

99a61056-64e7-11ed-8abf-dac502259ad0.png  表1 自动压缩工具在 CV 模型上的压缩效果和推理加速

使用 ACT 中的结构化稀疏和蒸馏量化方法训练 ERNIE3.0 模型,与原始的 FP32 对比,INT8 量化后的模型减小 185%,在 NVIDIA GPU 上推理加速 6.37 倍

99d136b4-64e7-11ed-8abf-dac502259ad0.png

表2 自动压缩工具在 NLP 模型上的压缩效果和推理加速

支持如此强大功能的核心技术是来源于 PaddleSlim 团队自研的自动压缩工具。自动压缩相比于传统手工压缩,自动化压缩的“自动”主要体现在 4 个方面:解耦训练代码、离线量化超参搜索、算法自动组合和硬件感知。

99fc685c-64e7-11ed-8abf-dac502259ad0.png

图1 传统手工压缩与自动化压缩工具对比

9a2637b8-64e7-11ed-8abf-dac502259ad0.png

图2 传统手工压缩与自动化压缩工具代码量对比

更多详细文档,请参考:

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研发团队详解自动压缩工具 CV 模型和NLP模型两日课回放,可以扫描下方二维码,加入自动压缩技术官方交流群获取。除此之外,入群福利还包括:深度学习学习资料、历届顶会压缩论文、百度架构师详解自动压缩等。

9a789fe4-64e7-11ed-8abf-dac502259ad0.png

NGC 飞桨容器介绍

如果您希望体验自动压缩工具的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要进行跨操作系统级别的迁移。

  2. 容器镜像方便了开发者的版本化管理

  3. 容器镜像是一种易于复现的开发环境载体

  4. 容器技术支持多容器同时运行

9a94b31e-64e7-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL(DALI,RAPIDS)、训练(cuDNN,NCCL)和推理(TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系统,更好的软件兼容性

  3. 按月更新

  4. 满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

9abbeaf6-64e7-11ed-8abf-dac502259ad0.png

环境准备

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

  • Docker 引擎

  • NVIDIA GPU 驱动程序

  • NVIDIA 容器工具包

有关支持的版本,请参阅 NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

9af1f420-64e7-11ed-8abf-dac502259ad0.png

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4040

    浏览量

    97674

原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用ROCm™优化并部署YOLOv8模型

    ://github.com/ultralytics/ultralytics/tree/main YOLOv8模型的卓越性能使其多个领域具有广泛的应用前景,如自动
    的头像 发表于 09-24 18:32 513次阅读
    使用ROCm™优化并<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>8<b class='flag-5'>模型</b>

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现了库的重大扩展 。借助 NVIDIA 高性能加速计算平台的新模型,数据中
    的头像 发表于 09-15 15:19 1245次阅读

    基于瑞芯微RK3576的 yolov5训练部署教程

    5s、YOLOv5m、YOLOv5l、YOLOv5x 四个模型YOLOv5 相比YOLOv4
    的头像 发表于 09-11 16:43 2406次阅读
    基于瑞芯微RK3576的 <b class='flag-5'>yolov</b>5训练<b class='flag-5'>部署</b>教程

    求助,关于K230部署yolov8时遇到问题求解

    使用yolov8训练出来了一个十个类别的模型并且按照要求转换成了.kmodel模型部署到K230时 使用yolo大作战里面的代码提示我l
    发表于 08-12 07:26

    yolov5训练部署全链路教程

    5m、YOLOv5l、YOLOv5x四个模型YOLOv5相比YOLOv4而言,检测平均精度降
    的头像 发表于 07-25 15:22 1343次阅读
    <b class='flag-5'>yolov</b>5训练<b class='flag-5'>部署</b>全链路教程

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    下一步行动。本文将一步步带你本地服务器完成该模型部署,并搭建一个直观的 Web 交互界面,亲身体验前沿 AI 的“思考”过程。
    的头像 发表于 07-09 10:17 562次阅读

    如何在魔搭社区使用TensorRT-LLM加速优化Qwen3系列模型推理部署

    TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署
    的头像 发表于 07-04 14:38 1757次阅读

    OrinNano yolov11训练部署教程

    ORinNano yolov11训练部署教程
    的头像 发表于 04-10 15:26 2227次阅读
    OrinNano  <b class='flag-5'>yolov</b>11训练<b class='flag-5'>部署</b>教程

    RK3576 yolov8训练部署教程

    本章展示yolov8模型EASY EAI Orin nano的部署过程。
    的头像 发表于 04-02 16:04 1574次阅读
    RK3576 <b class='flag-5'>yolov</b>8训练<b class='flag-5'>部署</b>教程

    Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI智能体、定制化行业大型语言模型及搭载
    的头像 发表于 03-26 14:42 578次阅读
    Cognizant将与<b class='flag-5'>NVIDIA</b>合作<b class='flag-5'>部署</b>神经人工智能平台,<b class='flag-5'>加速</b>企业人工智能应用

    请问如何在imx8mplus上部署和运行YOLOv5训练的模型

    我正在从事 imx8mplus yocto 项目。我已经自定义数据集YOLOv5 训练了对象检测模型。它在 ubuntu 电脑
    发表于 03-25 07:23

    英伟达GTC2025亮点:NVIDIA认证计划扩展至企业存储领域,加速AI工厂部署

    ,现在已将企业存储纳入其中,旨在通过加速计算、网络、软件和存储,助力企业更高效地部署 AI 工厂。 企业构建 AI 工厂的过程中,获取高质量数据对于确保 AI 模型的卓越性能和可靠性
    的头像 发表于 03-21 19:38 1717次阅读

    K230D部署模型失败的原因?

    流程中看到MicroPython部署时要选择第三路串口,但并未成功 补充材料 参考的主要流程如下,这个文件内容是社区官网的模型训练结束后生成的文件压缩包解压后的结果 确认问题
    发表于 03-11 06:19

    yolov5转onnxcubeAI进行部署部署失败的原因?

    第一个我是转onnx时 想把权重文件变小点 就用了半精度 --half,则说17版本不支持半精度 后面则是没有缩小的单精度 但是显示哪里溢出了···· 也不说是哪里、、。。。 到底能不能部署yolov5这种东西啊?? 也没看见几个部署
    发表于 03-07 11:38

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    和NPU的利用率,可以看到CPU的占用率已经降了下来,并且调用了NPU的3个核心进行加速推理: 通过以上两种方法,我们掌握了 RK3588 开发板上部署并测试 DeepSeek 模型
    发表于 02-14 17:42