0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

NVIDIA英伟达 来源:未知 2022-11-15 21:20 次阅读

PaddleSlim 发布 AI 模型自动压缩的工具,带来全新升级 AI 模型一键自动压缩体验。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器在 NVIDIA GPU 上体验!

PaddleSlim 自动压缩工具,

30+CV、NLP 模型实战

众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的 AI 模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以 BERT、GPT 为代表的预训练模型等,这成为企业 NLP 模型部署落地的拦路虎。

针对企业落地模型压缩迫切的需求,PaddleSlim 团队开发了一个低成本、高收益的 AI 模型自动压缩工具(ACT, Auto Compression Toolkit),无需修改训练源代码,通过几十分钟量化训练,保证模型精度的同时,极大的减小模型体积,降低显存占用,提升模型推理速度,助力 AI 模型的快速落地!

使用 ACT 中的基于知识蒸馏的量化训练方法训练 YOLOv7 模型,与原始的 FP32 模型相比,INT8 量化后的模型减小 75%,在 NVIDIA GPU 上推理加速 5.90 倍

99a61056-64e7-11ed-8abf-dac502259ad0.png  表1 自动压缩工具在 CV 模型上的压缩效果和推理加速

使用 ACT 中的结构化稀疏和蒸馏量化方法训练 ERNIE3.0 模型,与原始的 FP32 对比,INT8 量化后的模型减小 185%,在 NVIDIA GPU 上推理加速 6.37 倍

99d136b4-64e7-11ed-8abf-dac502259ad0.png

表2 自动压缩工具在 NLP 模型上的压缩效果和推理加速

支持如此强大功能的核心技术是来源于 PaddleSlim 团队自研的自动压缩工具。自动压缩相比于传统手工压缩,自动化压缩的“自动”主要体现在 4 个方面:解耦训练代码、离线量化超参搜索、算法自动组合和硬件感知。

99fc685c-64e7-11ed-8abf-dac502259ad0.png

图1 传统手工压缩与自动化压缩工具对比

9a2637b8-64e7-11ed-8abf-dac502259ad0.png

图2 传统手工压缩与自动化压缩工具代码量对比

更多详细文档,请参考:

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研发团队详解自动压缩工具 CV 模型和NLP模型两日课回放,可以扫描下方二维码,加入自动压缩技术官方交流群获取。除此之外,入群福利还包括:深度学习学习资料、历届顶会压缩论文、百度架构师详解自动压缩等。

9a789fe4-64e7-11ed-8abf-dac502259ad0.png

NGC 飞桨容器介绍

如果您希望体验自动压缩工具的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要进行跨操作系统级别的迁移。

  2. 容器镜像方便了开发者的版本化管理

  3. 容器镜像是一种易于复现的开发环境载体

  4. 容器技术支持多容器同时运行

9a94b31e-64e7-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL(DALI,RAPIDS)、训练(cuDNN,NCCL)和推理(TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系统,更好的软件兼容性

  3. 按月更新

  4. 满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

9abbeaf6-64e7-11ed-8abf-dac502259ad0.png

环境准备

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

  • Docker 引擎

  • NVIDIA GPU 驱动程序

  • NVIDIA 容器工具包

有关支持的版本,请参阅 NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

9af1f420-64e7-11ed-8abf-dac502259ad0.png

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3330

    浏览量

    87790

原文标题:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    maixcam部署yolov5s 自定义模型

    maixcam部署yolov5s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov5s
    发表于 04-23 15:43

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA 在 GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术加速部署生成式 AI 驱动的游戏角色。
    的头像 发表于 04-09 10:08 214次阅读
    <b class='flag-5'>NVIDIA</b>数字人技术<b class='flag-5'>加速</b><b class='flag-5'>部署</b>生成式AI驱动的游戏角色

    yolov5转onnxcubeAI上部署失败的原因?

    第一个我是转onnx时 想把权重文件变小点 就用了半精度 --half,则说17版本不支持半精度 后面则是没有缩小的单精度 但是显示哪里溢出了···· 也不说是哪里、、。。。 到底能不能部署yolov5这种东西啊?? 也没看见几个部署
    发表于 03-14 06:23

    【爱芯派 Pro 开发板试用体验】部署爱芯派官方YOLOV5模型

    继上文开箱后,本文主要依托爱芯元智官方的实例,进行官方YOLOV5模型部署和测试。 一、环境搭建 由于8核A55的SoC,加上目前Debian OS的工具齐全,所以决定直接在板编译
    发表于 12-12 22:58

    YOLOV7网络架构解读

    继美团发布YOLOV6之后,YOLO系列原作者也发布了YOLOV7
    的头像 发表于 11-29 10:00 939次阅读
    <b class='flag-5'>YOLOV7</b>网络架构解读

    NNCF压缩与量化YOLOv8模型与OpenVINO部署测试

    OpenVINO2023版本衍生出了一个新支持工具包NNCF(Neural Network Compression Framework – 神经网络压缩框架),通过对OpenVINO IR格式模型压缩与量化更好的提升
    的头像 发表于 11-20 10:46 900次阅读
    NNCF<b class='flag-5'>压缩</b>与量化<b class='flag-5'>YOLOv</b>8<b class='flag-5'>模型</b>与OpenVINO<b class='flag-5'>部署</b>测试

    使用OpenVINO优化并部署训练好的YOLOv7模型

    在《英特尔锐炫 显卡+ oneAPI 和 OpenVINO 实现英特尔 视频 AI 计算盒训推一体-上篇》一文中,我们详细介绍基于英特尔 独立显卡搭建 YOLOv7 模型的训练环境,并完成了 YOLOv7
    的头像 发表于 08-25 11:08 923次阅读
    使用OpenVINO优化并<b class='flag-5'>部署</b>训练好的<b class='flag-5'>YOLOv7</b><b class='flag-5'>模型</b>

    无法使用MYRIADOpenVINO trade中运行YOLOv7自定义模型怎么解决?

    无法确定如何将 YOLOv7 模型的重量(.pt 文件)转换为OpenVINO™中间表示 (IR) 并推断有 MYRIAD 的 IR。 分辨率 转换使用此 GitHub* 存储库
    发表于 08-15 08:29

    三种主流模型部署框架YOLOv8推理演示

    深度学习模型部署有OpenVINO、ONNXRUNTIME、TensorRT三个主流框架,均支持Python与C++的SDK使用。对YOLOv5~YOLOv8的系列
    的头像 发表于 08-06 11:39 1844次阅读

    在AI爱克斯开发板上用OpenVINO™加速YOLOv8-seg实例分割模型

    《在 AI 爱克斯开发板上用 OpenVINO 加速 YOLOv8 目标检测模型》介绍了在 AI 爱克斯开发板上使用 OpenVINO 开发套件部署并测评
    的头像 发表于 06-30 10:43 451次阅读
    在AI爱克斯开发板上用OpenVINO™<b class='flag-5'>加速</b><b class='flag-5'>YOLOv</b>8-seg实例分割<b class='flag-5'>模型</b>

    在AI爱克斯开发板上用OpenVINO™加速YOLOv8-seg实例分割模型

    《在 AI 爱克斯开发板上用 OpenVINO 加速 YOLOv8 目标检测模型》介绍了在 AI 爱克斯开发板上使用 OpenVINO 开发套件部署并测评
    的头像 发表于 06-05 11:52 605次阅读
    在AI爱克斯开发板上用OpenVINO™<b class='flag-5'>加速</b><b class='flag-5'>YOLOv</b>8-seg实例分割<b class='flag-5'>模型</b>

    YOLOv7训练自己的数据集包括哪些

      YOLOv7训练自己的数据集整个过程主要包括:环境安装—制作数据集—模型训练—模型测试—模型推理 一、准备深度学习环境 本人的笔记本电脑系统是:Windows10 首先下载
    的头像 发表于 05-29 15:18 626次阅读
    <b class='flag-5'>YOLOv7</b>训练自己的数据集包括哪些

    AI爱克斯开发板上使用OpenVINO加速YOLOv8目标检测模型

    《在AI爱克斯开发板上用OpenVINO加速YOLOv8分类模型》介绍了在AI爱克斯开发板上使用OpenVINO 开发套件部署并测评YOLOv
    的头像 发表于 05-26 11:03 721次阅读
    AI爱克斯开发板上使用OpenVINO<b class='flag-5'>加速</b><b class='flag-5'>YOLOv</b>8目标检测<b class='flag-5'>模型</b>

    在AI爱克斯开发板上用OpenVINO™加速YOLOv8目标检测模型

    《在 AI 爱克斯开发板上用 OpenVINO 加速 YOLOv8 分类模型》介绍了在 AI 爱克斯开发板上使用 OpenVINO 开发套件部署并测评
    的头像 发表于 05-12 09:08 851次阅读
    在AI爱克斯开发板上用OpenVINO™<b class='flag-5'>加速</b><b class='flag-5'>YOLOv</b>8目标检测<b class='flag-5'>模型</b>

    在AI爱克斯开发板上用OpenVINO™加速YOLOv8分类模型

    本系列文章将在 AI 爱克斯开发板上使用 OpenVINO 开发套件依次部署并测评 YOLOv8 的分类模型、目标检测模型、实例分割模型和人
    的头像 发表于 05-05 11:47 599次阅读
    在AI爱克斯开发板上用OpenVINO™<b class='flag-5'>加速</b><b class='flag-5'>YOLOv</b>8分类<b class='flag-5'>模型</b>