0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么?不用GPU也能加速你的YOLOv3深度学习模型

新机器视觉 来源:量子位 作者:量子位 2021-06-10 15:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你还在为神经网络模型里的冗余信息烦恼吗?

或者手上只有CPU,对一些只能用昂贵的GPU建立的深度学习模型“望眼欲穿”吗?

最近,创业公司Neural Magic带来了一种名叫新的稀疏化方法,可以帮你解决烦恼,让你的深度学习模型效率“一节更比七节强”!

Neural Magic是专门研究深度学习的稀疏方法的公司,这次他们发布了教程:用recipe稀疏化YOLOv3。

听起来有点意思啊,让我们来看看是怎么实现的~

稀疏化的YOLOv3

稀疏化的YOLOv3使用剪枝(prune)和量化(quantize)等算法,可以删除神经网络中的冗余信息。

这种稀疏化方法的好处可不少。

它的推断速度更快,文件更小。

但是因为过程太复杂,涉及的超参数又太多,很多人都不太关心这种方法。

Neural Magic的ML团队针对必要的超参数和指令,创建了可以自主编码的recipe。

各种不同条件下的recipe构成了一种可以满足客户各类需求的框架。

这样就可以建立高度精确的pruned或pruned quantized的YOLOv3模型,从而简化流程。

那这种稀疏化方法的灵感来源是什么呢?

其实,Neural Magic 的 Deep Sparse(深度稀疏)架构的主要灵感,是在产品硬件上模仿大脑的计算方式。

它通过利用 CPU 的大型快速缓存和大型内存,将神经网络稀疏性与通信局部性相结合,实现效率提升。

教程概况

本教程目录主要包括三大模块:

创建一个预训练的模型

应用Recipe

导出推理教程的这些recipe可以帮助用户在Ultralytics强大的训练平台上,使用稀疏深度学习的recipe驱动的方法插入数据。

教程中列出的示例均在VOC数据集上执行,所有结果也可通过“权重和偏差”项目公开获得(地址见参考链接4)。

调试结果展示

研究团队给出了稀疏YOLOv3目标检测模型在Deep Sparse引擎和PyTorch上的运行情况。

这段视频以波士顿著名地标为特色,在Neural Magic的诞生地——MIT的校园取景。

同样的条件下,在Deep Sparse引擎上比PyTorch上效率会更高。

遇到的常见问题

如果用户的硬件不支持量化网络来推理加速,或者对完全恢复的要求非常高,官方建议使用pruned或pruned short 的recipe。

如果用户的硬件可以支持量化网络,如CPU 上的 VNNI 指令集,官方建议使用pruned quantized或pruned quantized short的recipe。

所以使用哪一种recipe,取决于用户愿意花多长时间训练数据,以及对完全恢复的要求。

具体要比较这几种recipe的话,可以参考下表。

ce8f673a-c9b7-11eb-9e57-12bb97331649.png

网友:这个框架会比传统的机器学习框架pytorch好吗?

既然给出了和pytorch的比较视频,就有网友发问了:

Neural Magic也使用python吗?为什么一个比另一个快10倍以上?我不相信像pytorch这样传统的机器学习框架不会得到优化。两种模型的实现是否相同?

公司官方人员也下场解释了:

我们拥有专利技术,可以通过减少计算和内存移动来使稀疏网络在CPU上更高效的运行。

虽然传统的ML框架也能很好地实现简单而高效的训练过程。

但是,多加入一些优化的推理,可以实现更多的性能,尤其是在CPU上更明显。

看来,有了以上强大的YOLOv3 模型工具和教程,用户就可以在CPU上,以最小化的占用空间和GPU的速度来运行深度学习模型。

这样有用的教程,你还在等什么?

希望教程能对大家有所帮助,欢迎在评论区分享交流训练模型经验~

最后介绍一下Neural Magic,有兴趣的朋友可以去了解一下。

Neural Magic是一家什么样的公司?

Neural Magic成立在马萨诸塞州的剑桥。

创始人Nir Shavit和Alexander Matveev在MIT绘制大脑中的神经连接图时,一直觉得GPU有许多限制。

因此他们停下来问自己两个简单的问题:

为什么深度学习需要GPU等专用硬件?

有什么更好的方法吗?

毕竟,人脑可以通过广泛使用稀疏性来减少神经网络,而不是添加FLOPS来匹配神经网络,从而满足神经网络的计算需求。

基于这种观察和多年的多核计算经验,他们采用了稀疏和量化深度学习网络的技术,并使其能够以GPU的速度或更高的速度在商用CPU上运行。

这样,数据科学家在模型设计和输入大小上就不需要再做妥协,也没必要用稀缺且昂贵的GPU资源。

Brian Stevens

Neural Magic的CEO,Red Hat和Google Cloud的前CTO。

Nir Shavit

Neural Magic联合创始人。

麻省理工学院教授,他目前的研究涉及为多处理器设计可伸缩软件的技术,尤其是多核计算机的并发数据结构。

Alexander Matveev

Neural Magic首席技术官兼联合创始人。

麻省理工学院前研究科学家,专门研究AI多核算法和系统。

参考链接:

[1]https://github.com/neuralmagic/sparseml/blob/main/integrations/ultralytics-yolov3/t2.utorials/sparsifying_yolov3_using_recipes.md

[2]https://neuralmagic.com/blog/sparsifying-yolov3-using-recipes-tutorial/

[3]https://arxiv.org/pdf/1804.02767.pdf

[4]https://wandb.ai/neuralmagic/yolov3-spp-lrelu-voc

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11378

    浏览量

    226482
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5335

    浏览量

    136237
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26307
  • voc
    voc
    +关注

    关注

    0

    文章

    111

    浏览量

    16302

原文标题:不用GPU,稀疏化也能加速你的YOLOv3深度学习模型

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份曦云C系列GPU产品深度适配腾讯混元翻译模型Hy-MT2

    5月21日,腾讯混元翻译模型Hy-MT2正式开源,包含3个尺寸的模型Hy-MT2-1.8B、Hy-MT2-7B、Hy-MT2-30B-A3B。沐曦股份曦云C系列
    的头像 发表于 05-22 17:20 1969次阅读
    沐曦股份曦云C系列<b class='flag-5'>GPU</b>产品<b class='flag-5'>深度</b>适配腾讯混元翻译<b class='flag-5'>模型</b>Hy-MT2

    登临科技GPU+架构深度AI教育实训场景

    GPU+架构以其独特的“ 效率+通用 ”双重优势,为AI教育实训场景提供了从算力到效的全面解决方案。其强大的算力和生态兼容性,使其能够无缝支持模型的训练、微调以及推理,无论是视频处理还是语言
    的头像 发表于 05-18 15:15 350次阅读

    瑞芯微(EASY EAI)RV1126B yolov5训练部署教程

    1.Yolov5简介YOLOv5模型是Ultralytics公司于2020年6月9日公开发布的。YOLOv5模型是基于
    的头像 发表于 05-09 14:20 467次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>yolov</b>5训练部署教程

    深度学习为什么还是无法处理边缘场景?

    选择视而不见甚至直接加速。 之所以出现这个问题,是因为深度学习模型大多建立在统计学基础之上,它们通过观察数以千万计的图像学习识别物体的特征。
    的头像 发表于 05-04 10:16 2285次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GPU全栈智能体“AIModelMaster”,壁仞科技快速
    的头像 发表于 04-28 14:04 2017次阅读
    壁仞科技壁砺166系列<b class='flag-5'>GPU</b>产品率先支持DeepSeek-V4<b class='flag-5'>模型</b>

    老旧设备采数:不用改造

    不用改造连”的核心逻辑,是“非侵入式采集+边缘计算”的组合方案,就像给老设备戴了块功能强大的“智能手环”,全程不改动原有控制系统,完美避开拆机风险和停工损失。
    的头像 发表于 12-18 09:57 731次阅读
    老旧设备采数:<b class='flag-5'>不用</b>改造<b class='flag-5'>也</b><b class='flag-5'>能</b>连

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督
    发表于 12-03 13:50

    使用ROCm™优化并部署YOLOv8模型

    ://github.com/ultralytics/ultralytics/tree/main YOLOv8模型的卓越性能使其在多个领域具有广泛的应用前景,如自动驾
    的头像 发表于 09-24 18:32 1122次阅读
    使用ROCm™优化并部署<b class='flag-5'>YOLOv</b>8<b class='flag-5'>模型</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    矩阵乘法的算法 ①矩阵乘法的各种算法 ②优化矩阵乘法过程的新方法 ③加速矩阵乘法的新算法 1)用学习替代乘法 2)用加法代替矩阵乘法 3)只用加法的大模型计算 4)用
    发表于 09-12 17:30

    基于瑞芯微RK3576的 yolov5训练部署教程

    1.Yolov5简介 YOLOv5 模型是 Ultralytics 公司于 2020 年 6 月 9 日公开发布的。YOLOv5 模型是基于
    的头像 发表于 09-11 16:43 3372次阅读
    基于瑞芯微RK3576的 <b class='flag-5'>yolov</b>5训练部署教程

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4467次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    yolov5训练部署全链路教程

    1.Yolov5简介YOLOv5模型是Ultralytics公司于2020年6月9日公开发布的。YOLOv5模型是基于
    的头像 发表于 07-25 15:22 2140次阅读
    <b class='flag-5'>yolov</b>5训练部署全链路教程

    模型推理显存和计算量估计方法研究

    ,如乘法、加法等; (2)根据各层计算操作的类型和复杂度,确定每层所需的计算量; (3)将各层计算量相加,得到模型总的计算量。 基于硬件加速的算力估计 随着硬件加速技术的发展,许多
    发表于 07-03 19:43

    智算加速卡是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。有没有发现,现在越来越多的AI企业不光用GPU
    的头像 发表于 06-05 13:39 2057次阅读
    智算<b class='flag-5'>加速</b>卡是什么东西?它真能在AI战场上干掉<b class='flag-5'>GPU</b>和TPU!