0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致

电子工程师 来源:机器之心 作者:机器之心 2022-08-08 16:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天跟大家分享一篇来自CMU等机构的论文《Sliced Recursive Transformer》,该论文已被 ECCV 2022 接收。

目前 vision transformer 在不同视觉任务上如分类、检测等都展示出了强大的性能,但是其巨大的参数量和计算量阻碍了该模型进一步在实际场景中的应用。基于这个考虑,本文重点研究了如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致,同时还要保证模型计算量在合理范围内,从而可以在一些存储容量小,计算能力弱的嵌入式设备上部署。

基于这个动机,Zhiqiang Shen、邢波等研究者提出了一个 SReT 模型,通过循环递归结构来强化每个 block 的特征表达能力,同时又提出使用多个局部 group self-attention 来近似 vanilla global self-attention,在显著降低计算量 FLOPs 的同时,模型没有精度的损失。

6f84e69e-16c2-11ed-ba43-dac502259ad0.png

论文地址:https://arxiv.org/abs/2111.05297

代码和模型:https://github.com/szq0214/SReT

总结而言,本文主要有以下两个创新点:

使用类似 RNN 里面的递归结构(recursive block)来构建 ViT 主体,参数量不涨的前提下提升模型表达能力;

使用 CNN 中 group-conv 类似的 group self-attention 来降低 FLOPs 的同时保持模型的高精度

此外,本文还有其他一些小的改动:

网络最前面使用三层连续卷积,卷积核为 3x3,结构直接使用了研究者之前 DSOD 里面的 stem 结构;

Knowledge distillation 只使用了单独的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因为研究者认为 soft label 包含的信息更多,更有利于知识蒸馏;

使用可学习的 residual connection 来提升模型表达能力;

如下图所示,本文所提出的模型在参数量(Params)和计算量(FLOPs)方面相比其他模型都有明显的优势:

6f9bf410-16c2-11ed-ba43-dac502259ad0.png

下面我们来解读这篇文章: 1.ViT 中的递归模块 递归操作的基本组成模块如下图:

6fac3848-16c2-11ed-ba43-dac502259ad0.png

该模块非常简单明了,类似于 RNN 结构,将模块当前 step 的输出作为下个 step 的输入重新输进该模块,从而增强模型特征表达能力。 研究者展示了将该设计直接应用在 DeiT 上的结果,如下所示:

6fb76088-16c2-11ed-ba43-dac502259ad0.png

可以看到在加入额外一次简单递归操作之后就可以得到将近 2% 的精度提升。 当然具体到全局网络结构层面还有不同的递归构建方法,如下图:

6fcb1b1e-16c2-11ed-ba43-dac502259ad0.png

其中 NLL 层(Non-linear Projection Layer)是用来保证每个递归模块输入输出不完全一致。论文提出使用这个模块的主要原因是发现在上述 Table 1 里面更多次数的递归操作并没有进一步提升性能,说明网络可能学到了一个比较简单的状态,而 NLL 层可以强制模型输入输出不一致从而缓解这种情况。同时,研究者从实验结果发现上图 (1) internal loop 相比 external loop 设计拥有更好的 accuracy-FLOPs 结果。 2. 分组的 Group Self-attention 模块 如下图所示,研究者提出了一种分组的 group self-attention 策略来降低模型的 FLOPs,同时保证 self-attention 的全局注意力,从而使得模型没有明显精度损失:

6fd2573a-16c2-11ed-ba43-dac502259ad0.png

Group Self-attention 模块具体形式如下:

6fe58ecc-16c2-11ed-ba43-dac502259ad0.png

Group self-attention 的缺点是只有局部区域会相互作用,研究者提出通过使用 Permutation 操作来近似全局 self-attention 的机制,同时通过 Inverse Permutation 来复原和保留 tokens 的次序信息,针对这个部分的消融实验如下所示:

6fee80d6-16c2-11ed-ba43-dac502259ad0.png

其中 P 表示加入 Permutation,I 表示加入 Inverse Permutation,-L 表示如果 group 数为 1,就不使用 P 和 I(比如模型最后一个 stage)。根据上述表格的结果,研究者最后采用了 [8, 2][4,1][1,1] 这种分组设计。 3. 其他设计 可学习的残差结构 (LRC):

6ffd0804-16c2-11ed-ba43-dac502259ad0.png

研究者尝试了上图三种结构,图(3)结果最佳。具体而言,研究者在每个模块里面添加了 6 个额外参数(4+2,2 个在 NLL 层),这些参数会跟模型其他参数一起学习,从而使网络拥有更强的表达能力,参数初始化都为 1,在训练过程 6 个参数的数值变化情况如下所示:

7009c85a-16c2-11ed-ba43-dac502259ad0.png

Stem 结构组成:

702da22a-16c2-11ed-ba43-dac502259ad0.png

如上表所示,Stem 由三个 3x3 的连续卷积组成,每个卷积 stride 为 2。 整体网络结构: 研究者进一步去掉了 class token 和 distillation token,并且发现精度有少量提升。

70388b2c-16c2-11ed-ba43-dac502259ad0.png

消融实验:

7045dea8-16c2-11ed-ba43-dac502259ad0.png

模型混合深度训练: 研究者进一步发现分组递归设计还有一个好处就是:可以支持模型混合深度训练,这种训练方式可以大大降低深度网络结构优化复杂度,研究者展示了 108 层不同模型结构优化过程的 landscape 可视化,如下图所示,可以很明显的看到混合深度结构优化过程困难程度显著低于另外两种结构。

7050dbc8-16c2-11ed-ba43-dac502259ad0.png

最后,分组 group self-attention 算法 PyTorch 伪代码如下:

705f16ca-16c2-11ed-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3876

    浏览量

    52346
  • 递归
    +关注

    关注

    0

    文章

    29

    浏览量

    9309
  • cnn
    cnn
    +关注

    关注

    3

    文章

    356

    浏览量

    23596

原文标题:ECCV 2022 | 视觉Transformer上进行递归!SReT:不增参数,计算量还少!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    HM博学谷狂野AI大模型第四期

    如何减少 GPU 显存碎片,提高吞吐量。通过对推理引擎源码的调试与优化,开发者将学会如何在牺牲模型效果的前提下,榨干硬件性能,实现毫秒级的低延迟响应,这是将 AI 技术转化为高并发商
    发表于 05-01 17:30

    NineData 新增支持 MySQL openGauss PostgreSQL 数据复制链路

    MySQL openGauss PostgreSQL 兼容版的迁移,真正难的从来不是“数据搬过去”,而是如何在业务不停、数据持续变化、结果需要验证、问题需要及时发现的前提下
    的头像 发表于 03-19 11:44 256次阅读
    NineData 新增支持 MySQL <b class='flag-5'>到</b> openGauss PostgreSQL 数据复制链路

    新思科技推出UFS 5.0、UniPro 3.0和M-PHY v6.0完整IP解决方案

    随着移动、汽车以及 AI 驱动系统中的数据量不断增长,存储性能已成为影响 SoC 整体能力的关键因素。更快的计算性能和更复杂的软件持续对存储子系统施加压力,要求其在增加设计复杂性或风险的前提
    的头像 发表于 03-17 11:05 619次阅读
    新思科技推出UFS 5.0、UniPro 3.0和M-PHY v6.0完整IP解决方案

    从数据模型:如何预测细节距键合的剪切力?

    在微电子封装领域,细节距键合工艺的开发与质量控制面临着巨大挑战。工程师们常常需要在缺乏大量破坏性测试的前提下,快速评估或预测一个键合点的剪切力性能。能否根据焊球的表观尺寸,通过一个可靠的数学模型
    发表于 01-08 09:45

    何在NVIDIA Jetson AGX Thor上部署1200亿参数模型

    我们将尝试能否在 Jetson AGX Thor 上部署并成功运行高达 1,200 亿参数量的 gpt-oss-120b 大模型
    的头像 发表于 12-26 17:06 5394次阅读
    如<b class='flag-5'>何在</b>NVIDIA Jetson AGX Thor上部署1200亿<b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>

    从EtherNet/IPDeviceNet:一场驱动智能仓储升级的“协议融合”实践

    控制系统核心为三套罗克韦尔ControlLogix系列PLC(采用EtherNet/IP协议),而新增的智能视觉分拣设备(品牌为康耐视)仅支持DeviceNet接口。这种新旧设备协议兼容的困境,正是当前制造业智能化改造中典型场景——如何在保障现有控制系统投资
    的头像 发表于 12-17 15:32 446次阅读
    从EtherNet/IP<b class='flag-5'>到</b>DeviceNet:一场驱动智能仓储升级的“协议融合”实践

    亚马逊云科技扩展模型选择 Amazon Bedrock新增18款开放权重模型

    快速、轻松地评估、测试和采用新模型,并可在无需重写代码的情况下灵活切换,从而在不影响生产系统的前提下找到最适合业务场景的模型
    的头像 发表于 12-13 13:53 963次阅读

    中科曙光助力首个地质大模型“坤枢”上线

    近日,首个地质领域专用大语言模型“坤枢”在河南郑州正式上线,该大模型的部署将有助于夯实地质产业数字化基础,在保障国家能源资源信息安全前提下,完成多项地质相关任务。而在该模型诞生过程中,
    的头像 发表于 10-14 16:12 1026次阅读

    何在保证监测效果的前提下降低电能质量在线监测装置的运行和维护成本?

    在保证监测效果(核心是 数据精度达标、数据完整性可靠、事件捕捉及时 )的前提下降低运行和维护成本,需围绕 “全生命周期成本优化” 展开,从 选型源头、运行管控、维护模式、数据价值挖掘 四个关键环节
    的头像 发表于 09-03 17:29 1165次阅读
    如<b class='flag-5'>何在</b>保证监测效果的<b class='flag-5'>前提下</b>降低电能质量在线监测装置的运行和维护成本?

    何在保证数据安全的前提下优化通信协议?

    产品实拍图 在保证数据安全的前提下优化通信协议,核心是 **“安全机制轻量化、安全与效率协同设计、按需适配场景风险”**—— 既不因过度安全(如复杂加密、冗余校验)牺牲传输效率,也不因追求效率(如
    的头像 发表于 08-27 09:55 1006次阅读
    如<b class='flag-5'>何在</b>保证数据安全的<b class='flag-5'>前提下</b>优化通信协议?

    在MCU未损坏的前提下,当编程新的Config设置值时,为什么MCU上电后总是会复位呢?

    在MCU未损坏的前提下,当编程新的Config设置值时,为什么MCU上电后总是会复位?
    发表于 08-27 07:04

    基于NVIDIA Llama Nemotron Super v1.5模型构建AI智能体

    AI 智能体现在已经能够解决多步骤问题、编写生产级代码并在多个领域担任通用助手。但要充分发挥其潜力,还需要在控制成本的前提下加入先进的逻辑推理模型
    的头像 发表于 08-05 16:17 1676次阅读
    基于NVIDIA Llama Nemotron Super v1.5<b class='flag-5'>模型</b>构建AI智能体

    芯盾时代再度中标某省级银行

    芯盾时代再度中标某省级银行!芯盾时代通过自研的智能风控决策平台(IRD),结合AI模型、规则引擎等,完善客户交易全周期防护能力,在保障数据隐私的前提下提升模型迭代效率,进一步提升银行全
    的头像 发表于 07-25 15:26 1360次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    数据中挖掘有价值信息,这也让我意识架构设计对模型性能起着根本性作用,是 AI 具备强大能力的 “骨骼” 支撑。 二、流水线并行 书中关于流水线并行的内容,展现了提升计算效率的巧妙思路
    发表于 07-20 15:07

    芯盾时代助力四川银行电子渠道实时交易监测系统升级

    芯盾时代再度中标四川银行!芯盾时代通过自研的智能风控决策平台(IRD),结合AI模型、规则引擎等,完善客户延迟支付规则的布控能力,在保障数据隐私的前提下提升模型迭代效率,进一步提升电子
    的头像 发表于 06-05 17:38 1536次阅读