0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致

电子工程师 来源:机器之心 作者:机器之心 2022-08-08 16:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天跟大家分享一篇来自CMU等机构的论文《Sliced Recursive Transformer》,该论文已被 ECCV 2022 接收。

目前 vision transformer 在不同视觉任务上如分类、检测等都展示出了强大的性能,但是其巨大的参数量和计算量阻碍了该模型进一步在实际场景中的应用。基于这个考虑,本文重点研究了如何在不增加额外参数量的前提下把模型的表达能力挖掘到极致,同时还要保证模型计算量在合理范围内,从而可以在一些存储容量小,计算能力弱的嵌入式设备上部署。

基于这个动机,Zhiqiang Shen、邢波等研究者提出了一个 SReT 模型,通过循环递归结构来强化每个 block 的特征表达能力,同时又提出使用多个局部 group self-attention 来近似 vanilla global self-attention,在显著降低计算量 FLOPs 的同时,模型没有精度的损失。

6f84e69e-16c2-11ed-ba43-dac502259ad0.png

论文地址:https://arxiv.org/abs/2111.05297

代码和模型:https://github.com/szq0214/SReT

总结而言,本文主要有以下两个创新点:

使用类似 RNN 里面的递归结构(recursive block)来构建 ViT 主体,参数量不涨的前提下提升模型表达能力;

使用 CNN 中 group-conv 类似的 group self-attention 来降低 FLOPs 的同时保持模型的高精度

此外,本文还有其他一些小的改动:

网络最前面使用三层连续卷积,卷积核为 3x3,结构直接使用了研究者之前 DSOD 里面的 stem 结构;

Knowledge distillation 只使用了单独的 soft label,而不是 DeiT 里面 hard 形式的 label 加 one-hot ground-truth,因为研究者认为 soft label 包含的信息更多,更有利于知识蒸馏;

使用可学习的 residual connection 来提升模型表达能力;

如下图所示,本文所提出的模型在参数量(Params)和计算量(FLOPs)方面相比其他模型都有明显的优势:

6f9bf410-16c2-11ed-ba43-dac502259ad0.png

下面我们来解读这篇文章: 1.ViT 中的递归模块 递归操作的基本组成模块如下图:

6fac3848-16c2-11ed-ba43-dac502259ad0.png

该模块非常简单明了,类似于 RNN 结构,将模块当前 step 的输出作为下个 step 的输入重新输进该模块,从而增强模型特征表达能力。 研究者展示了将该设计直接应用在 DeiT 上的结果,如下所示:

6fb76088-16c2-11ed-ba43-dac502259ad0.png

可以看到在加入额外一次简单递归操作之后就可以得到将近 2% 的精度提升。 当然具体到全局网络结构层面还有不同的递归构建方法,如下图:

6fcb1b1e-16c2-11ed-ba43-dac502259ad0.png

其中 NLL 层(Non-linear Projection Layer)是用来保证每个递归模块输入输出不完全一致。论文提出使用这个模块的主要原因是发现在上述 Table 1 里面更多次数的递归操作并没有进一步提升性能,说明网络可能学到了一个比较简单的状态,而 NLL 层可以强制模型输入输出不一致从而缓解这种情况。同时,研究者从实验结果发现上图 (1) internal loop 相比 external loop 设计拥有更好的 accuracy-FLOPs 结果。 2. 分组的 Group Self-attention 模块 如下图所示,研究者提出了一种分组的 group self-attention 策略来降低模型的 FLOPs,同时保证 self-attention 的全局注意力,从而使得模型没有明显精度损失:

6fd2573a-16c2-11ed-ba43-dac502259ad0.png

Group Self-attention 模块具体形式如下:

6fe58ecc-16c2-11ed-ba43-dac502259ad0.png

Group self-attention 的缺点是只有局部区域会相互作用,研究者提出通过使用 Permutation 操作来近似全局 self-attention 的机制,同时通过 Inverse Permutation 来复原和保留 tokens 的次序信息,针对这个部分的消融实验如下所示:

6fee80d6-16c2-11ed-ba43-dac502259ad0.png

其中 P 表示加入 Permutation,I 表示加入 Inverse Permutation,-L 表示如果 group 数为 1,就不使用 P 和 I(比如模型最后一个 stage)。根据上述表格的结果,研究者最后采用了 [8, 2][4,1][1,1] 这种分组设计。 3. 其他设计 可学习的残差结构 (LRC):

6ffd0804-16c2-11ed-ba43-dac502259ad0.png

研究者尝试了上图三种结构,图(3)结果最佳。具体而言,研究者在每个模块里面添加了 6 个额外参数(4+2,2 个在 NLL 层),这些参数会跟模型其他参数一起学习,从而使网络拥有更强的表达能力,参数初始化都为 1,在训练过程 6 个参数的数值变化情况如下所示:

7009c85a-16c2-11ed-ba43-dac502259ad0.png

Stem 结构组成:

702da22a-16c2-11ed-ba43-dac502259ad0.png

如上表所示,Stem 由三个 3x3 的连续卷积组成,每个卷积 stride 为 2。 整体网络结构: 研究者进一步去掉了 class token 和 distillation token,并且发现精度有少量提升。

70388b2c-16c2-11ed-ba43-dac502259ad0.png

消融实验:

7045dea8-16c2-11ed-ba43-dac502259ad0.png

模型混合深度训练: 研究者进一步发现分组递归设计还有一个好处就是:可以支持模型混合深度训练,这种训练方式可以大大降低深度网络结构优化复杂度,研究者展示了 108 层不同模型结构优化过程的 landscape 可视化,如下图所示,可以很明显的看到混合深度结构优化过程困难程度显著低于另外两种结构。

7050dbc8-16c2-11ed-ba43-dac502259ad0.png

最后,分组 group self-attention 算法 PyTorch 伪代码如下:

705f16ca-16c2-11ed-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3650

    浏览量

    51723
  • 递归
    +关注

    关注

    0

    文章

    29

    浏览量

    9264
  • cnn
    cnn
    +关注

    关注

    3

    文章

    355

    浏览量

    23251

原文标题:ECCV 2022 | 视觉Transformer上进行递归!SReT:不增参数,计算量还少!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光助力首个地质大模型“坤枢”上线

    近日,首个地质领域专用大语言模型“坤枢”在河南郑州正式上线,该大模型的部署将有助于夯实地质产业数字化基础,在保障国家能源资源信息安全前提下,完成多项地质相关任务。而在该模型诞生过程中,
    的头像 发表于 10-14 16:12 521次阅读

    何在保证监测效果的前提下降低电能质量在线监测装置的运行和维护成本?

    在保证监测效果(核心是 数据精度达标、数据完整性可靠、事件捕捉及时 )的前提下降低运行和维护成本,需围绕 “全生命周期成本优化” 展开,从 选型源头、运行管控、维护模式、数据价值挖掘 四个关键环节
    的头像 发表于 09-03 17:29 621次阅读
    如<b class='flag-5'>何在</b>保证监测效果的<b class='flag-5'>前提下</b>降低电能质量在线监测装置的运行和维护成本?

    何在保证数据安全的前提下优化通信协议?

    产品实拍图 在保证数据安全的前提下优化通信协议,核心是 **“安全机制轻量化、安全与效率协同设计、按需适配场景风险”**—— 既不因过度安全(如复杂加密、冗余校验)牺牲传输效率,也不因追求效率(如
    的头像 发表于 08-27 09:55 476次阅读
    如<b class='flag-5'>何在</b>保证数据安全的<b class='flag-5'>前提下</b>优化通信协议?

    在MCU未损坏的前提下,当编程新的Config设置值时,为什么MCU上电后总是会复位呢?

    在MCU未损坏的前提下,当编程新的Config设置值时,为什么MCU上电后总是会复位?
    发表于 08-27 07:04

    基于NVIDIA Llama Nemotron Super v1.5模型构建AI智能体

    AI 智能体现在已经能够解决多步骤问题、编写生产级代码并在多个领域担任通用助手。但要充分发挥其潜力,还需要在控制成本的前提下加入先进的逻辑推理模型
    的头像 发表于 08-05 16:17 1133次阅读
    基于NVIDIA Llama Nemotron Super v1.5<b class='flag-5'>模型</b>构建AI智能体

    芯盾时代再度中标某省级银行

    芯盾时代再度中标某省级银行!芯盾时代通过自研的智能风控决策平台(IRD),结合AI模型、规则引擎等,完善客户交易全周期防护能力,在保障数据隐私的前提下提升模型迭代效率,进一步提升银行全
    的头像 发表于 07-25 15:26 931次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    数据中挖掘有价值信息,这也让我意识架构设计对模型性能起着根本性作用,是 AI 具备强大能力的 “骨骼” 支撑。 二、流水线并行 书中关于流水线并行的内容,展现了提升计算效率的巧妙思路
    发表于 07-20 15:07

    宽调速范围低转矩脉动的一种新型内置式永磁同步电机的设计与分析

    初始模型、优化模型以及转子结构为一字型的传统内置式永磁同步电机模型进行了对比分析。通过对电机的永磁体用量、山g轴电感、弱磁调速能力、齿槽转矩以及纹波转矩等重要
    发表于 06-06 14:13

    芯盾时代助力四川银行电子渠道实时交易监测系统升级

    芯盾时代再度中标四川银行!芯盾时代通过自研的智能风控决策平台(IRD),结合AI模型、规则引擎等,完善客户延迟支付规则的布控能力,在保障数据隐私的前提下提升模型迭代效率,进一步提升电子
    的头像 发表于 06-05 17:38 1037次阅读

    如何选择适合的微功耗开关和锁存器

    在电子器件领域快速发展的背景下,如何在不影响性能的前提下实现功耗优化,已成为工程师面临的重要挑战。
    的头像 发表于 05-16 09:50 848次阅读
    如何选择适合的微功耗开关和锁存器

    永磁同步电机伺服系统PI参数整定

    了合理有效的 PI 控制器参数整定方法,在满足系统稳定的前提下实现了良好的动态性能 。实验结果验证 了控制指标设定的合理性和整定方法的有效性。*附件:永磁同步电机伺服系统PI参数整定.pdf
    发表于 03-20 12:59

    优刻得安全屋+DeepSeek:解锁数据安全流通与AI赋能的创新场景

    随着数据要素市场化进程加速,如何在保障隐私安全的前提下充分释放数据价值,并基于当下大热的开源模型DeepSeek实现智能化转型,成为数字经济高质量发展的核心命题。近日,优刻得数据安全流通平台“安全屋
    的头像 发表于 03-11 16:00 866次阅读
    优刻得安全屋+DeepSeek:解锁数据安全流通与AI赋能的创新场景

    写程序的前提下,怎么判断ADS1253正常工作了?

    请教个基础问题: 1.只要clk正常(6M), 电源给上(5V),sclk给一个低电平,用示波器看数据线,是否会有所谓的准备信号,高低电平的波形出现? 2. 在写程序的前提下,怎么判断ADS1253正常工作了?
    发表于 01-07 06:54

    ADC3224 AD转换芯片噪声大的原因?怎么解决?

    如上图所示所采集的数据是在没有任何输入的前提下所得到的。 第一张图片所得的数据是在打开ADC3224 内部斩波器所得的双通道采样数据;第二张图片所得的数据为关闭斩波器所得。采样频率为
    发表于 01-07 06:38

    智谱推出深度推理模型GLM-Zero预览版

    任务能力前提下,专家任务能力得到了显著提升。在AIME 2024、MATH500和LiveCodeBench等多项评测中,
    的头像 发表于 01-03 10:42 777次阅读