0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种基于卷积和VIT的混合网络

冬至子 来源:思否AI 作者:思否AI 2023-09-08 16:42 次阅读

论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。

CMT:体系结构

CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。

1、局部感知单元(LPU)

在以前的transformer中使用的绝对位置编码是为了利用标记的顺序而设计的,它破坏了平移不变性。

为了缓解局限性,LPU使用卷积(MobileNetV1)提取局部信息,其定义为:

2、轻量级多头自我注意(LMHSA)

在原注意力模块中,自注意力模块为:

为了减少计算开销,在注意力操作之前,使用k × k步长为k的深度卷积(MobileNetV1)来减小k和V的空间大小。在每个自注意力模块中添加一个相对位置偏差B(类似于Shaw NAACL ' 18):

这里的h个是与ViT类似的注意力头。

3、反向残差前馈网络(IRFFN)

原始FFN使用两个线性层,中间是GELU:

IRFFN由扩展层(MobileNetV1)和卷积(投影层)组成。为了更好的性能,还修改了残差连接的位置:

使用深度卷积(MobileNetV1)提取局部信息,而额外的计算成本可以忽略不计。

4、CMT块

有了上述三个组成部分,CMT块可以表述为:

上式中,Yi和Zi分别表示LPU和LMHSA模块对第i块的输出特征。LN表示层归一化。

CMT变体

1、模型的复杂性

Transformer 的计算复杂度(FLOPs)可计算为:

式中,r为FFN的展开比,dk和dv分别为key和value的维度。ViT设d = dk = dv, r = 4,则计算可简化为:

CMT块的FLOPs:

其中k≥1为LMHSA的还原比。

可以看到,与标准Transformer块相比,CMT块对计算成本更友好,并且在更高分辨率(较大n)下更容易处理特征映射。

2、扩展策略

受EfficientNet的启发,使用复合系数φ来均匀缩放层数(深度)、维度和输入分辨率:

增加了α·β^(1.5) ·γ²≈2.5的约束,因此对于给定的新φ,总FLOPS将大约增加2.5^ φ。根据测试,默认为α=1.2, β=1.3, γ=1.15。

3、CMT变体

在CMT-S的基础上,根据提出的缩放策略构建了CMT-Ti、CMT-XS和CMT-B。四种模型的输入分辨率分别为160、192、224和256。

结果

1、消融研究

ViT/DeiT只能生成单尺度的特征图,丢失了大量的多尺度信息,但是这部分信息对密集预测至关重要。

DeiT与CMT-S一样具有4级stage,即DeiT- s - 4stage,可以实现改进。

所有的增量改进都表明,stem、LPU和IRFFN对性能的提高也有重要的贡献。CMT在LMHSA和IRFFN之前使用LN,在卷积层之后插入BN。如果将所有的LN都替换为BN,则模型在训练过程中无法收敛。

2、ImageNet

CMTS以4.0B FLOPs达到83.5%的top-1精度,比基线模型DeiT-S高3.7%,比CPVT高2.0%,表明CMT块在捕获局部和全局信息方面的优势。

值得注意的是,之前所有基于transformer的模型仍然不如通过彻底的架构搜索获得的EfficientNet,但是CMT-S比EfficientNet- b4高0.6%,计算成本更低,这也证明了所提出的混合结构的有效性。

3、下游任务

对于以RetinaNet为基本框架的目标检测,CMT-S优于twin - pcpvt - s (mAP为1.3%)和twin - svt - s (mAP为2.0%)。

以Mask R-CNN为基本框架的分割,CMT-S以1.7%的AP超过了Twins-PCPVTS,以1.9%的AP超过了Twins-SVT-S。

CMT- s在所有数据集中以更少的FLOPs优于其他基于transformer的模型,并在FLOPs减少9倍的情况下与EfficientNet-B7达到相当的性能,这证明了CMT架构的优越性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • CMT
    CMT
    +关注

    关注

    0

    文章

    15

    浏览量

    10760
  • 位置编码器
    +关注

    关注

    1

    文章

    17

    浏览量

    5502
  • 卷积网络
    +关注

    关注

    0

    文章

    41

    浏览量

    2129
收藏 人收藏

    评论

    相关推荐

    基于IP核的Viterbi译码器实现

    核的性能仿真。【关键词】:IP核;;Viterbi译码器;;增信删余【DOI】:CNKI:SUN:DZGS.0.2010-02-008【正文快照】:0引言卷积编码和V iterbi译码是一种高效的前向
    发表于 04-26 16:08

    【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

    探索整个过程中资源利用的优化使整个过程更加节能高效预计成果:1、在PYNQ上实现卷积神经网络2、对以往实现结构进行优化3、为卷积神经网络网路在硬件上,特别是在FPGA实现提供
    发表于 12-19 11:37

    基于赛灵思FPGA的卷积神经网络实现设计

    ,看下 FPGA 是否适用于解决大规模机器学习问题。卷积神经网络一种深度神经网络 (DNN),工程师最近开始将该技术用于各种识别任务。图
    发表于 06-19 07:24

    卷积神经网络CNN介绍

    【深度学习】卷积神经网络CNN
    发表于 06-14 18:55

    一种数模混合SoC设计协同仿真的验证方法

    固网短信电话专用SoC芯片介绍一种数模混合SoC设计协同仿真的验证方法
    发表于 04-23 06:06

    介绍一种基于Winpcap的网络视频流识别算法

    本文设计了一种基于Winpcap的网络视频流识别算法,实现了对网络流媒体的发现。
    发表于 06-03 06:34

    卷积神经网络卷积的处理过程

    。本文就以卷积神经网络为例谈谈怎么来进步优化卷积神经网络使用的memory。文章(
    发表于 12-23 06:16

    卷积神经网络模型发展及应用

    十余年来快速发展的崭新领域,越来越受到研究者的关注。卷积神经网络(CNN)模型是深度学习模型中最重要的一种经典结构,其性能在近年来深度学习任务上逐步提高。由于可以自动学习样本数据的特征表示,
    发表于 08-02 10:39

    探索一种降低ViT模型训练成本的方法

    (1 GPU)和时间(24小时)资源下从头开始训练ViT模型。首先,提出了一种ViT架构添加局部性的有效方法。其次,开发了一种新的图像大小课程学习策略,该策略允许在训练开始时减少从每
    发表于 11-24 14:56

    利用卷积调制构建一种新的ConvNet架构Conv2Former

    1、利用卷积探索一种更高效的编码空域特征的方式  本文旨在通过充分利用卷积探索一种更高效的编码空域特征的方式:通过组合ConvNet与ViT
    发表于 12-19 17:37

    《 AI加速器架构设计与实现》+第卷积神经网络观后感

    连接块是一种模块,通常用于深度卷积神经网络中,特别是在残差网络(Residual Network,ResNet)中广泛使用,也是我比较熟悉的。组卷积
    发表于 09-11 20:34

    【科普】卷积神经网络(CNN)基础介绍

    卷积神经网络的基础进行介绍,主要内容包括卷积神经网络概念、卷积神经
    发表于 11-16 01:00 1.1w次阅读
    【科普】<b class='flag-5'>卷积</b>神经<b class='flag-5'>网络</b>(CNN)基础<b class='flag-5'>介绍</b>

    一种混合卷积窗及其在谐波分析中的应用

    电力系统稳态信号非同步采样时,利用离散傅里叶变换分析谐波会使各频率成分产生频谱泄漏,增大了谐波参数的测量误差。为进一步抑制频谱泄漏,提高谐波测量的准确度,提出一种由矩形窗和余弦窗经过卷积运算
    发表于 03-28 10:22 1次下载

    关于Next-ViT 的建模能力

    由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否
    的头像 发表于 07-26 10:25 831次阅读

    卷积神经网络介绍 什么是卷积神经网络算法

    卷积神经网络介绍 什么是卷积神经网络算法 卷积神经网络
    的头像 发表于 08-21 16:49 1436次阅读