搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

介绍一种基于卷积和VIT的混合网络

论文提出了一种基于卷积和VIT的混合网络，利用Transformers捕获远程依赖关系，利用cnn提取局部信息。构建了一系列模型cmt，它在准确性和效率方面有更好的权衡。

CMT:体系结构

CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。

1、局部感知单元(LPU)

在以前的transformer中使用的绝对位置编码是为了利用标记的顺序而设计的，它破坏了平移不变性。

为了缓解局限性，LPU使用卷积(MobileNetV1)提取局部信息，其定义为:

2、轻量级多头自我注意(LMHSA)

在原注意力模块中，自注意力模块为:

为了减少计算开销，在注意力操作之前，使用k × k步长为k的深度卷积(MobileNetV1)来减小k和V的空间大小。在每个自注意力模块中添加一个相对位置偏差B(类似于Shaw NAACL ' 18):

这里的h个是与ViT类似的注意力头。

3、反向残差前馈网络(IRFFN)

原始FFN使用两个线性层，中间是GELU:

IRFFN由扩展层(MobileNetV1)和卷积(投影层)组成。为了更好的性能，还修改了残差连接的位置:

使用深度卷积(MobileNetV1)提取局部信息，而额外的计算成本可以忽略不计。

4、CMT块

有了上述三个组成部分，CMT块可以表述为:

上式中，Yi和Zi分别表示LPU和LMHSA模块对第i块的输出特征。LN表示层归一化。

CMT变体

1、模型的复杂性

Transformer 的计算复杂度(FLOPs)可计算为:

式中，r为FFN的展开比，dk和dv分别为key和value的维度。ViT设d = dk = dv, r = 4，则计算可简化为:

CMT块的FLOPs:

其中k≥1为LMHSA的还原比。

可以看到，与标准Transformer块相比，CMT块对计算成本更友好，并且在更高分辨率(较大n)下更容易处理特征映射。

2、扩展策略

受EfficientNet的启发，使用复合系数φ来均匀缩放层数(深度)、维度和输入分辨率:

增加了α·β^(1.5) ·γ²≈2.5的约束，因此对于给定的新φ，总FLOPS将大约增加2.5^ φ。根据测试，默认为α=1.2， β=1.3， γ=1.15。

3、CMT变体

在CMT-S的基础上，根据提出的缩放策略构建了CMT-Ti、CMT-XS和CMT-B。四种模型的输入分辨率分别为160、192、224和256。

结果

1、消融研究

ViT/DeiT只能生成单尺度的特征图，丢失了大量的多尺度信息，但是这部分信息对密集预测至关重要。

DeiT与CMT-S一样具有4级stage，即DeiT- s - 4stage，可以实现改进。

所有的增量改进都表明，stem、LPU和IRFFN对性能的提高也有重要的贡献。CMT在LMHSA和IRFFN之前使用LN，在卷积层之后插入BN。如果将所有的LN都替换为BN，则模型在训练过程中无法收敛。

2、ImageNet

CMTS以4.0B FLOPs达到83.5%的top-1精度，比基线模型DeiT-S高3.7%，比CPVT高2.0%，表明CMT块在捕获局部和全局信息方面的优势。

值得注意的是，之前所有基于transformer的模型仍然不如通过彻底的架构搜索获得的EfficientNet，但是CMT-S比EfficientNet- b4高0.6%，计算成本更低，这也证明了所提出的混合结构的有效性。

3、下游任务

对于以RetinaNet为基本框架的目标检测，CMT-S优于twin - pcpvt - s (mAP为1.3%)和twin - svt - s (mAP为2.0%)。

以Mask R-CNN为基本框架的分割，CMT-S以1.7%的AP超过了Twins-PCPVTS，以1.9%的AP超过了Twins-SVT-S。

CMT- s在所有数据集中以更少的FLOPs优于其他基于transformer的模型，并在FLOPs减少9倍的情况下与EfficientNet-B7达到相当的性能，这证明了CMT架构的优越性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

CMT

CMT

+关注

关注
0

文章
16

浏览量
11001
位置编码器

位置编码器

+关注

关注
1

文章
19

浏览量
5768
卷积网络

卷积网络

+关注

关注
0

文章
43

浏览量
3161

评论

精选推荐
更多

文章

资料

帖子

技术向高生态同行地平线首届技术生态大会绘就智能产业共进蓝图

章鹰观察
5小时前

710 阅读

从系统视角选时钟：一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确打开方式

FCom富士晶振
12小时前

746 阅读

基于AIK-RA8D1的人脸识别的应用演示

RA生态工作室
6天前

1063 阅读

2025中国人工智能大会，藏着AI的行动派时刻

脑极体
1天前

1940 阅读

T型三电平拓扑架构深入剖析与碳化硅MOSFET技术优势的全面研究报告

杨茜
1天前

2998 阅读

复位及看门狗电路

lanlanw
320 KB

免费

382下载

矩阵键盘逐行扫描法详解

lanlanw
48.1 KB

免费

643下载

The Way to Go中文版

ah此生不换
2.59 MB

免费

0下载

DockerUI Docker的管理UI

李义坤
0.24 MB

免费

0下载

Vald分布式矢量搜索引擎

韩刚龙
10.43 MB

2积分

1下载

【乾芯QXS320F开发板试用】拿板第一天：环境准备

jf_87031193
1天前

156 阅读

【瑞萨RA6E2地奇星开发板试用】+ 2.串口打印测试

jf_43382582
1天前

248 阅读

【社区之星】李杨——把头扎进沙漠，发现沙子下是星辰大海

dianzi_0101
1天前

215 阅读

我们计划设计一个基于电容的自举电路，招募英雄！

jf_53150340
1天前

352 阅读

【瑞萨RA6E2地奇星开发板试用】+ 1.点灯测试1500ms跳转一次

jf_43382582
1天前

238 阅读

推荐专栏
更多

企业产品

资料

方案
更多

华秋（原“华强聚丰”）：

电子发烧友

华秋开发

华秋电路(原"华强PCB")

华秋商城(原"华强芯城")

华秋智造

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

华秋电路

华秋商城

华秋智造

nextPCB

BOM配单

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

华秋

关于我们

投资关系

新闻动态

加入我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

硬声APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

黄晶晶：huangjingjing@elecfans.com

内容合作（海外）

张迎辉：mikezhang@elecfans.com

供应链服务 PCB/IC/PCBA

江良华：lanhu@huaqiu.com

投资合作

曾海银：zenghaiyin@huaqiu.com

社区合作

刘勇：liuyong@huaqiu.com

关注我们的微信

下载发烧友APP

电子发烧友观察

电子工程师社区

1-32层PCB打样·中小批量

元器件现货·全球代购·SmartBOM

SMT贴片·PCBA加工

PCB Manufacturer

华秋简介

企业动态

联系我们

企业文化

企业宣传片

加入我们

版权所有 © 湖南华秋数字科技有限公司

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层（0731-88081133）
电子发烧友 （电路图） 湘公网安备43011202000918 工商网监湘ICP备2023018690号-1