0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Apple提出FastViT:快速卷积和Transformer混合架构

CVer 来源:极市平台 2023-09-20 17:12 次阅读

导读

本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型,移动设备和 ImageNet 数据集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍

太长不看版

本文是 MobileOne 原班人马打造,可以看做是 MobileOne 的方法在 Transformer 上的一个改进型的应用。作者取名 FastViT,是一种 CNN,Transformer 混合架构的低延时模型。作者引入了一种新的 token mixer,叫做 RepMixer,它使用结构重新参数化技术,通过删除网络中的 Shortcut 来降低内存访问成本。

进一步使用大核卷积使得 FastViT 精度得到提升,而且不怎么影响延时。在移动设备和 ImageNet 数据集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在类似的延迟下,FastViT 在 ImageNet 上获得的 Top-1 准确率比 MobileOne 高 4.2%,是一种极具竞争力的混合架构模型。

1 FastViT:快速卷积 Transformer 的混合视觉架构

论文名称:FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

f9052922-5773-11ee-939d-92fbcf53809c.png

在CVer微信公众号后台回复:FastViT,可以下载本论文pdf、代码

论文:https://arxiv.org/pdf/2303.14189

代码:https://github.com/apple/ml-fastvit

1.1 背景和动机

本文的目标是做一个卷积,Attention 的低延时混合架构,因为这种架构有效地结合了 CNN 和 Transformer 的优势,在多个视觉任务上有竞争力。本文的目标是建立一个模型,实现 SOTA 的精度-延时 Trade-off。

本文的出发点是最近的像 CMT[1],LIT[2]等 CNN 和 Transformer 混合架构的模型都遵循 MetaFormer[3] 的架构,它由带有 skip-connection 的 token mixer 和带有 skip-connection 的前馈网络 (Feed Forward Network) 组成。由于增加了内存访问成本 (memory access cost),这些跳过连接在延迟方面占了很大的开销。为了解决这个延迟开销,本文提出 RepMixer,这是一个完全可以重参数化的令牌混合器,它的特点1是使用结构重参数化来删除 skip-connection。

RepMixer 的特点2是在训练期间为主要的层添加一些过参数化的额外的分支,以在训练时提升模型的精度,在推理时全部消除。RepMixer 的特点3是在网络中使用了大核卷积在前几个阶段替换掉 Self-Attention。具体是在前馈网络 (FFN) 层和 Patch Embedding 层中加入了大核卷积。这些更改对模型的总体延迟影响很小,同时提高了性能。

对于性能这块作者在 iPhone 12 Pro 设备和 NVIDIA RTX-2080Ti desktop GPU 上进行了详尽的分析,实验结果如下图1所示。可以看到在两种设备上,FastViT 都实现了最佳的精度-延时的权衡。

f915a748-5773-11ee-939d-92fbcf53809c.png

图1:iPhone 12 Pro 设备和 NVIDIA RTX-2080Ti desktop GPU 上的精度-延时比较

1.2 FastViT 模型架构

FastViT 整体架构如下图2所示。

Stage 的内部架构

FastViT 采用了4个 stage 的架构,每个 stage 相对于前一个的分辨率减半,通道数加倍。前3个 stage 的内部架构是一样的,都是训练的时候采用下式:

f92b6894-5773-11ee-939d-92fbcf53809c.png

推理的时候采用结构重参数化得到下式:

f934fe9a-5773-11ee-939d-92fbcf53809c.png

第4个 stage 的内部架构如图2 (a) 所示,采用 Attention 来作为 token mixer,可能是为了性能考虑,宁愿不采用结构重参数化,牺牲延时成本,以换取更好的性能。

值得注意的是,每个 Stage 中的 FFN 使用的并不是传统的 FFN 架构,而是如图2 (c) 所示的,带有大核 7×7 卷积的 ConvFFN 架构。

f9416464-5773-11ee-939d-92fbcf53809c.png

图2:FastViT 模型架构

Stem 的结构

Stem 是整个模型的起点,如图2 (b) 所示,FastViT 的 Stem 在推理时的结构是 3×3 卷积 + 3×3 Depth-wise 卷积 + 1×1 卷积。在训练时分别加上 1×1 分支或者 Identity 分支做结构重参数化。

Patch Embedding 的架构

Patch Embedding 是模型在 Stage 之间过渡的部分,FastViT 的 Patch Embedding 如图2 (a) 所示,在推理时的结构是 7×7 大 Kernel 的 Depth-wise 卷积 + 1×1 卷积。在训练时分别加上 3×3 分支做结构重参数化。

位置编码

位置编码使用条件位置编码,它是动态生成的,并以输入 token 的局部邻域为条件。这些编码是由 depth-wise 运算符生成的,并添加到 Patch Embedding 中。

1.3 RepMixer 的延时优势

如下图3所示,作者对比了 RepMixer 和高效的 Pooling 操作的延时情况。架构使用的是 MetaFormer S12,大概有 1.8 GFLOPs。作者在 iPhone 12 Pro 移动设备上为从 224×224 到 1024×1024 的各种输入分辨率的模型计时。可以看到 RepMixer 明显优于 Pooling,尤其是在较高分辨率的时候。在分辨率为 384×384 时,使用 RepMixer 可以降低 25.1% 的延迟,而在分辨率为 1024×1024 时,使用 RepMixer 可以降低 43.9% 的延迟。

f95a3318-5773-11ee-939d-92fbcf53809c.png

图3:RepMixer 的延时优势

1.4 FastViT 的大核卷积

RepMixer 的感受野是局部的。我们知道 Self-Attention 操作的感受野是全局的,但是 Self-Attention 操作计算量昂贵,因此之前有工作说使用大核卷积可以在计算量得到控制的情况下有效增加感受野的大小。FastViT 在两个位置引入了大核卷积,分别是 Patch Embedding 层和 FFN。对比实验的结果如下图4所示。将 V5 与 V3 进行比较,模型大小增加了 11.2%,延迟增加了 2.3 倍,而 Top-1 精度的增益相对较小,只有 0.4%,说明使用大核卷积来替换 Self-Attention 是一种高效,节约延时的方式。V2 比 V4 大 20%,延时比 V4 高 7.1%,同时在 ImageNet 上获得相似的 Top-1 精度。

f9698dcc-5773-11ee-939d-92fbcf53809c.png

图4:大核卷积的消融实验

随着感受野的增加,大核卷积也有助于提高模型的鲁棒性。FastViT 各种模型的超参数配置如下图5所示。

f97a1afc-5773-11ee-939d-92fbcf53809c.png

图5:FastViT 的超参数配置

1.5 实验结果

ImageNet-1K 图像分类实验结果

如下图6所示是 ImageNet-1K 图像分类实验结果。对于 iPhone 设备延时的测量,作者使用 Core ML Tools (v6.0) 导出模型,并在带有 iOS 16 的 iPhone12 Pro Max 上运行,并将所有模型的 Batch Size 大小设置为1。对于 GPU延时的测量,作者把模型导出为 TensorRT (v8.0.1.6) 格式,并在 NVIDIA RTX-2080Ti 上运行,Batch Size 大小为8,报告100次运行的中位数。

与 SOTA 模型的性能比较如下图6所示。本文的 FastViT 实现了最佳的精度-延时均衡,比如 FastViT-S12 在 iPhone 12 Pro 上比 MobileOne-S4 快 26.3%,GPU 上快 26.9%。在 83.9% 的 Top-1 精度下,FastViT-MA36 比 iPhone 12 Pro 上优化的 ConvNeXt-B 模型快 1.9倍, GPU上快2.0倍。

f9901fa0-5773-11ee-939d-92fbcf53809c.png

图6:ImageNet-1K 图像分类实验结果

知识蒸馏实验结果

如下图7所示是 FastViT 作为学生模型的知识蒸馏实验结果。作者遵循 DeiT 中的实验设置,RegNet16GF 作为教师模型,使用 Hard Distillation,其中教师的输出设置为 true label,一共训练300个 Epochs。FastViT 优于最近最先进的模型 EfficientFormer。FastViT-SA24 的性能与 EfficientFormer-L7 相似,但参数少3.8倍,FLOPs 少2.7倍,延迟低2.7倍。

f9a66594-5773-11ee-939d-92fbcf53809c.png

图7:知识蒸馏实验结果

目标检测和语义分割实验结果

对于语义分割,作者在 ADE20k 上验证了模型的性能语义分割模型头使用的是 Semantic FPN,所有的模型都是用预先训练好的对应图像分类模型的权重进行初始化。在 512×512 的设置上估计 FLOPs 和延迟。由于输入图像的分辨率较高,在表9和表10中,GPU 延迟在测量时使用了大小为2的 Batch Size。在图8中,作者将 FastViT 与最近的工作进行了比较。FastViT-MA36 的 mIoU 比 PoolFormer-M36 高 5.2%,但是 PoolFormer 具有更高的 FLOPs、参数量和延迟。

f9bfcffc-5773-11ee-939d-92fbcf53809c.png

图8:语义分割实验结果

目标检测和实例分割实验实验 MS-COCO 数据集,实验结果如下图9所示。所有模型都使用 Mask-RCNN 目标检测和实例分割头按照 1x schedule 进行训练。所有的模型都是用预先训练好的对应图像分类模型的权重进行初始化。结果显示出 FastViT 在多种延迟机制下实现了最先进的性能。FastViT-MA36 模型的性能与 CMT-S 相似,但在桌面GPU 和移动设备上分别快2.4倍和4.3倍。

f9d58ee6-5773-11ee-939d-92fbcf53809c.png

图9:目标检测和实例分割实验结果

总结

本文提出了一种通用的 CNN 和 Transformer 混合的视觉基础模型,是由 MobileOne 原班人马打造,可以看做是 MobileOne 的方法在 Transformer 上的一个改进型的应用。作者引入了一种新的 token mixer,叫做 RepMixer,它使用结构重新参数化技术,通过删除网络中的 Shortcut 来降低内存访问成本,尤其是在较高分辨率时。作者还提出了进一步的架构更改,以提高 ImageNet 分类任务和其他下游任务的性能。在移动设备和 ImageNet 数据集上的精度相同的前提下,FastViT 比 CMT 快3.5倍,比 EfficientNet 快4.9倍,比 ConvNeXt 快1.9倍。在类似的延迟下,FastViT 在 ImageNet 上获得的 Top-1 准确率比 MobileOne 高 4.2%,是一种极具竞争力的混合架构模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 架构
    +关注

    关注

    1

    文章

    484

    浏览量

    25200
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24351
  • cnn
    cnn
    +关注

    关注

    3

    文章

    327

    浏览量

    21298

原文标题:ICCV 2023 | Apple提出FastViT:快速卷积和Transformer混合架构

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于MLP的快速医学图像分割网络UNeXt相关资料分享

    缓慢。这篇文章提出了基于卷积多层感知器(MLP)改进 U型架构的方法,可以用于图像分割。设计了一个 tokenized MLP 块有效地标记和投影卷积特征,使用 MLPs 来建模表示。
    发表于 09-23 14:53

    利用卷积调制构建一种新的ConvNet架构Conv2Former

    构建了一种新的ConvNet架构Conv2Former。ImageNet分类、COCO检测以及ADE20K分割任务上的实验结果表明:所提Conv2Former取得了优于主流ConvNet(如ConvNeXt)、ViT(如Swin Transformer)的性能。  本文方
    发表于 12-19 17:37

    一层卷积能做啥?一层卷积可以做超分吗?

    深度学习超分之间的空白。作为从经典到深度学习上采样之间的过渡,我们提出了edge-SR(eSR):一层架构,它采用可解释机制进行图像上采样。当然,一层架构无法达到与深度学习方法的性能,但是,对于高速度
    发表于 03-06 14:05

    简谈卷积—幽默笑话谈卷积

    的物理意义呢?那下面咱们就来看一看详细的卷积本质以及物理意义的介绍。 一、来源 卷积其实就是为冲击函数诞生的。“冲击函数”是狄拉克为了解决一些瞬间作用的物理现象而提出的符号。古人曰:“说一堆
    发表于 05-25 18:08

    基于多步分解算法的解卷积混合盲源分离新方法

    基于多步分解算法的解卷积混合盲源分离新方法:该文提出一种基于二阶统计量的时域多步分解算法求解卷积混合盲源分离问题。引入白化处理,将混迭矩阵转
    发表于 10-29 13:08 26次下载

    一种混合卷积窗及其在谐波分析中的应用

    电力系统稳态信号非同步采样时,利用离散傅里叶变换分析谐波会使各频率成分产生频谱泄漏,增大了谐波参数的测量误差。为进一步抑制频谱泄漏,提高谐波测量的准确度,提出一种由矩形窗和余弦窗经过卷积运算
    发表于 03-28 10:22 1次下载

    谷歌将AutoML应用于Transformer架构,翻译结果飙升!

    为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer
    的头像 发表于 06-16 11:29 2871次阅读

    基于Deeplabv3架构的串联空洞卷积神经网络

    室外网球场实景环境下的语义分割是开发网球运动服务机器人需要解决的一项关键技术。针对室外网球场环境由于光照、视角等因素的变化导致难以进行精细分割的问题,提出一种基于 Deeplabv3架构的串联空洞
    发表于 04-29 14:51 26次下载
    基于Deeplabv3<b class='flag-5'>架构</b>的串联空洞<b class='flag-5'>卷积</b>神经网络

    基于卷积的框架有效实现及视觉Transformer背后的关键成分

    来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 的关键,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。
    的头像 发表于 09-09 15:44 900次阅读

    利用Transformer和CNN 各自的优势以获得更好的分割性能

    概述 在这篇论文中,提出了一种新的医学图像分割混合架构:PHTrans,它在主要构建块中并行混合 Transformer 和 CNN,分别从
    的头像 发表于 11-05 11:38 5727次阅读

    无残差连接或归一化层,也能成功训练深度transformer

    残差架构是最流行和成功的,最初是在卷积神经网络(CNN)的背景下开发的,后来自注意力网络中产生了无处不在的 transformer 架构。残差架构
    的头像 发表于 12-12 11:23 409次阅读

    PyTorch教程8.8之设计卷积网络架构

    电子发烧友网站提供《PyTorch教程8.8之设计卷积网络架构.pdf》资料免费下载
    发表于 06-05 10:02 0次下载
    PyTorch教程8.8之设计<b class='flag-5'>卷积</b>网络<b class='flag-5'>架构</b>

    基于鲁棒神经架构的设计

    导读 继卷积神经网络之后,Transformer又推进了图像识别的发展,成为视觉领域的又一主导。最近有人提出Transformer的这种优越性应归功于Self-Attention的
    的头像 发表于 07-17 14:35 288次阅读
    基于鲁棒神经<b class='flag-5'>架构</b>的设计

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer
    发表于 07-26 10:44 976次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    介绍一种基于卷积和VIT的混合网络

    论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。
    的头像 发表于 09-08 16:42 713次阅读
    介绍一种基于<b class='flag-5'>卷积</b>和VIT的<b class='flag-5'>混合</b>网络