0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯优图/浙大/北大提出:重新思考高效神经模型的移动模块

CVer 来源:CVHu 2023-01-08 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

本文重新思考了 MobileNetv2 中高效的倒残差模块 Inverted Residual Block 和 ViT 中的有效 Transformer 的本质统一,归纳抽象了 MetaMobile Block 的一般概念。受这种现象的启发,作者设计了一种面向移动端应用的简单而高效的现代反向残差移动模块 (InvertedResidualMobileBlock,iRMB),它吸收了类似 CNN 的效率来模拟短距离依赖和类似 Transformer 的动态建模能力来学习长距离交互。所提出的高效模型 (EfficientMOdel,EMO) 在 ImageNet-1K、COCO2017 和 ADE20K 基准上获取了优异的综合性能,超过了同等算力量级下基于 CNN/Transformer 的 SOTA 模型,同时很好地权衡模型的准确性和效率。

动机

近年来,随着对存储和计算资源受限的移动应用程序需求的增加,涌现了非常多参数少、FLOPs 低的轻量级模型,例如Inceptionv3时期便提出了使用非对称卷积代替标准卷积。后来MobileNet提出了深度可分离卷积 depth-wise separable convolution 以显着减少计算量和参数,一度成为了轻量化网络的经典之作。在此基础上,MobileNetv2 提出了一种基于 Depth-Wise Convolution (DW-Conv) 的高效倒置残差块(IRB),更是成为标准的高效模块代表作之一。然而,受限于静态 CNN 的归纳偏差影响,纯 CNN 模型的准确性仍然保持较低水平,以致于后续的轻量化之路并没有涌现出真正意义上的突破性工作。

47186fcc-8ea5-11ed-bfe3-dac502259ad0.png

Swin

472e2376-8ea5-11ed-bfe3-dac502259ad0.png

PVT

47367a44-8ea5-11ed-bfe3-dac502259ad0.png

Eatformer

4742876c-8ea5-11ed-bfe3-dac502259ad0.png

EAT

随着 Transformer 在 CV 领域的崛起,一时间涌现了许多性能性能超群的网络,如 Swin transformer、PVT、Eatformer、EAT等。得益于其动态建模和不受归纳偏置的影响,这些方法都取得了相对 CNN 的显着改进。然而,受多头自注意(MHSA)参数和计算量的二次方限制,基于 Transformer 的模型往往具有大量资源消耗,因此也一直被吐槽落地很鸡肋。

针对 Transformer 的这个弊端,当然也提出了一些解决方案:

设计具有线性复杂性的变体,如FAVOR+和Reformer等;

降低查询/值特征的空间分辨率,如Next-vit、PVT、Cvt等;

重新排列通道比率来降低 MHSA 的复杂性,如Delight;

不过这种小修小改还是难成气候,以致于后续也出现了许多结合轻量级 CNN 设计高效的混合模型,并在准确性、参数和 FLOPs 方面获得比基于 CNN 的模型更好的性能,例如Mobilevit、MobileViTv2和Mobilevitv3等。然而,这些方法通常也会引入复杂的结构,或者更甚者直接采用多个混合的模块如Edgenext和Edgevits,这其实是不利于优化的。

总而言之,目前没有任何基于 Transformer 或混合的高效块像基于 CNN 的 IRB 那样流行。因此,受此启发,作者重新考虑了 MobileNetv2 中的 Inverted Residual Block 和 Transformer 中的 MHSA/FFN 模块,归纳抽象出一个通用的 Meta Mobile Block,它采用参数扩展比 λ 和高效算子 F 来实例化不同的模块,即 IRB、MHSA 和前馈网络 (FFN)。

基于此,本文提出了一种简单高效的模块——反向残差移动块(iRMB),通过堆叠不同层级的 iRMB,进而设计了一个面向移动端的轻量化网络模型——EMO,它能够以相对较低的参数和 FLOPs 超越了基于 CNN/Transformer 的 SOTA 模型,如下图所示:

474f64c8-8ea5-11ed-bfe3-dac502259ad0.png

方法

4756bdea-8ea5-11ed-bfe3-dac502259ad0.png

EMO

上图是整体框架图,左边是 iRMB 模块的示例图。下面让我们进一步拆解下这个网络结构图。

Meta Mobile Block

475d169a-8ea5-11ed-bfe3-dac502259ad0.png

Meta Mobile Block

如上所述,通过对 MobileNetv2 中的 Inverted Residual Block 以及 Transformer 中的核心 MHSA 和 FFN 模块进行抽象,作者提出了一种统一的 Meta Mobile (M2) Block 对上述结构进行统一的表示,通过采用参数扩展率 λ 和高效算子 F 来实例化不同的模块。

Inverted Residual Mobile Block

基于归纳的 M2 块,本文设计了一个反向残差移动块 (iRMB),它吸收了 CNN 架构的效率来建模局部特征和 Transformer 架构动态建模的能力来学习长距离交互。

具体实现中,iRMB 中的 F 被建模为级联的 MHSA 和卷积运算,公式可以抽象为 。这里需要考虑的问题主要有两个:

通常大于中间维度将是输入维度的倍数,导致参数和计算的二次增加。

MHSA 的 FLOPs 与总图像像素的二次方成正比。

具体的参数比对大家可以简单看下这个表格:

4769234a-8ea5-11ed-bfe3-dac502259ad0.png

因此,作者很自然的考虑结合 W-MHSA 和 DW-Conv 并结合残差机制设计了一种新的模块。此外,通过这种级联方式可以提高感受野的扩展率,同时有效的将模型的 MPL 降低到 。

为了评估 iRMB 性能,作者将 λ 设置为 4 并替换 DeiT 和 PVT 中标准的 Transformer 结构。如下述表格所述,我们可以发现 iRMB 可以在相同的训练设置下以更少的参数和计算提高性能。

4771173a-8ea5-11ed-bfe3-dac502259ad0.png

EMO

为了更好的衡量移动端轻量化模型的性能,作者定义了以下4个标准:

可用性。即不使用复杂运算符的简单实现,易于针对应用程序进行优化。

简约性。即使用尽可能少的核心模块以降低模型复杂度。

有效性。即良好的分类和密集预测性能。

高效性。即更少的参数和计算精度权衡。

下面的表格总结了本文方法与其它几个主流的轻量化模型区别:

477be17e-8ea5-11ed-bfe3-dac502259ad0.png

可以观察到以下几点现象:

基于 CNN 的 MobileNet 系列的性能现在看起来略低,而且其参数略高于同行;

近期刚提出的 MobileViT 系列虽然取得了更优异的性能,但它们的 FLOPs 较高,效率方面欠佳;

EdgeNeXt 和 EdgeViT 的主要问题是设计不够优雅,模块较为复杂;

基于上述标准,作者设计了一个由多个 iRMB 模块堆叠而成的类似于 ResNet 的高效模型——EMO,主要体现在以下几个优势:

1)对于整体框架,EMO 仅由 iRMB 组成,没有多样化的模块,这在设计思想上可称得上大道至简;

2)对于特定模块,iRMB 仅由标准卷积和多头自注意力组成,没有其他复杂的运算符。此外,受益于 DW-Conv,iRMB 还可以通过步长适应下采样操作,并且不需要任何位置嵌入来向 MHSA 引入位置偏差;

3)对于网络的变体设置,作者采用逐渐增加的扩展率和通道数,详细配置如下表所示。

47866ec8-8ea5-11ed-bfe3-dac502259ad0.png

由于 MHSA 更适合为更深层的语义特征建模,因此 EMO 仅在第3和第4个stage采用它。为了进一步提高 EMO 的稳定性和效率,作者还在第1和第2个stage引入 BN 和 SiLU 的组合,而在第3和第4个stage替换成 LN 和 GeLU 的组合,这也是大部分 CNN 和 Transformer 模型的优先配置。

实验

参数比对

先来看下 EMO 和其他轻量化网络的相关超参比对:

478e2e24-8ea5-11ed-bfe3-dac502259ad0.png

可以看到,EMO 并没有使用大量的强 DataAug 和 Tricks,这也充分体现了其模块设计的有效性。

性能指标

47969884-8ea5-11ed-bfe3-dac502259ad0.png

图像分类

479eb97e-8ea5-11ed-bfe3-dac502259ad0.png

目标检测

47a73d7e-8ea5-11ed-bfe3-dac502259ad0.png

语义分割

整体来看,EMO 在图像分类、目标检测和语义分割 CV 三大基础任务都表现强劲,可以以较少的计算量和参数量取得更加有竞争力的结果。

可视化效果

47b145bc-8ea5-11ed-bfe3-dac502259ad0.png

Qualitative comparisons with MobileNetv2 on two main downstream tasks

从上面的可视化结果可以明显的观察到,本文提出的方法在分割的细节上表现更优异。

47c90698-8ea5-11ed-bfe3-dac502259ad0.png

Attention Visualizations by Grad-CAM

为了更好地说明本文方法的有效性,作者进一步采用 Grad-CAM 方法突出显示不同模型的相关区域。如上图所示,基于 CNN 的 ResNet 倾向于关注特定对象,而基于 Transformer 的 MPViT 更关注全局特征。相比之下,EMO 可以更准确地关注显着物体,同时保持感知全局区域的能力。这在一定程度上也解释了为什么 EMO 在各类任务中能获得更好的结果。

47da0178-8ea5-11ed-bfe3-dac502259ad0.png

Feature Similarity Visualizations

上面我们提到过,通过级联 Convolution 和 MHSA 操作可以有效提高感受野的扩展速度。为了验证此设计的有效性,这里将第3个Stage中具有不同组成的对角线像素的相似性进行可视化,即可视化 DW-Conv 和 EW-MHSA 以及同时结合两个模块。

47f0ff54-8ea5-11ed-bfe3-dac502259ad0.png

可以看出,无论从定量或定性的实验结果看来,当仅使用 DW-Conv 时,特征往往具有短距离相关性,而 EW-MHSA 带来更多的长距离相关性。相比之下,当同时采用这两者时,网络具有更大感受野的模块,即更好的建模远距离的上下文信息。

47fad196-8ea5-11ed-bfe3-dac502259ad0.png

Ablation studies on ImageNet-1K with EMO-5M

最后展示的是本文的消融实验,整体来说实验部分还是挺充实的,感兴趣的小伙伴去看下原文,时间有限,今天我们就分析到这里。

结论

本文探讨了面向移动端的高效架构设计,通过重新思考 MobileNetv2 中高效的 Inverted Residual Block 和 ViT 中的有效 Transformer 的本质统一,作者引入了一个称为 Meta Mobile Block 的通用概念,进而推导出一个简单而高效的现代 iRMB 模块。具体地,该模块包含两个核心组件,即 DW-Conv 和 EW-MHSA,这两个组件可以充分利用 CNN 的效率来建模短距离依赖同时结合 Transformer 的动态建模能力来学习长距离交互。最后,通过以不同的规模堆叠 iRMB 模块搭建了一个高效的类 ResNet 架构——EMO,最终在 ImageNet-1K、COCO2017 和 ADE20K 三个基准测试的大量实验证明了 EMO 优于其它基于 CNN 或 Transformer 的 SoTA 方法。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42437
  • 模型
    +关注

    关注

    1

    文章

    3817

    浏览量

    52265
  • cnn
    cnn
    +关注

    关注

    3

    文章

    356

    浏览量

    23533

原文标题:腾讯优图/浙大/北大提出:重新思考高效神经模型的移动模块

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元

    2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合256K超长上下文窗口,标志着
    的头像 发表于 04-24 09:07 208次阅读

    Arm率先适配腾讯混元HY-1.8B-2Bit模型

    腾讯混元今日发布了 HY-1.8B-2Bit,这是一款等效参数量仅有 0.3B 的极低比特压缩模型,有助于移动设备厂商和开发者加速实现生成式 AI 的创新落地。作为全球应用最为广泛的高性能、高能效
    的头像 发表于 02-10 17:29 2062次阅读

    沐曦曦云C500/C550 GPU产品适配腾讯混元图像3.0模型

    近日,腾讯混元团队宣布开源混元图像3.0生图版本(HunyuanImage 3.0-Instruct),沐曦股份曦云C500/C550 24小时内完成适配,为国内首批适配该模型的国产算力。
    的头像 发表于 02-02 14:43 542次阅读

    模型中常提的快慢思考会对自动驾驶产生什么影响?

    提出的“快慢系统”理论启发,旨在让自动驾驶系统模拟人类的思考与决策过程。理想汽车结合端到端与VLM模型,推出了业界首个在车端部署的双系统方案,并成功将VLM视觉语言模型部署于车端芯片上
    的头像 发表于 11-22 10:59 2630次阅读
    大<b class='flag-5'>模型</b>中常提的快慢<b class='flag-5'>思考</b>会对自动驾驶产生什么影响?

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是一组高效神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络的性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定类别
    发表于 10-29 06:08

    脉冲神经元模型的硬件实现

    实现。所以现有的大部分 SNN 加速器的硬件实现上都采用LIF模型。 如图所示,设计的 SNN 神经核整体架构如图所示。 神经核主要由 LIF 神经
    发表于 10-24 08:27

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是训练一个手写数字识别的神经
    发表于 10-22 07:03

    腾讯地图在AI时代的全新思考与实践

    9月17日,在2025腾讯全球数字生态大会地图专场上,腾讯集团副总裁、腾讯智慧出行总裁钟翔平分享了腾讯地图在AI时代的全新思考与实践。
    的头像 发表于 09-18 10:32 1016次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    。是实现类脑芯片的基本模型。SNN中的神经元通过短的电脉冲相互沟通,脉冲之间的时间间隔起着重要作用。 最有利于硬件实现的脉冲神经元模型是“漏电整合-激发”模型: 与DNN相比,SNN的
    发表于 09-17 16:43

    3万字长文!深度解析大语言模型LLM原理

    继续追本溯源,与腾讯学堂合作撰写本文,尝试让人人都能懂大语言模型的基础原理。1、大语言模型简述截止到2025年“大模型”一般泛指“超大参数模型
    的头像 发表于 09-02 13:34 3610次阅读
    3万字长文!深度解析大语言<b class='flag-5'>模型</b>LLM原理

    基于神经网络的数字预失真模型解决方案

    在基于神经网络的数字预失真(DPD)模型中,使用不同的激活函数对整个系统性能和能效有何影响?
    的头像 发表于 08-29 14:01 3665次阅读

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNN
    的头像 发表于 08-27 14:06 1152次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型的第零日(Day 0)部署与性能优化。值得一提的是, 依托
    的头像 发表于 08-07 14:42 1532次阅读
    硬件与应用同频共振,英特尔Day 0适配<b class='flag-5'>腾讯</b>开源混元大<b class='flag-5'>模型</b>

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度适配与高效支持。这一成果充分彰显了MUSA架
    的头像 发表于 07-04 14:10 1004次阅读

    CoT 数据集如何让大模型学会一步一步思考

    目前,大模型的回答路径基本遵循 input-output 的方式,在面对复杂任务时表现不佳。反之,人类会遵循一套有条理的思维流程,逐步推理得出正确答案。这种差异促使人们深入思考:如何才能让大模型“智能涌现”,学会像人类一样“一步
    的头像 发表于 04-24 16:51 1559次阅读
    CoT 数据集如何让大<b class='flag-5'>模型</b>学会一步一步<b class='flag-5'>思考</b>?