0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ConvNeXt模型更新了!

OpenCV学堂 来源:机器之心 2023-01-12 11:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ConvNeXt 模型更新了!

经过几十年的基础研究,视觉识别领域已经迎来了大规模视觉表征学习的新时代。预训练的大规模视觉模型已经成为特征学习(feature learning)和视觉应用的基本工具。视觉表征学习系统的性能在很大程度上受到三个主要因素的影响:模型的神经网络架构、训练网络的方法以及训练数据。每个因素的改进都有助于模型整体性能的提高。

神经网络架构设计的创新在表征学习领域一直发挥着重要作用。卷积神经网络架构(ConvNet)对计算机视觉研究产生了重大影响,使得各种视觉识别任务中能够使用通用的特征学习方法,无需依赖人工实现的特征工程。近年来,最初为自然语言处理而开发的 transformer 架构因其适用于不同规模的模型和数据集,在其他深度学习领域中也开始被广泛使用。

ConvNeXt 架构的出现使传统的 ConvNet 更加现代化,证明了纯卷积模型也可以适应模型和数据集的规模变化。然而,要想对神经网络架构的设计空间进行探索,最常见方法仍然是在 ImageNet 上进行监督学习的性能基准测试。

另一种思路是将视觉表征学习的重点从有标签的监督学习转向自监督预训练。自监督算法将掩码语言建模引入视觉领域,并迅速成为视觉表征学习的一种流行方法。然而,自监督学习通常会使用为监督学习设计的架构,并假定该架构是固定的。例如,掩码自编码器(MAE)使用了视觉 transformer 架构。

有一种方法是将这些架构和自监督学习框架结合起来,但会面临一些具体问题。例如,将 ConvNeXt 与 MAE 结合起来时就会出现如下问题:MAE 有一个特定的编码 - 解码器设计,该设计针对 transformer 的序列处理能力进行了优化,这使得计算量大的编码器专注于那些可见的 patch,从而降低了预训练成本。但是这种设计可能与标准的 ConvNet 不兼容,因为后者使用了密集的滑动窗口。此外,如果不考虑架构和训练目标之间的关系,那么也就不清楚是否能达到最佳性能。事实上,已有研究表明用基于掩码的自监督学习来训练 ConvNet 是很困难的,而且实验证据表明,transformer 和 ConvNet 可能在特征学习方面存在分歧,会影响到最终表征的质量。

为此,来自 KAIST、Meta、纽约大学的研究者(包括ConvNeXt一作刘壮、ResNeXt 一作谢赛宁)提出在同一框架下共同设计网络架构和掩码自编码器,这样做的目的是使基于掩码的自监督学习能够适用于 ConvNeXt 模型,并获得可与 transformer 媲美的结果。

4651f8b2-90ba-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2301.00808v1.pdf

在设计掩码自编码器时,该研究将带有掩码的输入视为一组稀疏 patch,并使用稀疏卷积处理可见的部分。这个想法的灵感来自于在处理大规模 3D 点云时使用稀疏卷积。具体来说,该研究提出用稀疏卷积实现 ConvNeXt,然后在微调时,权重不需要特殊处理就能被转换回标准的密集网络层。为了进一步提高预训练效率,该研究用单个 ConvNeXt 替换 transformer 解码器,使整个设计完全卷积网络化。研究者观察到加入这些变化后:学习到的特征是有用的并且改进了基线结果,但微调后的性能仍然不如基于 transformer 的模型。

然后,该研究对不同训练配置的 ConvNeXt 的特征空间进行了分析。当直接在掩码输入上训练 ConvNeXt 时,研究者发现 MLP 层存在潜在的特征崩溃(feature collapse)问题。为了解决这个问题,该研究提出添加一个全局响应归一化层(Global Response Normalization layer)来增强通道间的特征竞争。当使用掩码自编码器对模型进行预训练时,这种改进最为有效,这表明监督学习中重复使用监督学习中的固定架构设计可能不是最佳方法。

465f2884-90ba-11ed-bfe3-dac502259ad0.png

基于以上改进,该研究提出了 ConvNeXt V2,该模型在与掩码自编码器结合使用时表现出了更好的性能。同时研究者发现 ConvNeXt V2 在各种下游任务上比纯 ConvNet 有明显的性能提升,包括在 ImageNet 上的分类任务、COCO 上的目标检测和 ADE20K 上的语义分割。

46835a74-90ba-11ed-bfe3-dac502259ad0.png

469ee46a-90ba-11ed-bfe3-dac502259ad0.png

46b5bc76-90ba-11ed-bfe3-dac502259ad0.png

46c13182-90ba-11ed-bfe3-dac502259ad0.png

方法介绍

全卷积掩码自编码器

该研究提出的方法在概念上很简单,是以完全卷积的方式运行的。学习信号通过对原始的视觉输入随机掩码来生成,同时掩码的比率需要较高,然后再让模型根据剩余的 context 预测缺失的部分。整体框架如下图所示。

46cebc8a-90ba-11ed-bfe3-dac502259ad0.png

框架由一个基于稀疏卷积的 ConvNeXt 编码器和一个轻量级的 ConvNeXt 解码器组成,其中自编码器的结构是不对称的。编码器只处理可见的像素,而解码器则使用已编码的像素和掩码 token 来重建图像。同时只在被掩码的区域计算损失。

全局响应归一化

大脑中有许多促进神经元多样性的机制。例如,侧向抑制可以帮助增强激活神经元的反应,增加单个神经元对刺激的对比度和选择性,同时还可以增加整个神经元群的反应多样性。在深度学习中,这种形式的侧向抑制可以通过响应归一化(response normalization)来实现。该研究引入了一个新的响应归一化层,称为全局响应归一化 (GRN),旨在增加通道间的对比度和选择性。GRN 单元包括三个步骤:1) 全局特征聚合,2) 特征归一化,3) 特征校准。如下图所示,可以将 GRN 层合并到原始 ConvNeXt 块中。

46e21302-90ba-11ed-bfe3-dac502259ad0.png

研究者根据实验发现,当应用 GRN 时,LayerScale 不是必要的并且可以被删除。利用这种新的块设计,该研究创建了具有不同效率和容量的多种模型,并将其称为 ConvNeXt V2 模型族,模型范围从轻量级(Atto)到计算密集型(Huge)。

为了评估 GRN 的作用,该研究使用 FCMAE 框架对 ConvNeXt V2 进行预训练。从下图 3 中的可视化展示和图 4 中的余弦距离分析,可以观察到 ConvNeXt V2 有效地缓解了特征崩溃问题。余弦距离值一直很高,表明在网络层传递的过程中可以保持特征的多样性。这类似于使用 MAE 预训练的 ViT 模型。这表明在类似的掩码图像预训练框架下,ConvNeXt V2 的学习行为类似于 ViT。

46f52122-90ba-11ed-bfe3-dac502259ad0.png

4719680c-90ba-11ed-bfe3-dac502259ad0.png

该研究进一步评估了微调性能,结果如下表所示。

47275232-90ba-11ed-bfe3-dac502259ad0.png

当配备 GRN 时,FCMAE 预训练模型可以显著优于使用 300 个 epoch 训练得到的监督模型。GRN 通过增强特征多样性来提高表征质量,这对于基于掩码的预训练是至关重要的,并且在 ConvNeXt V1 模型中是不存在的。值得注意的是,这种改进是在不增加额外参数开销,且不增加 FLOPS 的情况下实现的。

最后,该研究还检查了 GRN 在预训练和微调中的重要性。如下表 2 (f) 所示,无论是从微调中删除 GRN,还是在微调时添加新初始化的 GRN,性能都会显著下降,这表明在预训练和微调中 GRN 很重要。

473b4ea4-90ba-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1225

    浏览量

    43764
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143335
  • Transformer
    +关注

    关注

    0

    文章

    156

    浏览量

    6961

原文标题:ConvNeXt V2来了,仅用最简单的卷积架构,性能不输Transformer

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MES模型静态测试工具更新信息 01/2026

    MES模赛思很高兴为您带来最新的MES工具更新信息。MXAM、MoRe和MQC的最新版本已经为您下载安装做好了准备。
    的头像 发表于 03-04 19:33 704次阅读
    MES<b class='flag-5'>模型</b>静态测试工具<b class='flag-5'>更新</b>信息 01/2026

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Co
    的头像 发表于 12-01 09:25 1429次阅读

    脉冲神经元模型的硬件实现

    息电位 vrest。 LIF神经元模型在生物可解释性上低于其他模型,只体现神经元计算的关键特性,并不能够解释真实神经元的脉冲是如何生成,也不包括丰富的神经元行为特性。但由于其简单的操作量更适合硬件
    发表于 10-24 08:27

    onnx模型转换rknn模型出现问题

    : Invalid rank for input: /model_1/convnext/ReduceMean_output_0 Got: 4 Expected: 2 Please fix either
    发表于 08-11 11:25

    亚马逊云科技Amazon Bedrock模型更新,Anthropic最新版Claude4模型现已上线

    分钟级完成。 将Claude Opus 4.1和Claude Sonnet 4引入Amazon Bedrock,为客户提供Anthropic最先进模型的选择,简化了客户借助企业
    的头像 发表于 08-06 19:42 799次阅读
    亚马逊云科技Amazon Bedrock<b class='flag-5'>模型</b>再<b class='flag-5'>更新</b>,Anthropic最新版Claude4<b class='flag-5'>模型</b>现已上线

    蚂蚁数科正式发布金融推理大模型

    7月26日,以“智能时代,同球共济”为主题的2025世界人工智能大会在上海开幕;亮点很多。我们看到在世界人工智能大会论坛上,蚂蚁数科正式发布金融推理大模型Agentar-Fin-R1,金融推理
    的头像 发表于 07-28 16:36 756次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    在人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型
    发表于 07-04 11:10

    瑞芯微模型量化文件构建

    模型是一张图片输入时,量化文件如上图所示。但是我现在想量化deepprivacy人脸匿名模型,他的输入是四个输入。该模型训练时数据集只标注人脸框和关键点,该
    发表于 06-13 09:07

    从FA模型切换到Stage模型时:module的切换说明

    。 supportedModes标识应用支持的运行模式,当前只定义驾驶模式(drive)。/Stage模型已废弃。 distro对象中的moduleName标识当前HAP的名称。 distro对象中
    发表于 06-05 08:16

    FA模型访问Stage模型DataShareExtensionAbility说明

    DataShareExtensionAbility提供数据库的读写服务。 服务端由FA模型升级到Stage模型后,会导致FA模型的客户端在API 9(含)之后的版本上无法访问服务端。 为了解决上述问题,系统在框架侧提供
    发表于 06-04 07:53

    如何将一个FA模型开发的声明式范式应用切换到Stage模型

    展示FA模型的PageAbility切换成Stage模型的UIAbility:下图左侧为FA模型,app.ets为FA模型的PageAbi
    发表于 06-04 06:22

    谷歌Gemini 2.5模型系列更新

    今年 3 月,我们发布迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。
    的头像 发表于 05-23 14:56 1351次阅读

    ABAQUS内置丰富的材料模型

    在现代工程设计与分析中,材料模型的准确选择与应用是决定仿真结果可靠性的关键因素之一。ABAQUS作为有限元分析(FEA)领域的旗舰软件,凭借其内置的丰富材料模型库,为工程师们提供仿真分析灵活性
    的头像 发表于 05-14 10:34 1058次阅读
    ABAQUS内置<b class='flag-5'>了</b>丰富的材料<b class='flag-5'>模型</b>库

    深兰科技医疗大模型荣获MedBench评测第一

    近日,国内权威医疗大模型评测平台MedBench在官网更新榜单,多个知名医疗AI产品及研究团队入榜,其中深兰DeepBlue-MR-v1医疗大模型以复杂医学推理评测第一的成绩领跑Me
    的头像 发表于 04-30 16:08 1037次阅读

    KaihongOS操作系统FA模型与Stage模型介绍

    FA模型与Stage模型介绍 KaihongOS操作系统中,FA模型(Feature Ability)和Stage模型是两种不同的应用模型
    发表于 04-24 07:27