0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ConvNeXt模型更新了!

OpenCV学堂 来源:机器之心 2023-01-12 11:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ConvNeXt 模型更新了!

经过几十年的基础研究,视觉识别领域已经迎来了大规模视觉表征学习的新时代。预训练的大规模视觉模型已经成为特征学习(feature learning)和视觉应用的基本工具。视觉表征学习系统的性能在很大程度上受到三个主要因素的影响:模型的神经网络架构、训练网络的方法以及训练数据。每个因素的改进都有助于模型整体性能的提高。

神经网络架构设计的创新在表征学习领域一直发挥着重要作用。卷积神经网络架构(ConvNet)对计算机视觉研究产生了重大影响,使得各种视觉识别任务中能够使用通用的特征学习方法,无需依赖人工实现的特征工程。近年来,最初为自然语言处理而开发的 transformer 架构因其适用于不同规模的模型和数据集,在其他深度学习领域中也开始被广泛使用。

ConvNeXt 架构的出现使传统的 ConvNet 更加现代化,证明了纯卷积模型也可以适应模型和数据集的规模变化。然而,要想对神经网络架构的设计空间进行探索,最常见方法仍然是在 ImageNet 上进行监督学习的性能基准测试。

另一种思路是将视觉表征学习的重点从有标签的监督学习转向自监督预训练。自监督算法将掩码语言建模引入视觉领域,并迅速成为视觉表征学习的一种流行方法。然而,自监督学习通常会使用为监督学习设计的架构,并假定该架构是固定的。例如,掩码自编码器(MAE)使用了视觉 transformer 架构。

有一种方法是将这些架构和自监督学习框架结合起来,但会面临一些具体问题。例如,将 ConvNeXt 与 MAE 结合起来时就会出现如下问题:MAE 有一个特定的编码 - 解码器设计,该设计针对 transformer 的序列处理能力进行了优化,这使得计算量大的编码器专注于那些可见的 patch,从而降低了预训练成本。但是这种设计可能与标准的 ConvNet 不兼容,因为后者使用了密集的滑动窗口。此外,如果不考虑架构和训练目标之间的关系,那么也就不清楚是否能达到最佳性能。事实上,已有研究表明用基于掩码的自监督学习来训练 ConvNet 是很困难的,而且实验证据表明,transformer 和 ConvNet 可能在特征学习方面存在分歧,会影响到最终表征的质量。

为此,来自 KAIST、Meta、纽约大学的研究者(包括ConvNeXt一作刘壮、ResNeXt 一作谢赛宁)提出在同一框架下共同设计网络架构和掩码自编码器,这样做的目的是使基于掩码的自监督学习能够适用于 ConvNeXt 模型,并获得可与 transformer 媲美的结果。

4651f8b2-90ba-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2301.00808v1.pdf

在设计掩码自编码器时,该研究将带有掩码的输入视为一组稀疏 patch,并使用稀疏卷积处理可见的部分。这个想法的灵感来自于在处理大规模 3D 点云时使用稀疏卷积。具体来说,该研究提出用稀疏卷积实现 ConvNeXt,然后在微调时,权重不需要特殊处理就能被转换回标准的密集网络层。为了进一步提高预训练效率,该研究用单个 ConvNeXt 替换 transformer 解码器,使整个设计完全卷积网络化。研究者观察到加入这些变化后:学习到的特征是有用的并且改进了基线结果,但微调后的性能仍然不如基于 transformer 的模型。

然后,该研究对不同训练配置的 ConvNeXt 的特征空间进行了分析。当直接在掩码输入上训练 ConvNeXt 时,研究者发现 MLP 层存在潜在的特征崩溃(feature collapse)问题。为了解决这个问题,该研究提出添加一个全局响应归一化层(Global Response Normalization layer)来增强通道间的特征竞争。当使用掩码自编码器对模型进行预训练时,这种改进最为有效,这表明监督学习中重复使用监督学习中的固定架构设计可能不是最佳方法。

465f2884-90ba-11ed-bfe3-dac502259ad0.png

基于以上改进,该研究提出了 ConvNeXt V2,该模型在与掩码自编码器结合使用时表现出了更好的性能。同时研究者发现 ConvNeXt V2 在各种下游任务上比纯 ConvNet 有明显的性能提升,包括在 ImageNet 上的分类任务、COCO 上的目标检测和 ADE20K 上的语义分割。

46835a74-90ba-11ed-bfe3-dac502259ad0.png

469ee46a-90ba-11ed-bfe3-dac502259ad0.png

46b5bc76-90ba-11ed-bfe3-dac502259ad0.png

46c13182-90ba-11ed-bfe3-dac502259ad0.png

方法介绍

全卷积掩码自编码器

该研究提出的方法在概念上很简单,是以完全卷积的方式运行的。学习信号通过对原始的视觉输入随机掩码来生成,同时掩码的比率需要较高,然后再让模型根据剩余的 context 预测缺失的部分。整体框架如下图所示。

46cebc8a-90ba-11ed-bfe3-dac502259ad0.png

框架由一个基于稀疏卷积的 ConvNeXt 编码器和一个轻量级的 ConvNeXt 解码器组成,其中自编码器的结构是不对称的。编码器只处理可见的像素,而解码器则使用已编码的像素和掩码 token 来重建图像。同时只在被掩码的区域计算损失。

全局响应归一化

大脑中有许多促进神经元多样性的机制。例如,侧向抑制可以帮助增强激活神经元的反应,增加单个神经元对刺激的对比度和选择性,同时还可以增加整个神经元群的反应多样性。在深度学习中,这种形式的侧向抑制可以通过响应归一化(response normalization)来实现。该研究引入了一个新的响应归一化层,称为全局响应归一化 (GRN),旨在增加通道间的对比度和选择性。GRN 单元包括三个步骤:1) 全局特征聚合,2) 特征归一化,3) 特征校准。如下图所示,可以将 GRN 层合并到原始 ConvNeXt 块中。

46e21302-90ba-11ed-bfe3-dac502259ad0.png

研究者根据实验发现,当应用 GRN 时,LayerScale 不是必要的并且可以被删除。利用这种新的块设计,该研究创建了具有不同效率和容量的多种模型,并将其称为 ConvNeXt V2 模型族,模型范围从轻量级(Atto)到计算密集型(Huge)。

为了评估 GRN 的作用,该研究使用 FCMAE 框架对 ConvNeXt V2 进行预训练。从下图 3 中的可视化展示和图 4 中的余弦距离分析,可以观察到 ConvNeXt V2 有效地缓解了特征崩溃问题。余弦距离值一直很高,表明在网络层传递的过程中可以保持特征的多样性。这类似于使用 MAE 预训练的 ViT 模型。这表明在类似的掩码图像预训练框架下,ConvNeXt V2 的学习行为类似于 ViT。

46f52122-90ba-11ed-bfe3-dac502259ad0.png

4719680c-90ba-11ed-bfe3-dac502259ad0.png

该研究进一步评估了微调性能,结果如下表所示。

47275232-90ba-11ed-bfe3-dac502259ad0.png

当配备 GRN 时,FCMAE 预训练模型可以显著优于使用 300 个 epoch 训练得到的监督模型。GRN 通过增强特征多样性来提高表征质量,这对于基于掩码的预训练是至关重要的,并且在 ConvNeXt V1 模型中是不存在的。值得注意的是,这种改进是在不增加额外参数开销,且不增加 FLOPS 的情况下实现的。

最后,该研究还检查了 GRN 在预训练和微调中的重要性。如下表 2 (f) 所示,无论是从微调中删除 GRN,还是在微调时添加新初始化的 GRN,性能都会显著下降,这表明在预训练和微调中 GRN 很重要。

473b4ea4-90ba-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1204

    浏览量

    42877
  • 编码器
    +关注

    关注

    45

    文章

    3905

    浏览量

    141485
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6819

原文标题:ConvNeXt V2来了,仅用最简单的卷积架构,性能不输Transformer

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse 库和 Co
    的头像 发表于 12-01 09:25 550次阅读

    脉冲神经元模型的硬件实现

    息电位 vrest。 LIF神经元模型在生物可解释性上低于其他模型,只体现神经元计算的关键特性,并不能够解释真实神经元的脉冲是如何生成,也不包括丰富的神经元行为特性。但由于其简单的操作量更适合硬件
    发表于 10-24 08:27

    onnx模型转换rknn模型出现问题

    : Invalid rank for input: /model_1/convnext/ReduceMean_output_0 Got: 4 Expected: 2 Please fix either
    发表于 08-11 11:25

    谷歌Gemini 2.5模型系列更新

    今年 3 月,我们发布迄今为止最智能的模型 Gemini 2.5 Pro,两周前,我们提前为您带来了 I/O 更新,以便开发者构建出色的网络应用。
    的头像 发表于 05-23 14:56 1010次阅读

    深兰科技医疗大模型荣获MedBench评测第一

    近日,国内权威医疗大模型评测平台MedBench在官网更新榜单,多个知名医疗AI产品及研究团队入榜,其中深兰DeepBlue-MR-v1医疗大模型以复杂医学推理评测第一的成绩领跑Me
    的头像 发表于 04-30 16:08 712次阅读

    KaihongOS操作系统FA模型与Stage模型介绍

    FA模型与Stage模型介绍 KaihongOS操作系统中,FA模型(Feature Ability)和Stage模型是两种不同的应用模型
    发表于 04-24 07:27

    AD8313没有模型,仿真不了怎么解决?

    AD8313没有模型,在multisim上仿真不了,请提供支援,或者提供一个更新的版本也可以。
    发表于 03-24 06:38

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    、Figure AI、Skild AI 是最早采用该技术的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基础模型 (WFM) 的重大更新,该模型引入了开放式、可完全定制的物理 AI 开发
    的头像 发表于 03-20 19:01 1187次阅读

    腾讯AI助手“腾讯元宝”重大更新:支持深度思考功能

    近日,腾讯AI助手“腾讯元宝”再次迎来了重大更新,为用户带来了更加智能、高效的使用体验。此次更新中,腾讯元宝新增深度思考功能,这一功能由混元+DeepSeek两大模型共同支持,用户只
    的头像 发表于 02-18 09:21 1766次阅读

    腾讯元宝AI产品更新,正式接入DeepSeek R1模型

    元、DeepSeek大模型精心开发的AI产品,具备强大的跨知识领域和自然语言理解能力。通过此次更新,腾讯元宝将能够更深入地理解用户的提问,进行深度思考和逻辑推理,从而给出更为详细和准确的回答。 值得一提的是,腾讯元宝此次更新后还
    的头像 发表于 02-14 09:29 1334次阅读

    DeepSeek等AI大模型,人人都能当医生吗?

    作者:京东健康 王付刚 春节期间,DeepSeek的爆火无疑让大家对AI大模型全新的认识和体验。与其他大模型不同之处,DeepSeek不仅提供答案,还输出推理过程,这一功能引起了大家的震惊和担忧
    的头像 发表于 02-13 11:19 6461次阅读

    简述NVIDIA Isaac的重要更新

    在 2025 CES,NVIDIA 宣布对NVIDIA Isaac的重要更新。NVIDIA Isaac 是一个由加速库、应用框架和 AI 模型组成的平台,可加速 AI 机器人的开发。
    的头像 发表于 01-17 09:57 1766次阅读
    简述NVIDIA Isaac的重要<b class='flag-5'>更新</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    微调:通过在预训练模型中插入适配器模块来适应特定任务,既保留了原始模型的性能,又能快速适应新任务。Prefix-Tuning:通过在输入序列的前面添加特定前缀来微调模型,不需要对模型
    发表于 01-14 16:51

    小米汽车接入VLM视觉语言大模型,OTA更新带来多项升级

    模型。这一技术的引入,使得小米汽车的系统能够更准确地识别复杂的道路环境和特殊交通规则区域。通过文字和语音提示,系统能够实时向驾驶者传达重要信息,从而提高驾驶的安全性和便捷性。 此外,本次OTA更新还对充电地图进行了全面升级。小米汽
    的头像 发表于 12-24 09:52 1474次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大模型就是这些工具背后的技术。但这本书让
    发表于 12-20 15:46