0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于可变形卷积的大规模视觉基础模型

CVer 来源:机器之心 作者:机器之心 2022-11-21 11:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自浦江实验室、清华等机构的研究人员提出了一种新的基于卷积的基础模型,称为 InternImage,与基于 Transformer 的网络不同,InternImage 以可变形卷积作为核心算子,使模型不仅具有检测和分割等下游任务所需的动态有效感受野,而且能够进行以输入信息和任务为条件的自适应空间聚合。InternImage-H 在 COCO 物体检测上达到 65.4 mAP,ADE20K 达到 62.9,刷新检测分割新纪录。

近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华、南大、商汤和港中文的研究人员总结了卷积神经网络和视觉 Transformer 之间的差距。从算子层面看,传统的 CNNs 算子缺乏长距离依赖和自适应空间聚合能力;从结构层面看,传统 CNNs 结构缺乏先进组件。

针对上述技术问题,来自浦江实验室、清华等机构的研究人员创新地提出了一个基于卷积神经网络的大规模模型,称为 InternImage,它将稀疏动态卷积作为核心算子,通过输入相关的信息为条件实现自适应空间聚合。InternImage 通过减少传统 CNN 的严格归纳偏置实现了从海量数据中学习到更强大、更稳健的大规模参数模式。其有效性在包括图像分类、目标检测和语义分割等视觉任务上得到了验证。并在 ImageNet、COCO 和 ADE20K 在内的挑战性基准数据集中取得了具有竞争力的效果,在同参数量水平的情况下,超过了视觉 Transformer 结构,为图像大模型提供了新的方向。

2c37a85e-68ed-11ed-8abf-dac502259ad0.png

InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions

论文链接:https://arxiv.org/abs/2211.05778

开源代码:https://github.com/OpenGVLab/InternImage

2c4c0fd8-68ed-11ed-8abf-dac502259ad0.png

2c81da46-68ed-11ed-8abf-dac502259ad0.png

传统卷积神经网络的局限

扩大模型的规模是提高特征表示质量的重要策略,在计算机视觉领域,模型参数量的扩大不仅能够有效加强深度模型的表征学习能力,而且能够实现从海量数据中进行学习和知识获取。ViT 和 Swin Transformer 首次将深度模型扩大到 20 亿和 30 亿参数级别,其单模型在 ImageNet 数据集的分类准确率也都突破了 90%,远超传统 CNN 网络和小规模模型,突破了技术瓶颈。但是,传统的 CNN 模型由于缺乏长距离依赖和空间关系建模能力,无法实现同 Transformer 结构相似的模型规模扩展能力。研究者总结了传统卷积神经网络与视觉 Transformer 的不同之处:

(1)从算子层面来看,视觉 Transformer 的多头注意力机制具有长距离依赖和自适应空间聚合能力,受益于此,视觉 Transformer 可以从海量数据中学到比 CNN 网络更加强大和鲁棒的表征。

(2)从模型架构层面来看,除了多头注意力机制,视觉 Transformer 拥有 CNN 网络不具有的更加先进的模块,例如 Layer Normalization (LN), 前馈神经网络 FFN, GELU 等。

尽管最近的一些工作尝试使用大核卷积来获取长距离依赖,但是在模型尺度和精度方面都与最先进的视觉 Transformer 有着一定距离。

可变形卷积网络的进一步拓展

InternImage 通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置,包括(1)DCNv3 算子,基于 DCNv2 算子引入共享投射权重、多组机制和采样点调制。(2)基础模块,融合先进模块作为模型构建的基本模块单元(3)模块堆叠规则,扩展模型时规范化模型的宽度、深度、组数等超参数。

该工作致力于构建一个能够有效地扩展到大规模参数的 CNN 模型。首先,重新设计的可变形卷积算子 DCNv2 以适应长距离依赖和弱化归纳偏置;然后,将调整后的卷积算子与先进组件相结合,建立了基础单元模块;最后,探索并实现模块的堆叠和缩放规则,以建立一个具有大规模参数的基础模型,并且可以从海量数据中学习到强大的表征。

2cbcc4ee-68ed-11ed-8abf-dac502259ad0.png

算子层面,该研究首先总结了卷积算子与其他主流算子的主要区别。当前主流的 Transformer 系列模型主要依靠多头自注意力机制实现大模型构建,其算子具有长距离依赖性,足以构建远距离特征间的连接关系,还具有空间的自适应聚合能力以实现构建像素级别的关系。但这种全局的注意力机制其计算和存储需求量巨大,很难实现高效训练和快速收敛。同样的,局部注意力机制缺乏远距离特征依赖。大核密集卷积由于没有空间聚合能力,而难以克服卷积天然的归纳偏置,不利于扩大模型。因此,InternImage 通过设计动态稀疏卷积算子,达到实现全局注意力效果的同时不过多浪费计算和存储资源,实现高效训练。

研究者基于 DCNv2 算子,重新设计调整并提出 DCNv3 算子,具体改进包括以下几个部分。

(1)共享投射权重。与常规卷积类似,DCNv2 中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系。为了降低参数和内存复杂度,借鉴可分离卷积的思路,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有采样位置依赖性都得以保留。

(2)引入多组机制。多组设计最早是在分组卷积中引入的,并在 Transformer 的多头自注意力中广泛使用,它可以与自适应空间聚合配合,有效地提高特征的多样性。受此启发,研究者将空间聚合过程分成若干组,每个组都有独立的采样偏移量。自此,单个 DCNv3 层的不同组拥有不同的空间聚合模式,从而产生丰富的特征多样性。

(3)采样点调制标量归一化。为了缓解模型容量扩大时的不稳定问题,研究者将归一化模式设定为逐采样点的 Softmax 归一化,这不仅使大规模模型的训练过程更加稳定,而且还构建了所有采样点的连接关系。

2d10f4d8-68ed-11ed-8abf-dac502259ad0.png

构建 DCNv3 算子之后,接下来首先需要规范化模型的基础模块和其他层的整体细节,然后通过探索这些基础模块的堆叠策略,构建 InternImage。最后,根据所提出模型的扩展规则,构建不同参数量的模型。

基础模块。与传统 CNN 中广泛使用的瓶颈结构不同,该研究采用了更接近 ViTs 的基础模块,配备了更先进的组件,包括 GELU、层归一化(LN)和前馈网络(FFN),这些都被证明在各种视觉任务中更有效率。基础模块的细节如上图所示,其中核心算子是 DCNv3,通过将输入特征通过一个轻量级的可分离卷积来预测采样偏置和调制尺度。对于其他组件,遵循与普通 Transformer 相同的设计。

叠加规则。为了明确区块堆叠过程,该研究提出两条模块堆叠规则,其中第一条规则是后三个阶段的通道数2d59db1c-68ed-11ed-8abf-dac502259ad0.png,由第一阶段的通道数2d6c067a-68ed-11ed-8abf-dac502259ad0.png决定,即2d785876-68ed-11ed-8abf-dac502259ad0.png;第二条规则是各模块组号与各阶段的通道数对应,即2d856d0e-68ed-11ed-8abf-dac502259ad0.png;第三,堆叠模式固定为 “AABA”,即第 1、2 和 4 阶段的模块堆叠数是相同的2d941656-68ed-11ed-8abf-dac502259ad0.png,并且不大于第 3 阶段2da0103c-68ed-11ed-8abf-dac502259ad0.png。由此选择将参数量为 30M 级别的模型作为基础,其具体参数为:Steam 输出通道数2dae0ec6-68ed-11ed-8abf-dac502259ad0.png为 64;分组数为每个阶段输入通道数的 1/16,第 1、2、4 阶段的模块堆叠数2dbbec94-68ed-11ed-8abf-dac502259ad0.png为 4,第 3 阶段的模块堆叠数2dc93ab6-68ed-11ed-8abf-dac502259ad0.png为 18,模型参数为 30M。

模型缩放规则。基于上述约束条件下的最优模型,该研究规范化了网络模型的两个缩放维度:即深度 D(模块堆叠数)和宽度 C(通道数),利用限制因子2dd62cbc-68ed-11ed-8abf-dac502259ad0.png2de3ae1e-68ed-11ed-8abf-dac502259ad0.png沿着复合系数2df24a46-68ed-11ed-8abf-dac502259ad0.png对深度和宽度进行缩放,即,2e01bc42-68ed-11ed-8abf-dac502259ad0.png,其中2e12e260-68ed-11ed-8abf-dac502259ad0.png,根据实验其最佳设置为2e20a0f8-68ed-11ed-8abf-dac502259ad0.png

按照此规则,该研究构建了不同尺度的模型,即 InternImage-T、S、B、L、XL。具体参数为:

2e2d0df2-68ed-11ed-8abf-dac502259ad0.png

实验结果

图像分类实验:通过使用 427M 的公共数据集合:Laion-400M,YFCC15M,CC12M,InternImage-H 在 ImageNet-1K 的精度达到了 89.2%。

2e428ef2-68ed-11ed-8abf-dac502259ad0.png

目标检测:以最大规模的 InternImage-H 为骨干网络,并使用 DINO 作为基础检测框架,在 Objects365 数据集上预训练 DINO 检测器,然后在 COCO 上进行微调。该模型在目标检测任务中达到了 65.4% 的最优结果,突破了 COCO 目标检测的性能边界。

2e9077f2-68ed-11ed-8abf-dac502259ad0.png

语义分割:在语义分割上,InternImage-H 同样取得了很好的性能,结合 Mask2Former 在 ADE20K 上取得了当前最高的 62.9%。

2ebae5be-68ed-11ed-8abf-dac502259ad0.png

结论

该研究提出了 InternImage,这是一种新的基于 CNN 的大规模基础模型,可以为图像分类、对象检测和语义分割等多功能视觉任务提供强大的表示。研究者调整灵活的 DCNv2 算子以满足基础模型的需求,并以核心算子为核心开发了一系列的 block、stacking 和 scaling 规则。目标检测和语义分割基准的大量实验验证了 InternImage 可以获得与经过大量数据训练、且精心设计的大规模视觉 Transformer 相当或更好的性能,这表明 CNN 也是大规模视觉基础模型研究的一个相当大的选择。尽管如此,大规模的 CNN 仍处于早期发展阶段,研究人员希望 InternImage 可以作为一个很好的起点。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106828
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47462

原文标题:65.4 AP!刷新COCO目标检测新记录!InternImage:基于可变形卷积的大规模视觉基础模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    卷积运算分析

    卷积运算的基础运算是乘加运算(MAC,Multiplication and Accumulation),本文设计了基本运算单元PE模块来实现MAC运算。对于卷积运算而言,一次性至少处理一个感受域规模
    发表于 10-28 07:31

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 726次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 936次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    基于大规模人类操作数据预训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集预训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 790次阅读
    基于<b class='flag-5'>大规模</b>人类操作数据预训练的VLA<b class='flag-5'>模型</b>H-RDT

    三维高斯泼溅大规模视觉SLAM系统解析

    近期兴起的神经辐射场(NeRF)与三维高斯泼溅(3DGS)技术在视觉SLAM中展现出令人鼓舞的突破性成果。然而,当前主流方法多依赖RGBD传感器,并且仅适用于室内环境。在大规模室外场景中的重建鲁棒性
    的头像 发表于 05-27 14:13 1177次阅读
    三维高斯泼溅<b class='flag-5'>大规模</b><b class='flag-5'>视觉</b>SLAM系统解析

    薄型、多频段、大规模物联网前端模块 skyworksinc

    电子发烧友网为你提供()薄型、多频段、大规模物联网前端模块相关产品参数、数据手册,更有薄型、多频段、大规模物联网前端模块的引脚图、接线图、封装手册、中文资料、英文资料,薄型、多频段、大规模物联网前端模块真值表,薄型、多频段、
    发表于 05-15 18:32
    薄型、多频段、<b class='flag-5'>大规模</b>物联网前端模块 skyworksinc

    安泰电压放大器在可变形机翼缩比模型主动变形实验中的应用

    实验名称:可变形机翼缩比模型主动变形实验验证 研究方向:介绍了可用于低速风洞实验要求的可变形缩比模型的设计方案,以及粘接MFC致动器之后,
    的头像 发表于 04-25 11:59 445次阅读
    安泰电压放大器在<b class='flag-5'>可变形</b>机翼缩比<b class='flag-5'>模型</b>主动<b class='flag-5'>变形</b>实验中的应用

    构建大规模Simulink模型的标准化最佳实践

    随着系统规模和复杂性的增长,工程团队面临着一系列在小规模上不存在的全新挑战。
    的头像 发表于 04-24 13:03 794次阅读
    构建<b class='flag-5'>大规模</b>Simulink<b class='flag-5'>模型</b>的标准化最佳实践

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破

    近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈。而RAKsmart为超大规模模型训练提供了全新的算力解决方案。
    的头像 发表于 04-24 09:27 618次阅读

    谷歌新一代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    Cloud 客户开放,将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。   在核心亮点层面,Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片,能够有力支持大规模思考
    的头像 发表于 04-12 00:57 3245次阅读

    5G 大规模物联网系统级封装 skyworksinc

    电子发烧友网为你提供()5G 大规模物联网系统级封装相关产品参数、数据手册,更有5G 大规模物联网系统级封装的引脚图、接线图、封装手册、中文资料、英文资料,5G 大规模物联网系统级封装真值表,5G
    发表于 04-11 15:21
    5G <b class='flag-5'>大规模</b>物联网系统级封装 skyworksinc

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与
    的头像 发表于 03-17 15:32 7664次阅读
    ​VLM(<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>)​详细解析

    请问OpenVINO™工具套件是否支持使用非对称卷积的支持模型

    无法确定使用非对称卷积模型是否受 OpenVINO™ Toolkit 的支持
    发表于 03-06 07:58

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3297次阅读
    一文详解<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    介绍了如何使用分类任务进行手写数字的分类。相信大家脑海中可能会产生如下疑问: 数据依赖性强:分类模型的表现通常依赖于大量的标注数据进行训练。获取高质量、大规模的数据集既耗时又昂贵。 泛化能力有限:模型
    发表于 12-19 14:33