0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Swin Transformer在MIM中的应用

OpenCV学堂 来源:量子位 作者:量子位 2022-05-31 10:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。

但与此同时, 研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。

于是,一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的应用。

但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光将Swin Transformer整合到了MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能——

将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%。

来康康这是一项什么研究?

当分层设计引入MAE

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块,只对可见图块进行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具体实现,由两个关键部分组成。

首先,设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自适应选择最佳分组大小,并将局部窗口分成最少的一组,从而使分组图块上的注意力整体计算成本最小。

表现相当,训练时间大大减少

结果显示,在ImageNet-1K和MS-COCO数据集上实验评估表明,与基线SimMIM性能相当的同时,效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,这一方法在所需训练时间大大减少,消耗GPU内存也小得多。具体而言,在相同的训练次数下,在Swin-B上提高2倍的速度和减少60%的内存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,该研究团队在有8个32GB V100 GPU的单机上进行评估的,而SimMIM是在2或4台机器上进行评估。

研究人员还发现,效率的提高随着Swin-L的增大而变大,例如,与SimMIM192相比,速度提高了2.7倍。

实验的最后,提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率,限制了更广泛的应用。这一点就交给未来的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而谈到这一研究的影响性,研究人员表示,主要就是减轻了MIM的计算负担,提高了MIM的效率和有效性。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3904

    浏览量

    141452
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:何恺明MAE局限性被打破,与Swin Transformer结合,训练速度大大提升 | 东大&商汤&悉大

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 1905次阅读

    图解AI核心技术:大模型、RAG、智能体、MCP

    它们与 Transformers 的区别。   Transformer 使用前馈网络。 MoE 使用专家,它们是前馈网络,但与 Transformer 的网络相比规模较小。推理过程
    的头像 发表于 10-21 09:48 398次阅读
    图解AI核心技术:大模型、RAG、智能体、MCP

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    Transformer 模型 通过简化Transformer 模型而不影响其收敛性能和下游任务性能来加速GPUTransformer 网络。简化
    发表于 09-12 17:30

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transformer与深度学习并非你死我活的替代
    的头像 发表于 08-13 09:15 3918次阅读
    自动驾驶<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    Transformer端到端自动驾驶架构是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 1105次阅读

    视频分析系统化工厂应用的算法通常有哪些?

    "化工厂的复杂环境,AI视频分析系统正成为安全守护神:从人员入侵检测到设备泄漏预警,从火焰识别到操作合规验证,智能算法正全天候保障工业安全。当YOLO遇见红外摄像头,当Transformer分析烟雾动态,科技让每一处危险无所
    的头像 发表于 07-21 14:24 355次阅读
    视频分析系统<b class='flag-5'>在</b>化工厂应用的算法通常有哪些?

    Transformer架构解码器的工作流程

    解码器的作用主要是制作文本序列。与编码器类似,解码器也配备了一组类似的子层。它具有两个Multi-Head attention层,一个点前馈层,并且每个子层之后都包含剩余连接和层归一化。
    的头像 发表于 06-10 14:32 896次阅读
    <b class='flag-5'>Transformer</b>架构<b class='flag-5'>中</b>解码器的工作流程

    Transformer架构编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 830次阅读
    <b class='flag-5'>Transformer</b>架构<b class='flag-5'>中</b>编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 957次阅读
    <b class='flag-5'>Transformer</b>架构概述

    快手上线鸿蒙应用高性能解决方案:数据反序列化性能提升90%

    了其数据反序列化性能,典型场景下能够降低约90%的数据转换耗时,为鸿蒙应用带来了更流畅的用户体验和更敏捷的交互响应。 鸿蒙应用开发过程,“class-transformer”三方
    发表于 05-15 10:01

    如何使用MATLAB构建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在论文《Attentionis All You Need》首次提出。其设计初衷是为了解决自然语言处理(Nature
    的头像 发表于 02-06 10:21 5735次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    OptiFDTD应用:纳米盘型谐振腔等离子体波导滤波器

    几何谐振腔[3]以及环形谐振腔[4]。 MIM波导,有两种等离子体滤波器,即带通和带阻滤波器。 2D FDTD模拟 选择TM偏振波激发SPPs 应用正弦调制高斯脉冲光来模拟感兴趣的波长 输入
    发表于 01-09 08:52

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT的“T”)的专用芯片。 将transform
    的头像 发表于 01-06 09:13 1679次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

    本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制,性能强大
    的头像 发表于 01-03 09:28 1802次阅读
    港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳跃连接机制

    【面试题】人工智能工程师高频面试题汇总:Transformer篇(题目+答案)

    ,或者深度学习的框架,还有怎么优化模型,Transformer的一些知识,这些都是加分项,能有效提高面试通过率。本篇小编整理了一些高频的Transformer方面的面
    的头像 发表于 12-13 15:06 2389次阅读
    【面试题】人工智能工程师高频面试题汇总:<b class='flag-5'>Transformer</b>篇(题目+答案)