0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

智能感知与物联网技术研究所 来源:未知 2023-10-15 20:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomUt5x-ACdCTAAGMXym4GcM184.png

论文标题:

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

论文链接:

https://arxiv.org/pdf/2309.03576

代码链接:

https://github.com/Haochen-Wang409/DropPos

今天介绍我们在自监督视觉预训练领域的一篇原创工作,目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。

wKgaomUt5x-AGHoyAAAl6LOgh3c767.png

TL;DR

我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings(PE),然后利用简单的 cross-entropy loss 训练模型,让模型重建那些无 PE token 的位置信息。这个及其简单的代理任务就能在多种下游任务上取得有竞争力的性能。 wKgaomUt5x-ASb1ZAAAuhh9-KLM140.png

Motivation

在 MoCo v3 的论文中有一个很有趣的现象:ViT 带与不带 position embedding,在 ImageNet 上的分类精度相差无几。

wKgaomUt5x-AdJkaAAGHYR2BQYo430.png

▲ 表1. MoCo v3 中的实验现象(原文第6页) 这一实验结果背后,隐含着「ViT 的建模主要关注于不同 patch 的 visual appearence,对于 position 的 awareness 较差」这一信息。即,如果把图片切 patch 然后再随机打乱之后,ViT 能够在乱序的情况下准确识别该图片的类别。这一点和人类直觉有很大出入。同时,有可能是因为 ViT 过拟合到了 ImageNet 这个特定数据集导致的。 基于此,我们首先做了一些 tiny experiments,探究 position awareness 与模型的识别准确率到底是否有正相关的关系。具体来说,我们冻结了 MoCo v3 和 MAE 的 pre-train/fine-tune 权重,在其后接一个全连接层,并用 position classification 这个任务做 linear probing。即,在 forward 过程中随机丢弃 75% 的 PE,并把 ViT 的 feature 映射到 196 维(一张图有 14×14 个 patch),期望让最终的线性层正确分类该 patch 的位置。

wKgaomUt5yCAVVELAAEfrmu0PPI839.png

▲ 表2. Position awareness 对于下游任务的影响 表中结果表明,fine-tune 后的模型权重,更适合预测位置这一任务。说明「强大的对位置的建模能力,对于图像分类任务是有益的」。基于此,我们想探究一种能够提升 ViT 对于位置建模能力的全新自监督代理任务。 一种可行的方案是「简单地把 ViT 的 PE 随机丢弃一部分,然后让模型预测这些不带 PE 的 token 的精确位置」,即 reconstruct Dropped Positions(DropPos)。

wKgaomUt5yCAed8gAAM-8rHKVIM341.png

▲ 图1. DropPos 与 CL 和 MIM 的对比 DropPos 有如下的优势:
  • 对比 CL,DropPos 不需要精心设计的数据增强(例如 multi-crop)。
  • 对比 MIM,DropPos 不需要精心设计的掩码策略和重建目标。
下面我们介绍 DropPos 的具体运行流程。

wKgaomUt5yCAFfmtAAAtJ0fTuoM718.png

Method

wKgaomUt5yCASSQ-AAOx52KBOos108.png

▲ 图2. DropPos 的流程图 即使 DropPos 的想法很直观也很简单,但这类方法一直没有成为预训练的主流,主要是由于在设计上有以下三个难点:
  1. 如果简单地把所有 PE 丢弃,让模型直接重建每个 patch 的位置,会导致上下游的 discrepency。因为下游任务需要 PE,而上游预训练的模型又完全没见过 PE。
  2. ViT 对于 long-range 的建模能力很强,这个简单的位置重建任务可能没办法让模型学到非常 high-level 的语义特征。
  3. 看上去相似的不同 patch(例如纯色的背景)的位置无需被精准重建,因此决定哪些 patch 的位置需要被重建非常关键。

针对上述难点,我们提出了三个解决手段:
  1. 针对问题一,我们采用了一个简单的随机丢弃策略。每次训练过程中丢弃 75% 的 PE,保留 25% 的 PE。
  2. 针对问题二,我们采取了高比例的 patch mask,既能提高代理任务的难度,又能加快训练的速度。
  3. 针对问题三,我们提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向过程

wKgaomUt5yCACzwiAAVXL_R1--s142.png

算法1. DropPos 的前向过程 DropPos 的前向过程包括两段 mask,分别是第一步 patch mask(类似 MAE),和第二步的 position mask(用可学习的 position mask 代替 dropped positions)。具体可以参见上方的伪代码。

3.2 Objective

我们使用了一个最简单的 cross-entropy loss 作为预训练的目标函数:

wKgaomUt5yCAVq8jAAA_BQl0Sc8745.png

其中,o 是模型的输出,即第 i 个 patch 的预测位置是 j 的 logit,y 是真实的位置信息。 gamma 是第一步的 patch mask ratio,N 为总 patch 数量。 是 0-1 的 position mask,1 表示该 patch 带有 PE,不应当被重建,而 0 表示该 patch 不带 PE,需要被重建。 我们接下来引入 position smoothing 和 attentive reconstruction 技术来松弛这个问题,以解决相似但不同 patch 的位置重建问题。 3.2.1 Position Smoothing 我们采用一个高斯核来平滑原本的 position targetswKgaomUt5yGAObccAAArmkbdDAM974.pngwKgaomUt5ySAW9-vAAA_rRBMW0w439.png此处,w(i, j) 表示当真实位置为 i,而预测位置为 j 时,平滑后的 position target。 此外,我们还让 sigma 自大变小,让模型一开始不要过分关注精确的位置重建,而训练后期则越来越关注于精准的位置重建。 3.2.2 Attentive Reconstruction 我们采用 [CLS] token 和其他 patch 的相似度作为亲和力矩阵,作为目标函数的额外权重。wKgaomUt5ySAHMbeAAA87bNqupg699.pngwKgaomUt5ySALccxAAA4_CySCkw423.png其中 f 为不同 token 的特征,tau 为超参数,控制了 affinity 的平滑程度。 wKgaomUt5ySAX1QEAAAr2pbNr48823.png

Experiments

4.1 与其他方法的对比

wKgaomUt5ySAKJNiAAR2Qt6CMIo385.pngwKgaomUt5ySAbZfnAAYLKoO_85k333.png

4.2 消融实验

本文主要有四个超参:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。wKgaomUt5yWADXvuAAYb7tm27Ko423.pngwKgaomUt5yWAZ3AkAAVY4GYYZXw365.png由表,我们可以得出一些比较有趣的结论:
  1. 一般来说,更高的 position 重建精度会带来更高的下游任务性能。
  2. 上述结论存在例外:当 sigma = 0 时,即不做位置平滑时,位置预测精度高,而下游任务表现反而低;当 tau = inf 时,即不做 attentive reconstruction 时,位置预测精度高,而下游表现反而低。
  3. 因此,过分关注于预测每一个 patch 的精确的位置,会导致局部最优,对于下游任务不利。

wKgaomUt5yWAfIinAAc8UwSp5q0239.png

上图是 DropPos 位置重建的可视化结果,黑色 patch 代表的是前向过程中被 mask 掉的 patch;白色 patch 的位置被错误重建,而剩余 patch 的位置被精准重建。 DropPos 在极端情况(例如 gamma=0.75)时,依然可以做到大部分 patch 的精准重建。 ·


原文标题:NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47317

    浏览量

    407863

原文标题:NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    第11系列(无监督缺陷检测篇)提供无需标注即可训练的完整解决方案,已在电子元件检测项目中验证可降低数据准备成本90%。 算法轻量化部署 随着边缘计算需求增长,工业视觉系统正从服务器级向嵌入式级演进
    发表于 12-03 13:50

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 780次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA模型H-RDT

    信捷视觉平台全新升级

    当机器视觉的精准遇上AI的智能,会碰撞出怎样的火花?信捷视觉平台全新升级——XINJE VISION STUDIO 3.7 + Vision AI算法平台双剑合璧,覆盖从规则化检测到复杂场景分析的全链路需求,助力多行业智造升级!
    的头像 发表于 07-28 15:56 629次阅读
    信捷<b class='flag-5'>视觉</b>平台<b class='flag-5'>全新</b>升级

    科通技术与RealSense签署代理协议

    近日,科通技术与RealSense, Inc.正式签署代理协议,成为其中国区代理商。此次合作标志着双方在3D视觉领域的战略布局迈入新阶段。
    的头像 发表于 07-28 13:56 660次阅读

    避障也能判?视觉黑科技让扫地机器人开启“先知”模式

    从被动避障到主动判,视觉避障技术比预想的更快实现。
    的头像 发表于 06-18 14:09 830次阅读

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP在4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言模型的
    的头像 发表于 03-21 18:24 3827次阅读
    用PaddleNLP为GPT-2模型制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    从Open Model Zoo下载的FastSeg大型公共训练模型,无法导入名称是怎么回事?

    从 Open Model Zoo 下载的 FastSeg 大型公共训练模型。 运行 converter.py 以将 FastSeg 大型模型转换为中间表示 (IR): python3
    发表于 03-05 07:22

    用PaddleNLP在4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的训练费用让许多对大模型训练
    的头像 发表于 02-19 16:10 2134次阅读
    用PaddleNLP在4060单卡上实践大模型<b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

    DeepSeek推出NSA机制,加速长上下文训练与推理

    的特性,专为超快速的长上下文训练和推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。 在广泛的基准测试、
    的头像 发表于 02-19 14:01 919次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    集对模型进行进一步训练的过程。 大模型微调是利用训练模型的权重和特征,通过在新任务数据集上的训练,对模型进行适应性和优化调整。使模型能够适
    发表于 01-14 16:51

    基于移动回归的时序扩散预测模型

    在人工智能领域,目前有很多工作采用回归方法来模拟或是替代扩散模型,其中视觉回归建模(Visual AutoRegressive modeling,简称 VAR)就是其中的典型代表,该工作利用
    的头像 发表于 01-03 14:05 1646次阅读
    基于移动<b class='flag-5'>自</b>回归的时序扩散预测模型

    知行科技大模型研发体系初见效果

    11月,知行科技作为共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以训练ViT(视觉
    的头像 发表于 12-27 09:38 904次阅读
    知行科技大模型研发体系初见效果

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    模型展示了强大的泛化能力,能够将在模拟环境学到的技能迁移到真实场景。RT-2的改进版本更是引入了视觉-语言训练技术,使模型能够理解更抽象的任务描述。 第8章通过具体应用案例展现了具身
    发表于 12-24 15:03

    KerasHub统一、全面的训练模型库

    深度学习领域正在迅速发展,在处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内容库,如用
    的头像 发表于 12-20 10:32 773次阅读