论文标题:
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
论文链接:https://arxiv.org/pdf/2309.03576
代码链接:https://github.com/Haochen-Wang409/DropPos
今天介绍我们在自监督视觉预训练领域的一篇原创工作,目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。
TL;DR
我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings(PE),然后利用简单的 cross-entropy loss 训练模型,让模型重建那些无 PE token 的位置信息。这个及其简单的代理任务就能在多种下游任务上取得有竞争力的性能。
Motivation
在 MoCo v3 的论文中有一个很有趣的现象:ViT 带与不带 position embedding,在 ImageNet 上的分类精度相差无几。
▲ 表1. MoCo v3 中的实验现象(原文第6页) 这一实验结果背后,隐含着「ViT 的建模主要关注于不同 patch 的 visual appearence,对于 position 的 awareness 较差」这一信息。即,如果把图片切 patch 然后再随机打乱之后,ViT 能够在乱序的情况下准确识别该图片的类别。这一点和人类直觉有很大出入。同时,有可能是因为 ViT 过拟合到了 ImageNet 这个特定数据集导致的。 基于此,我们首先做了一些 tiny experiments,探究 position awareness 与模型的识别准确率到底是否有正相关的关系。具体来说,我们冻结了 MoCo v3 和 MAE 的 pre-train/fine-tune 权重,在其后接一个全连接层,并用 position classification 这个任务做 linear probing。即,在 forward 过程中随机丢弃 75% 的 PE,并把 ViT 的 feature 映射到 196 维(一张图有 14×14 个 patch),期望让最终的线性层正确分类该 patch 的位置。
▲ 表2. Position awareness 对于下游任务的影响 表中结果表明,fine-tune 后的模型权重,更适合预测位置这一任务。说明「强大的对位置的建模能力,对于图像分类任务是有益的」。基于此,我们想探究一种能够提升 ViT 对于位置建模能力的全新自监督代理任务。 一种可行的方案是「简单地把 ViT 的 PE 随机丢弃一部分,然后让模型预测这些不带 PE 的 token 的精确位置」,即 reconstruct Dropped Positions(DropPos)。
▲ 图1. DropPos 与 CL 和 MIM 的对比 DropPos 有如下的优势:
- 对比 CL,DropPos 不需要精心设计的数据增强(例如 multi-crop)。
- 对比 MIM,DropPos 不需要精心设计的掩码策略和重建目标。
Method
▲ 图2. DropPos 的流程图 即使 DropPos 的想法很直观也很简单,但这类方法一直没有成为预训练的主流,主要是由于在设计上有以下三个难点:
- 如果简单地把所有 PE 丢弃,让模型直接重建每个 patch 的位置,会导致上下游的 discrepency。因为下游任务需要 PE,而上游预训练的模型又完全没见过 PE。
- ViT 对于 long-range 的建模能力很强,这个简单的位置重建任务可能没办法让模型学到非常 high-level 的语义特征。
-
看上去相似的不同 patch(例如纯色的背景)的位置无需被精准重建,因此决定哪些 patch 的位置需要被重建非常关键。
- 针对问题一,我们采用了一个简单的随机丢弃策略。每次训练过程中丢弃 75% 的 PE,保留 25% 的 PE。
- 针对问题二,我们采取了高比例的 patch mask,既能提高代理任务的难度,又能加快训练的速度。
- 针对问题三,我们提出了 position smoothing 和 attentive reconstruction 的策略。
3.1 DropPos 前向过程
▲ 算法1. DropPos 的前向过程 DropPos 的前向过程包括两段 mask,分别是第一步 patch mask(类似 MAE),和第二步的 position mask(用可学习的 position mask 代替 dropped positions)。具体可以参见上方的伪代码。
3.2 Objective
我们使用了一个最简单的 cross-entropy loss 作为预训练的目标函数:其中,o 是模型的输出,即第 i 个 patch 的预测位置是 j 的 logit,y 是真实的位置信息。 gamma 是第一步的 patch mask ratio,N 为总 patch 数量。 是 0-1 的 position mask,1 表示该 patch 带有 PE,不应当被重建,而 0 表示该 patch 不带 PE,需要被重建。 我们接下来引入 position smoothing 和 attentive reconstruction 技术来松弛这个问题,以解决相似但不同 patch 的位置重建问题。 3.2.1 Position Smoothing 我们采用一个高斯核来平滑原本的 position targets此处,w(i, j) 表示当真实位置为 i,而预测位置为 j 时,平滑后的 position target。 此外,我们还让 sigma 自大变小,让模型一开始不要过分关注精确的位置重建,而训练后期则越来越关注于精准的位置重建。 3.2.2 Attentive Reconstruction 我们采用 [CLS] token 和其他 patch 的相似度作为亲和力矩阵,作为目标函数的额外权重。其中 f 为不同 token 的特征,tau 为超参数,控制了 affinity 的平滑程度。
Experiments
4.1 与其他方法的对比
4.2 消融实验
本文主要有四个超参:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。由表,我们可以得出一些比较有趣的结论:- 一般来说,更高的 position 重建精度会带来更高的下游任务性能。
- 上述结论存在例外:当 sigma = 0 时,即不做位置平滑时,位置预测精度高,而下游任务表现反而低;当 tau = inf 时,即不做 attentive reconstruction 时,位置预测精度高,而下游表现反而低。
-
因此,过分关注于预测每一个 patch 的精确的位置,会导致局部最优,对于下游任务不利。
上图是 DropPos 位置重建的可视化结果,黑色 patch 代表的是前向过程中被 mask 掉的 patch;白色 patch 的位置被错误重建,而剩余 patch 的位置被精准重建。 DropPos 在极端情况(例如 gamma=0.75)时,依然可以做到大部分 patch 的精准重建。 ·
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
物联网
+关注
关注
2870文章
41648浏览量
358419
原文标题:NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos
文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
【书籍评测活动NO.30】大规模语言模型:从理论到实践
TOP1的桂冠,可想大家对本书的认可和支持!
这本书为什么如此受欢迎?它究竟讲了什么?下面就给大家详细~~
本书主要内容
本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化
发表于 03-11 15:16
NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界
在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率出解析出人眼观看到的图像。 人类的感知不仅由客观
动态场景下的自监督单目深度估计方案
自监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身
发表于 11-28 09:21
•278次阅读
NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架
顶级人工智能会议 NeurIPS 2023 录用。 论文题目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文
NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
离开学校加入公司的业务部门已经半年多了,往后应该会努力抽时间做点开源项目,但暂时没什么计划再发一作论文了。这次介绍下我和我(前)实验室一位非常优秀的学弟 beier 合作的一篇 NeurIPS
ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法
-标志物对齐标注的数据集,并提出实体-标志物对齐的自适应预训练方法,从而显著提高了智能体的导航性能。 ICCV 是“计算机视觉三大顶级会议”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法国巴黎举行,本届会议共
中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务
我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings (PE)
NeurIPS 2023 | 扩散模型解决多任务强化学习问题
,它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。 但是, 这些工作仍然局限于单一任务单一数据集,无法得到能同时解决多种任务的通用智能体。那么,diffusion
基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?
大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力,这也推动了基于大量数据的视觉模型研究。在计算视觉领域,标注数据通常难以获取,自监督学习成为预训练
迎新 | 宏景智驾2023届新人进阶训练营启航
宏景智驾正在“迎新” 7月5日,宏景智驾2023届新人进阶训练营正式开启,超50名来自各大院校的毕业生相聚在宏景智驾上海嘉定研发中心,进行为期5天的入职训练活动。 7月的上海,骄阳似火,有着挡不住
Sonicverse:用于训练同时能够看和听的家居智能体的多感官仿真平台
,针对语义音频-视觉导航任务,作者提出了一种新的多任务学习模型,并展示了SONICVERSE通过模拟到真实环境的迁移所达到的真实感。 1 前言 本文介绍了SONICVERSE,一个新的具备多感官功能的模拟平台,用于
基于多任务预训练模块化提示
Prompt Tuning 可以让预训练的语言模型快速适应下游任务。虽然有研究证明:当训练数据足够多的时候,Prompt Tuning 的微调结果可以媲美整个模型的训练调优,但当面
评论