0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务

CVer 来源:CVer 2023-10-10 17:10 次阅读

0. 基本信息

10ae01a4-6744-11ee-939d-92fbcf53809c.png

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions. InNeurIPS 2023.

论文:arxiv.org/pdf/2309.03576

代码:github.com/Haochen-Wang409/DropPos

今天介绍我们在自监督视觉预训练领域的一篇原创工作DropPos:Pre-Training Vision Transformers by Reconstructing Dropped Positions.

目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。

1. TL;DR

我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings (PE),然后利用简单的 cross-entropy loss 训练模型,让模型重建那些无 PE token 的位置信息。这个及其简单的代理任务就能在多种下游任务上取得有竞争力的性能。

2. Motivation

在 MoCo v3 的论文中有一个很有趣的现象:ViT 带与不带 position embedding,在 ImageNet 上的分类精度相差无几。

10bdc256-6744-11ee-939d-92fbcf53809c.jpg

表 1. MoCo v3 中的实验现象 (原文第 6 页)

这一实验结果背后,隐含着「ViT 的建模主要关注于不同 patch 的 visual appearence,对于 position 的 awareness 较差」这一信息。即,如果把图片切 patch 然后再随机打乱之后,ViT 能够在乱序的情况下准确识别该图片的类别。这一点和人类直觉有很大出入。同时,有可能是因为 ViT 过拟合到了 ImageNet 这个特定数据集导致的。

基于此,我们首先做了一些 tiny experiments,探究 position awareness 与模型的识别准确率到底是否有正相关的关系。具体来说,我们冻结了 MoCo v3 和 MAE 的 pre-train/fine-tune 权重,在其后接一个全连接层,并用 position classification 这个任务做 linear probing。即,在 forward 过程中随机丢弃 75% 的 PE,并把 ViT 的 feature 映射到 196 维 (一张图有 14x14 个 patch),期望让最终的线性层正确分类该 patch 的位置。

10ca0818-6744-11ee-939d-92fbcf53809c.jpg

表 2. Position awareness 对于下游任务的影响

表中结果表明,fine-tune 后的模型权重,更适合预测位置这一任务。说明「强大的对位置的建模能力,对于图像分类任务是有益的」。基于此,我们想探究一种能够提升 ViT 对于位置建模能力的全新自监督代理任务。

一种可行的方案是「简单地把 ViT 的 PE 随机丢弃一部分,然后让模型预测这些不带 PE 的 token 的精确位置」,即 reconstructDroppedPositions (DropPos).

10d20ca2-6744-11ee-939d-92fbcf53809c.jpg

图 1. DropPos 与 CL 和 MIM 的对比

DropPos 有如下的优势:

对比 CL,DropPos 不需要精心设计的数据增强 (例如 multi-crop)。

对比 MIM,DropPos 不需要精心设计的掩码策略和重建目标。

下面我们介绍 DropPos 的具体运行流程

3. Method

10e2d7f8-6744-11ee-939d-92fbcf53809c.jpg

图 2. DropPos 的流程图

即使 DropPos 的想法很直观也很简单,但这类方法一直没有成为预训练的主流,主要是由于在设计上有以下三个难点:

如果简单地把所有 PE 丢弃,让模型直接重建每个 patch 的位置,会导致上下游的 discrepency。因为下游任务需要 PE,而上游预训练的模型又完全没见过 PE。

ViT 对于 long-range 的建模能力很强,这个简单的位置重建任务可能没办法让模型学到非常 high-level 的语义特征。

看上去相似的不同 patch (例如纯色的背景) 的位置无需被精准重建,因此决定哪些 patch 的位置需要被重建非常关键。

针对上述难点,我们提出了三个解决手段:

针对问题一,我们采用了一个简单的随机丢弃策略。每次训练过程中丢弃 75% 的 PE,保留 25% 的 PE。

针对问题二,我们采取了高比例的 patch mask,既能提高代理任务的难度,又能加快训练的速度。

针对问题三,我们提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向过程

10ef9da8-6744-11ee-939d-92fbcf53809c.jpg

算法 1. DropPos 的前向过程

DropPos 的前向过程包括两段 mask,分别是第一步 patch mask (类似 MAE),和第二步的 position mask (用可学习的 position mask 代替 dropped positions)。具体可以参见上方的伪代码。

3.2 Objective

我们使用了一个最简单的 cross-entropy loss 作为预训练的目标函数:

10f9e25e-6744-11ee-939d-92fbcf53809c.png

其中,o 是模型的输出,即第 i 个 patch 的预测位置是 j 的 logit,y 是真实的位置信息。

gamma 是第一步的 patch mask ratio,N 为总 patch 数量。

Mpose是 0-1 的 position mask,1 表示该 patch 带有 PE,不应当被重建,而 0 表示该 patch 不带 PE,需要被重建。

我们接下来引入 position smoothing 和 attentive reconstruction 技术来松弛这个问题,以解决相似但不同 patch 的位置重建问题。

3.2.1 Position Smoothing

我们采用一个高斯核来平滑原本的 position targets

110e130a-6744-11ee-939d-92fbcf53809c.jpg

111ad432-6744-11ee-939d-92fbcf53809c.png

此处,w(i, j) 表示当真实位置为 i,而预测位置为 j 时,平滑后的 position target。

此外,我们还让 sigma 自大变小,让模型一开始不要过分关注精确的位置重建,而训练后期则越来越关注于精准的位置重建。

3.2.2 Attentive Reconstruction

我们采用 [CLS] token 和其他 patch 的相似度作为亲和力矩阵,作为目标函数的额外权重。

112e53a4-6744-11ee-939d-92fbcf53809c.png

113e4b10-6744-11ee-939d-92fbcf53809c.jpg

其中 f 为不同 token 的特征,tau 为超参数,控制了 affinity 的平滑程度。

4. Experiments

4.1 与其他方法的对比

1149b4fa-6744-11ee-939d-92fbcf53809c.jpg

1154b030-6744-11ee-939d-92fbcf53809c.jpg

4.2 消融实验

本文主要有四个超参:patch mask ratio (gamma),position mask ratio (gamma_pos),sigma,和 tau。

116821d8-6744-11ee-939d-92fbcf53809c.jpg

11738f0a-6744-11ee-939d-92fbcf53809c.jpg

由表,我们可以得出一些比较有趣的结论:

一般来说,更高的 position 重建精度会带来更高的下游任务性能。

上述结论存在例外:当 sigma = 0 时,即不做位置平滑时,位置预测精度高,而下游任务表现反而低;当 tau = inf 时,即不做 attentive reconstruction 时,位置预测精度高,而下游表现反而低。

因此,过分关注于预测每一个 patch 的精确的位置,会导致局部最优,对于下游任务不利。

11781624-6744-11ee-939d-92fbcf53809c.jpg

上图是 DropPos 位置重建的可视化结果,黑色 patch 代表的是前向过程中被 mask 掉的 patch;白色 patch 的位置被错误重建,而剩余 patch 的位置被精准重建。

DropPos 在极端情况 (例如 gamma=0.75) 时,依然可以做到大部分 patch 的精准重建。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2706

    浏览量

    47697
  • 视觉
    +关注

    关注

    1

    文章

    140

    浏览量

    23678
  • 旷视
    +关注

    关注

    0

    文章

    73

    浏览量

    6511

原文标题:NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中科院C++课件及范实例代码(研究生应,例程特经典)

    对象与类,构造函数与析构函数,堆与拷贝构造函数,静态数据成员与静态成员函数,继承,多态与虚函数,多重继承,友元,运算符重载,模板,异常处理等内容。中科院C++课件及范实例代码(研究生应,例程特经典)
    发表于 10-07 10:06

    中科院电子技术考研真题

    中科院电子技术考研真题
    发表于 08-07 15:04

    中科院剖析 LED怎样克服困难 

      中科院剖析 LED怎样克服困难  LED灯具在人们的生活当中也是很常见的,它具有节能,高效,寿命长的优点,是电源行业的一个转折点,具有革命性的意义。  这是一个看似前途无量的巨大市场,然而像
    发表于 07-18 11:31

    0055《最优控制理论(中科院)》科学出版社-2003.pdf(4M)

    1000本电子专业书籍免费大放送https://bbs.elecfans.com/forum.php?mod=viewthread&tid=287358&fromuid=286650055《最优控制理论(中科院
    发表于 01-14 16:19

    中科院建筑设计研究有限公司招聘照明设计师

    、3dmax、photoshop、dialux及办公软件OFFICE、WORD、EXCEL; 5、具有独立完成项目设计的成功案例; 6、具有良好的团队协作意识,有项目管理经验者优先。中科院建筑设计
    发表于 10-23 09:56

    Banana PI开源项目与中科院先研举行开源硬件介绍交流活动

    本帖最后由 江口kk 于 2014-8-11 20:26 编辑 Banana PI开源项目与中科院先研举行开源硬件介绍交流活动LeMaker团队Banana Pi项目组日前与中国科学院深圳
    发表于 08-09 21:08

    无“线”供电 Ithink内置电池网络摄像机

    共识的一个重要因素。未来,双方将在网络摄像机领域进行全方位、立体化、深层次的产业开发运营,合力打造一个受消费者欢迎的产品线,缔造全新网络摄像机市场格局。  此次,ithink公司与中科院通过手立Q
    发表于 01-29 14:08

    中科院深耕网络摄像机领域

    。据悉,手立Q系近日即将登陆京东众筹。 中科院聚焦网络摄像机领域 为打造符合消费与技术发展规律的全新一代网络摄像机,中科院在对国内外智能摄像机产品进行分析后,又深入了解智能家居等领域
    发表于 02-05 10:09

    中科院清库房-20V600A稳流电源

    ``如题 中科院清库房的设备 另有其他一些电子元器件。有想拿去玩玩的加微信qixiong225 论坛不常上 咸鱼链接https://2.taobao.com/item.htm?id=526428926106&
    发表于 02-17 16:14

    中科院海西研究泉州装备制造研究所现代电机控制与电力电子实验室招聘公告

    与团队合作精神;5. 有研发团队的管理工作经历优先。三、福利待遇 参照中科院海西研究(福建物质结构研究所)相应规定给予薪酬等待遇,年底有项目奖金; 符合泉州市及所属县(市、区)相关政策的创业创新
    发表于 06-30 16:27

    中科院3D打印机CEST400|国产工业级3D打印机

    `中科院3D打印机CEST400|国产工业级3D打印机中科院广州电子采用全球领先的3D打印技术和设备,2001年改制以来,依托国有科研机构技术底蕴,稳定的技术队伍,专注主研方向和产品,在高等教育
    发表于 08-10 17:27

    中科鉴芯CEO叶靖:发布openDACS开源故障仿真器v1.0 ICTest-FaultSimulator

    作为openDACS“设计验证&测试综合SIG”核心成员,中科鉴芯CEO叶靖(兼中科院计算所副研究员)于 2021 年 10 月 16 日在 CCF DAC 2021大
    发表于 06-29 10:01

    中科院发布“香山”与“傲来”两项开源处理器芯片

    中科院计算技术研究所副所长包云岗介绍了目前全球性能最高的开源高性能RISC-V处理器核项目“香山”。他指出,计算技术研究所对标ARM Cortex-A72,已于2021年成功研制出第一代“香山
    发表于 05-28 08:43

    中科院半导体所成功研制视觉芯片

    在国家自然科学基金委、科技部和中科院的支持下,中科院半导体所吴南健研究员、张万成和付秋喻等成功研制出新型视觉芯片。
    发表于 09-15 09:22 1228次阅读

    NeurIPS 2023 | 全新的自监督视觉训练代理任务DropPos

    工作, 目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。 TL;DR 我们提出了一种全新的自
    的头像 发表于 10-15 20:25 331次阅读
    NeurIPS 2023 | <b class='flag-5'>全新</b>的自<b class='flag-5'>监督</b><b class='flag-5'>视觉</b>预<b class='flag-5'>训练</b><b class='flag-5'>代理</b><b class='flag-5'>任务</b>:<b class='flag-5'>DropPos</b>