0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

智能感知与物联网技术研究所 来源:未知 2023-10-15 20:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgaomUt5x-ACdCTAAGMXym4GcM184.png

论文标题:

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

论文链接:

https://arxiv.org/pdf/2309.03576

代码链接:

https://github.com/Haochen-Wang409/DropPos

今天介绍我们在自监督视觉预训练领域的一篇原创工作,目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。

wKgaomUt5x-AGHoyAAAl6LOgh3c767.png

TL;DR

我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings(PE),然后利用简单的 cross-entropy loss 训练模型,让模型重建那些无 PE token 的位置信息。这个及其简单的代理任务就能在多种下游任务上取得有竞争力的性能。 wKgaomUt5x-ASb1ZAAAuhh9-KLM140.png

Motivation

在 MoCo v3 的论文中有一个很有趣的现象:ViT 带与不带 position embedding,在 ImageNet 上的分类精度相差无几。

wKgaomUt5x-AdJkaAAGHYR2BQYo430.png

▲ 表1. MoCo v3 中的实验现象(原文第6页) 这一实验结果背后,隐含着「ViT 的建模主要关注于不同 patch 的 visual appearence,对于 position 的 awareness 较差」这一信息。即,如果把图片切 patch 然后再随机打乱之后,ViT 能够在乱序的情况下准确识别该图片的类别。这一点和人类直觉有很大出入。同时,有可能是因为 ViT 过拟合到了 ImageNet 这个特定数据集导致的。 基于此,我们首先做了一些 tiny experiments,探究 position awareness 与模型的识别准确率到底是否有正相关的关系。具体来说,我们冻结了 MoCo v3 和 MAE 的 pre-train/fine-tune 权重,在其后接一个全连接层,并用 position classification 这个任务做 linear probing。即,在 forward 过程中随机丢弃 75% 的 PE,并把 ViT 的 feature 映射到 196 维(一张图有 14×14 个 patch),期望让最终的线性层正确分类该 patch 的位置。

wKgaomUt5yCAVVELAAEfrmu0PPI839.png

▲ 表2. Position awareness 对于下游任务的影响 表中结果表明,fine-tune 后的模型权重,更适合预测位置这一任务。说明「强大的对位置的建模能力,对于图像分类任务是有益的」。基于此,我们想探究一种能够提升 ViT 对于位置建模能力的全新自监督代理任务。 一种可行的方案是「简单地把 ViT 的 PE 随机丢弃一部分,然后让模型预测这些不带 PE 的 token 的精确位置」,即 reconstruct Dropped Positions(DropPos)。

wKgaomUt5yCAed8gAAM-8rHKVIM341.png

▲ 图1. DropPos 与 CL 和 MIM 的对比 DropPos 有如下的优势:
  • 对比 CL,DropPos 不需要精心设计的数据增强(例如 multi-crop)。
  • 对比 MIM,DropPos 不需要精心设计的掩码策略和重建目标。
下面我们介绍 DropPos 的具体运行流程。

wKgaomUt5yCAFfmtAAAtJ0fTuoM718.png

Method

wKgaomUt5yCASSQ-AAOx52KBOos108.png

▲ 图2. DropPos 的流程图 即使 DropPos 的想法很直观也很简单,但这类方法一直没有成为预训练的主流,主要是由于在设计上有以下三个难点:
  1. 如果简单地把所有 PE 丢弃,让模型直接重建每个 patch 的位置,会导致上下游的 discrepency。因为下游任务需要 PE,而上游预训练的模型又完全没见过 PE。
  2. ViT 对于 long-range 的建模能力很强,这个简单的位置重建任务可能没办法让模型学到非常 high-level 的语义特征。
  3. 看上去相似的不同 patch(例如纯色的背景)的位置无需被精准重建,因此决定哪些 patch 的位置需要被重建非常关键。

针对上述难点,我们提出了三个解决手段:
  1. 针对问题一,我们采用了一个简单的随机丢弃策略。每次训练过程中丢弃 75% 的 PE,保留 25% 的 PE。
  2. 针对问题二,我们采取了高比例的 patch mask,既能提高代理任务的难度,又能加快训练的速度。
  3. 针对问题三,我们提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向过程

wKgaomUt5yCACzwiAAVXL_R1--s142.png

算法1. DropPos 的前向过程 DropPos 的前向过程包括两段 mask,分别是第一步 patch mask(类似 MAE),和第二步的 position mask(用可学习的 position mask 代替 dropped positions)。具体可以参见上方的伪代码。

3.2 Objective

我们使用了一个最简单的 cross-entropy loss 作为预训练的目标函数:

wKgaomUt5yCAVq8jAAA_BQl0Sc8745.png

其中,o 是模型的输出,即第 i 个 patch 的预测位置是 j 的 logit,y 是真实的位置信息。 gamma 是第一步的 patch mask ratio,N 为总 patch 数量。 是 0-1 的 position mask,1 表示该 patch 带有 PE,不应当被重建,而 0 表示该 patch 不带 PE,需要被重建。 我们接下来引入 position smoothing 和 attentive reconstruction 技术来松弛这个问题,以解决相似但不同 patch 的位置重建问题。 3.2.1 Position Smoothing 我们采用一个高斯核来平滑原本的 position targetswKgaomUt5yGAObccAAArmkbdDAM974.pngwKgaomUt5ySAW9-vAAA_rRBMW0w439.png此处,w(i, j) 表示当真实位置为 i,而预测位置为 j 时,平滑后的 position target。 此外,我们还让 sigma 自大变小,让模型一开始不要过分关注精确的位置重建,而训练后期则越来越关注于精准的位置重建。 3.2.2 Attentive Reconstruction 我们采用 [CLS] token 和其他 patch 的相似度作为亲和力矩阵,作为目标函数的额外权重。wKgaomUt5ySAHMbeAAA87bNqupg699.pngwKgaomUt5ySALccxAAA4_CySCkw423.png其中 f 为不同 token 的特征,tau 为超参数,控制了 affinity 的平滑程度。 wKgaomUt5ySAX1QEAAAr2pbNr48823.png

Experiments

4.1 与其他方法的对比

wKgaomUt5ySAKJNiAAR2Qt6CMIo385.pngwKgaomUt5ySAbZfnAAYLKoO_85k333.png

4.2 消融实验

本文主要有四个超参:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。wKgaomUt5yWADXvuAAYb7tm27Ko423.pngwKgaomUt5yWAZ3AkAAVY4GYYZXw365.png由表,我们可以得出一些比较有趣的结论:
  1. 一般来说,更高的 position 重建精度会带来更高的下游任务性能。
  2. 上述结论存在例外:当 sigma = 0 时,即不做位置平滑时,位置预测精度高,而下游任务表现反而低;当 tau = inf 时,即不做 attentive reconstruction 时,位置预测精度高,而下游表现反而低。
  3. 因此,过分关注于预测每一个 patch 的精确的位置,会导致局部最优,对于下游任务不利。

wKgaomUt5yWAfIinAAc8UwSp5q0239.png

上图是 DropPos 位置重建的可视化结果,黑色 patch 代表的是前向过程中被 mask 掉的 patch;白色 patch 的位置被错误重建,而剩余 patch 的位置被精准重建。 DropPos 在极端情况(例如 gamma=0.75)时,依然可以做到大部分 patch 的精准重建。 ·


原文标题:NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2951

    文章

    48267

    浏览量

    419654

原文标题:NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度研的"多维弹性训练"技术,在大幅压缩参数规模的同时,实现了基础能力的显著提升。目前,文心5.1已在百度千帆模型广场及文心一言官网同步上线,面向企业用户与开发者开
    的头像 发表于 05-09 11:05 640次阅读

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    标注的图文对(如网页中的图片和alt文本)进行监督训练。 多实例学习 :将同一场景的多模态数据视为一个\"包\",只需标注包的类别,无需标注每个模态的具体对应关系。 2. 计算资源
    发表于 05-01 17:46

    人工智能多模态与视觉大模型开发实战 - 2026必会

    训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉大模型的发展还得益于大规模数据集和强大计算资源的支持。海量标注数据为模型提供了丰富的学习样本,使其能
    发表于 04-15 16:06

    NVIDIA Vera Rubin平台开启代理式AI前沿

    七款全新芯片全面投产,旨在通过为 AI 各阶段(从训练、后训练、测试时扩展,到智能体式推理)提供全面优化的可配置 AI 基础设施,扩展全球最大 AI 工厂的规模。
    的头像 发表于 03-18 14:30 649次阅读

    数据传输拖慢训练?三维一体调度让AI任务提速40%

    、模型三者割裂,资源调度与数据流转不同步,训练任务频繁卡顿;更无奈的是,优化了算法、升级了硬件,却因底层传输与调度低效,始终无法突破训练效率瓶颈。 在AI模型规模越来越大、数据量呈爆炸式增长的今天,数据传输与资源协同效率,早已
    的头像 发表于 01-26 14:20 307次阅读

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-03 13:50

    思必驰与上海交大联合实验室五篇论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5篇论文被收录。NeurIPS(Conference on Neural
    的头像 发表于 10-23 15:24 1176次阅读
    思必驰与上海交大联合实验室五篇论文入选<b class='flag-5'>NeurIPS</b> 2025

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得益于近年来VR
    的头像 发表于 08-21 09:56 1294次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA模型H-RDT

    信捷视觉平台全新升级

    当机器视觉的精准遇上AI的智能,会碰撞出怎样的火花?信捷视觉平台全新升级——XINJE VISION STUDIO 3.7 + Vision AI算法平台双剑合璧,覆盖从规则化检测到复杂场景分析的全链路需求,助力多行业智造升级!
    的头像 发表于 07-28 15:56 1159次阅读
    信捷<b class='flag-5'>视觉</b>平台<b class='flag-5'>全新</b>升级

    科通技术与RealSense签署代理协议

    近日,科通技术与RealSense, Inc.正式签署代理协议,成为其中国区代理商。此次合作标志着双方在3D视觉领域的战略布局迈入新阶段。
    的头像 发表于 07-28 13:56 1222次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    1Whisper简介Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务监督数据来训练,能够在
    的头像 发表于 07-25 15:21 1056次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别<b class='flag-5'>训练</b>部署教程

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。
    的头像 发表于 07-17 14:55 2118次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别<b class='flag-5'>训练</b>部署教程

    CPU密集型任务开发指导

    CPU密集型任务是指需要占用系统资源处理大量计算能力的任务,需要长时间运行,这段时间会阻塞线程其它事件的处理,不适宜放在主线程进行。例如图像处理、视频编码、数据分析等。 基于多线程并发机制处理CPU
    发表于 06-19 06:05

    避障也能判?视觉黑科技让扫地机器人开启“先知”模式

    从被动避障到主动判,视觉避障技术比预想的更快实现。
    的头像 发表于 06-18 14:09 1477次阅读