0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?

智能感知与物联网技术研究所 来源:未知 2023-07-24 16:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力,这也推动了基于大量数据的视觉模型研究。在计算视觉领域,标注数据通常难以获取,自监督学习成为预训练的主流方法。然而,在自监督预训练中,是否数据越多越好?数据增广是否始终有效?华为诺亚方舟实验室与香港科技大学的研究团队近期发现:主流自监督预训练方法如 Masked Autoencoder (MAE) 存在负迁移现象,即在预训练过程中包含无关数据可能导致下游任务性能下降。面向 MAE 的有效数据增强策略仍有待探讨。区别于对比学习高度依赖数据增强策略,在 MAE 中采用数据增强策略,如简单的图像混合,可能会导致互信息 (MI) 的增加而降低模型性能。为解开这些数据之谜,研究团队提出了一种新颖的预训练范式——Mixture of Cluster-conditional Experts (MoCE)。借鉴 Mixture-of-Experts (MoE) 的概念,MoCE 可以通过一次预训练,为不同下游任务提供定制化模型。在多个下游任务中,包括图像分类、目标检测和分割等,MoCE 超越了传统的 MAE 预训练方法。该研究成果已被 ICLR 2023 会议接收为 Spotlight 论文。2e6c133e-29ff-11ee-a368-dac502259ad0.png  论文标题:Task-customized Masked Autoencoder via Mixture of Cluster-conditional Experts

论文链接:

https://openreview.net/forum?id=j8IiQUM33s

此外,团队还提出了一种名为混合自编码器 (MixedAE) 的简单而有效的方法,将图像混合应用于 MAE 数据增强。MixedAE 在各种下游任务(包括图像分类、语义分割和目标检测)上实现了最先进的迁移性能,同时保持了显著的效率。这是第一个从任务设计的角度将图像混合作为有效数据增强策略应用于基于纯自编码器结构的 Masked Image Modeling (MIM) 的研究。该工作已被 CVPR 2023 会议接收。

2e8fe020-29ff-11ee-a368-dac502259ad0.png

论文标题:Mixed Autoencoder for Self-supervised Visual Representation Learning

论文链接:

https://arxiv.org/abs/2303.17152 2eaa6440-29ff-11ee-a368-dac502259ad0.png  

研究背景

机器学习领域,预训练模型已经成为一种流行的方法,可以提高各种下游任务的性能。然而,研究发现,自监督预训练存在的负迁移现象。诺亚 AI 基础理论团队的前期工作 SDR (AAAI 2022) [1] 首次指出自监督预训练的负迁移问题,并提供初步解决方案。具体来说,负迁移是指在预训练过程中使用的数据与下游任务的数据分布不同,导致预训练模型在下游任务上的性能下降。在自监督学习中,模型在无标签数据上进行预训练,学习数据的潜在特征和表示。然而,当预训练数据与下游任务的数据分布存在显著差异时,模型可能学到与下游任务无关或甚至有害的特征。

2ec2233c-29ff-11ee-a368-dac502259ad0.png  相关工作1. 自监督预训练的负迁移现象

2ee0f370-29ff-11ee-a368-dac502259ad0.png

▲图一:我们用ImageNet的两个子集,Split-A和Split-B,训练两个MAE模型,和全量数据集训练的模型相比较,后者仅在2个数据集上达到了最优。这说明,增大数据量并不总是带来更强的迁移效果。

以目前较为流行的自监督学习算法 MAE 为例,我们评估了使用不同语义数据进行预训练的 MAE 模型在迁移性能上的表现。我们将 ImageNet 数据集分为两个不相交的子集 Split-A 和 Split-B,根据 WordNet 树中标签的语义差异进行划分。Split-A 主要包含无生命物体(如汽车和飞机),而 Split-B 则主要涉及有机体(如植物和动物)。接着,我们在 Split-A、Split-B 和完整的 ImageNet 数据集上分别进行了 MAE 预训练,并在 11 个下游任务上评估了这三个模型的性能。如图一所示,在仅含 2 个语义丰富数据集(Caltech,VOC)的情况下,基于完整 ImageNet 训练的 MAE 获得了最佳的迁移效果;在非生物下游数据集 (Aircraft,Cars,SUN,DTD) 上,Split-A 的表现更佳;而在包含 Flowers,Food,Pets,CIFAR10,CIFAR100 等数据集上,Split-B 的表现更优。这表明,当下游任务与预训练数据分布不同时,与任务无关的预训练信息可能导致负迁移,从而限制了 MAE 模型的可扩展性。换言之,若一个 MAE 模型的预训练数据去除了与下游任务数据集相似度较低的部分,则其性能可能优于包含这些无关数据的预训练模型。这突显了开发针对特定下游任务的定制化预训练方法以避免负迁移现象的重要性。2. 自监督数据增强难题在自监督预训练中,与依赖数据增强的对比学习不同,我们发现传统数据增强手段可能会削弱 MAE 的模型性能。以图像混合增强(Image Mixing)为例,设随机变量 X1 和 X2 表示两个输入图像,M 表示随机生成的掩码,我们可以证明混合输入 σmix({X1,X2},M) 与重构目标 X1 之间的互信息 (MI) 不小于 MAE 输入 σmae(X1,M) 与 X1 之间的互信息(详见论文附录)。2f0e4654-29ff-11ee-a368-dac502259ad0.png因此,简单的图像混合增强会提升模型输入与重构目标之间的互信息。尽管这对监督学习和对比学习有益,但它却简化了 MAE 的图像重构任务,因为掩码操作 (masking) 的根本目的恰恰是降低模型输入和重构目标之间的互信息,以减少图像信号的冗余。这表明以 MAE 为代表的掩码图像建模对数据增强具有与传统判别式训练范式不同的偏好,进而带来了 MAE 自监督学习中的数据增强难题。 2f22e41a-29ff-11ee-a368-dac502259ad0.png  方法1. MoCEMixture of Cluster-conditional Expert (MoCE) 通过数据聚类和显式地使用具有相似语义的图像来训练每个专家,以实现针对特定任务的定制自监督预训练。MoCE 的过程分为三个阶段,具体如下:1. 首先,我们使用预先训练好的 MAE 模型对整个数据集进行聚类。每张图片被分到不同的聚类中,并记录每个聚类的中心点,形成矩阵 C。2. 然后,受 Mixture-of-Experts (MoE) 多专家模型的启发,我们构建了基于聚类先验的 MoCE 模型。与目前常用的视觉多专家模型将每个图像的 token 路由到某个专家不同,MoCE 让每个专家负责训练一组相似的聚类图片,使得每个专家在不同语义数据上得到显式训练。具体来说,现有的视觉多专家模型基于 ViT 构建,将原先某些 Transformer Block 中的单个 MLP 层扩展为多个 MLP 层,每个 MLP 被称作一个专家 (expert)。同时引入一个门控网络 (gate network),该门控网络决定每个 token 应该去往哪个专家。MoCE 多专家层的核心改变是门控网络的输入:2f3b9a1e-29ff-11ee-a368-dac502259ad0.png这里,C[x] 表示 token x 所属图片所在的聚类中心(我们在第一步已经完成了聚类),而不是原先的 token 嵌入。这样,属于同一个聚类的图片的 tokens 都会被路由到同一个专家,从而显式地区分每个专家在语义上的差异。为了稳定训练并增强门控网络的置信度,我们提出了两个额外的正则化损失,并在实验中发现了它们的有效性。3. 当下游任务到达时,我们引入了一个搜索模块来选择最适合用于迁移学习的专家。具体而言,我们重复利用第一步提到的聚类模块,找到与下游数据集最相似的聚类,然后找到该聚类所训练的专家,将其单独提取出来,舍弃其他专家进行迁移。这样,在下游任务中,我们始终使用一个正常大小的 ViT 模型。2. MixedAEMixed Autoencoder (MixedAE) 提出辅助代理任务——同源识别(Homologous recognition),旨在显示要求每个图像块识别混合图像中的同源图像块以缓解图像混合所导致的互信息上升,从而实现物体感知的自监督预训练。MixedAE 的过程分为三个阶段,具体如下:1. 混合阶段:在给定混合系数 r 的情况下,将输入图像随机划分为不同的图像组,并根据 r 对每个图像组进行随机混合,生成混合图像。2. 识别阶段:鉴于 Vision Transformer 中全局自注意力的使用,在重构过程中,各个图像块不可避免地与来自其他图像的异源图像块发生交互,从而导致互信息的上升。因此我们提出同源自注意力机制 (Homologous attention),通过部署一个简单的 TopK 采样操作,要求每个图像块显示识别并仅与同源图像块做自注意力计算,以抑制互信息的上升。2f571b9a-29ff-11ee-a368-dac502259ad0.png3. 验证阶段:为了验证同源自注意力的准确性,我们提出同源对比损失 (Homologous contrasitve)。对于任意查询图像块 (query patch),我们将其同源图像块视为正样本,异源图像块作为负样本,以促进同源图像块特征的相似度,从而显示要求图像块识别并仅和同源图像块做自注意力计算。最后,同源对比损失将和原始图像重构损失一起以多任务形式优化网络参数进行自监督预训练。 2f74073c-29ff-11ee-a368-dac502259ad0.png  

实验分析

1. MoCE

我们在之前提到的 11 个下游分类数据集和检测分割任务上做了实验。实验结果表明,MoCE 在多个下游任务中的性能超过了传统的 MAE 预训练方法。具体而言,在图像分类任务中,MoCE 相较于 MAE 实现了更高的准确率。在目标检测和分割任务中,MoCE 也取得了更好的表现,包括更高的 mIoU 和 AP 指标。这些实验结果表明,MoCE 通过利用相似语义图像进行聚类并为每个专家进行任务定制的自监督预训练,能够在各种下游任务中提高迁移性能。

2f8c2614-29ff-11ee-a368-dac502259ad0.png▲表一:MoCE在细粒度数据集上有较大提升,在类别比较宽泛的任务上也有少量提升。2. MixedAE

在 14 个下游视觉任务(包括图像分类、语义分割和物体检测)的评估中,MixedAE 展现了最优的迁移性能和卓越的计算效率。相较于 iBOT,MixedAE 实现了约 2 倍预训练加速。得益于图像混合所带来的物体感知预训练,MixedAE 在下游密集预测任务上取得更显著的性能提升。注意力图可视化结果表明,MixedAE 能比 MAE 更准确完整地识别图像前景物体,从而实现优异的密集预测迁移性能。

2fdd4f4e-29ff-11ee-a368-dac502259ad0.png表二:MixedAE在不同训练代价下均获得当前最优结果,展现了卓越的计算效率。

30217476-29ff-11ee-a368-dac502259ad0.png

▲图二:注意力图可视化。得益于ImageNet的单实例假设[2]以及物体感知的自监督预训练,MixedAE可以更准确完整地发现图像前景物体,从而实现更好的密集预测迁移性能。

30a6743c-29ff-11ee-a368-dac502259ad0.png  作者介绍结合 MoCE 和 MixedAE 的研究发现,我们揭示了自监督预训练中数据之谜:数据量不再是唯一关键因素,而是如何利用数据和进行定制化预训练和数据增广更为关键。MoCE 通过数据聚类和专家定制训练,显著提高了针对特定下游任务的迁移性能。MixedAE 则通过一种简单有效的图像混合方法,实现了在各种下游任务中的最先进迁移性能。这些研究发现不仅为自监督预训练领域提供了新的视角,还为开发更为高效、可扩展和定制化的预训练方法提供了指导和启示。我们希望这些探索是一个有效利用更多数据量的途径,并为研究者们提供新的思路。 30bea20a-29ff-11ee-a368-dac502259ad0.svg

参考文献

30bea20a-29ff-11ee-a368-dac502259ad0.svg  

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.

[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.

·


原文标题:基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2951

    文章

    48261

    浏览量

    419618

原文标题:基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度研的"多维弹性训练"技术,在大幅压缩参数规模的同时,实现了基础能力的显著
    的头像 发表于 05-09 11:05 633次阅读

    零基础手写大模型资料2026

    模型能稳定训练至数百亿参数规模。 3. 位置编码:序列顺序的注入 由于注意力本身不包含位置信息,需通过位置编码显式注入。正弦-余弦位置编码是经典方案,其公式为: PE(pos,2i) = sin
    发表于 05-01 17:44

    AI Ceph 分布式存储教程资料大模型学习资料2026

    。如何构建高性能、高吞吐、高可扩展的 AI 分布式存储系统,已成为解锁大模型基建能力的核心科技命题。这不仅关乎数据存得下、读得快,更直接决定了 GPU 集群的利用率与模型训练的最终效率
    发表于 05-01 17:35

    HM博学谷狂野AI大模型第四期

    ,抽象的数学概念将转化为具象的张量流动逻辑。开发者将不再被复杂的网络结构图所迷惑,而是能够清晰地看到数据模型内部的流动轨迹,为后续的模型优化与定制打下坚实的算法地基。 二、 训练引擎
    发表于 05-01 17:30

    Edge Impulse 唤醒词模型训练 | 技术集结

    Edgi-Talk开始使用边缘机器学习!目录EdgeImpulse简介创建账号录制数据数据上传数据分割模型训练
    的头像 发表于 04-20 10:05 1745次阅读
    Edge Impulse 唤醒词<b class='flag-5'>模型</b><b class='flag-5'>训练</b> | 技术集结

    求助:AI服务器SSD掉电数据丢失,12V电压暴跌至8.5V,这究竟是主控问题还是PLP电容ESR不够低?

    我们做AI训练服务器的PCIe 5.0 SSD,在客户现场偶发掉数据。自己实验室做掉电测试,发现12V供电在2ms内就从12V跌到8.5V,主控直接复位。怀疑是PLP电容放电不够快。这种情况,是不是说明现有电容的ESR太高了?有没有符合我们要求的电容推荐?
    发表于 03-11 11:30

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行训练,学会语
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    自动驾驶大模型训练数据有什么具体要求?

    [首发于智驾最前沿微信公众号]想训练出一个可以落地的自动驾驶大模型,不是简单地给其提供几张图片,几条规则就可以的,而是需要非常多的多样的、真实的驾驶数据,从而可以让大模型真正理解道路、
    的头像 发表于 12-26 09:32 443次阅读
    自动驾驶大<b class='flag-5'>模型</b>的<b class='flag-5'>训练</b><b class='flag-5'>数据</b>有什么具体要求?

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型训练
    发表于 10-22 07:03

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    算法作为软实力,其水平直接影响着目标检测识别的能力。两年前,慧视光电推出了零基础的基于yolo系列算法架构的AI算法开发平台SpeedDP,此平台能够通过数据驱动模型训练,实现算法从0到1的开发
    的头像 发表于 09-09 17:57 1629次阅读
    模板驱动  无需<b class='flag-5'>训练</b><b class='flag-5'>数据</b>  SmartDP解决小样本AI算法<b class='flag-5'>模型</b>开发难题

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现
    的头像 发表于 08-21 09:56 1291次阅读
    基于大规模人类操作<b class='flag-5'>数据</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据
    的头像 发表于 07-17 14:55 2117次阅读
    EASY EAl Orin Nano(RK3576) whisper语音识别<b class='flag-5'>训练</b>部署教程

    嵌入式AI技术漫谈:怎么为训练AI模型采集样本数据

    多少数据,才能形成合适的样本集,进而开始训练模型呢? 此时,回答“按需提供”或者“先试试看”似乎会变成一句车轱辘话,看似回答了问题,但客户还是无从下手。 AI
    的头像 发表于 06-11 16:30 1656次阅读

    数据标注与大模型的双向赋能:效率与性能的跃升

    ​‌在人工智能蓬勃发展的时代,大模型凭借其强大的学习与泛化能力,已成为众多领域创新变革的核心驱动力。而数据标注作为大模型训练的基石,为大模型
    的头像 发表于 06-04 17:15 2351次阅读
    <b class='flag-5'>数据</b>标注与大<b class='flag-5'>模型</b>的双向赋能:效率与性能的跃升

    超声波液位计究竟是什么?

    液位计
    jzyb
    发布于 :2025年06月03日 16:10:12