0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇解决表示学习坍塌问题的工作报告

深度学习自然语言处理 来源:圆圆的算法笔记 作者:Fareise 2022-08-31 11:12 次阅读

1 表示学习中的坍塌问题

在表示学习中,一种很常见的做法是利用孪生网络的结构,让同一个样本的不同数据增强后的表示相似。比如对于一张图像,使用翻转、裁剪等方法生成另一个增强图像,两个图像分别经过两个共享参数编码器,得到表示,模型的优化目标是让这两个表示的距离近。

这种方法一个比较大的挑战在于,模型在训练过程中容易出现坍塌问题。模型可以把所有样本的表示都学成完全相同的常数向量(比如每个样本模型的输出都是全0向量),这样就能满足上述两个表示距离近的要求了。

2 解决坍塌问题的方法

业内有很多解决坍塌问题的方法,主要可以分为4种类型:

对比学习方法:在训练一对正样本对时,同时采样大量的负样本,让正样本之间离得近,负样本之间离得远,避免模型偷懒把所有样本的表示都学成一样的。

聚类方法:在训练过程中增加一个聚类过程,将样本分配给不同的类簇,然后在类簇级别进行对比学习。

基于蒸馏的方法:通过模型结构的角度避免坍塌问题,学习一个student network来预测teacher network的表示,teacher network是student network参数的滑动平均,teacher network不通过反向传播更新参数。

信息最大化方法:让生成的embedding中每一维的向量相互正交,使其信息量最大化,这样可以避免各个维度的值信息过于冗余,防止坍塌问题。

目前常用的负样本采样方法,一个比较大的问题是计算开销大,取得好的效果往往需要大量负样本,因此有了MoCo等对比学习框架。本文提出的方法基于信息最大化的思路,能够只使用正样本对实现表示学习的同时,防止坍现象的发生。关于对比学习的常用经典方法,可以参考这篇文章:对比学习中的4种经典训练模式

3 信息最大化方法历史工作

基于信息最大化的方法典型的工作有两篇ICLM 2021的文章,分别是Whitening for Self-Supervised Representation Learning(ICML 2021,W-MSE)Barlow twins: Self-supervised learning via redundancy reduction(ICML 2021)。下面介绍一下这两篇文章的整体思路,Facebook的这篇论文也是基于这个思路设计的。

d3146b2a-284d-11ed-ba43-dac502259ad0.png

W-MSE的整体网络结构如上图,模型中输入一对互为正样本的样本对(例如一个图像的不同增强形式),使用共享参数Encoder分别编码后,增加一个whitening模块,对每个batch内的所有embedding进行白化,让embedding的各个维度变量线性无关,后面再接norm处理。下图形式化表明了W-MSE的用途,通过白化+norm让样本形成一个球形分布,正样本之间距离近,每个样本需要调整自己在圆周上的位置拉进正样本之间的距离,形成最终的簇。

d33098f4-284d-11ed-ba43-dac502259ad0.png


Barlow twins方法也是同样的思路,只是做法不同。在得到一对正样本的两个embedding后,计算两个向量各个变量之间的相关性矩阵,优化这个矩阵接近对角矩阵,以此实现embedding中各个变量之间线性无关。

d3550ca2-284d-11ed-ba43-dac502259ad0.png

4 VICREG

Facebook团队提出的VICREG是上述基于信息最大化表示学习方法的一个扩展,损失函数主要包括variance、invariance、covariance三个部分。模型的主体结构如下,仍然是一个孪生网络结构,输入一个样本的不同view互为正样本。

d370b272-284d-11ed-ba43-dac502259ad0.png

variance部分主要是让batch内每个样本embedding向量的每一维变量之间的方差不小于一个值,这样可以有效防止每个样本的向量都对应同一个点的情况,防止坍塌的发生。

invariance部分即让正样本对的表示embedding距离尽可能小,是正常的表示学习loss。

covariance借鉴了Barlow twins中的思路,让batch内的embedding非对角线元素尽可能为0,即让表示向量各个维度变量线性无关。

最终的表示学习loss是由上述3个loss的加和:

d3817d8c-284d-11ed-ba43-dac502259ad0.png

5 实验结果

作者进行了一些实验验证VICREG表示学习方法的效果。在ImageNet数据集上,使用不同方法预训练的表示接一个线性层进行分类,或者基于预训练的表示使用部分数据进行finetune,对比图像分类效果,实验结果如下:

d38f8f9e-284d-11ed-ba43-dac502259ad0.png

作者也对比了在不同方法上是否采用variance或covariance等loss的效果变化:

d3a9c04e-284d-11ed-ba43-dac502259ad0.png

6 总结

本文介绍了Facebook AI团队在2022年ICLR的一篇解决表示学习坍塌问题的工作,顺带介绍了基于信息最大化的防坍塌工作,有助于帮助我们更深层次理解表示学习的原理,以及如何解决实际应用表示学习、对比学习时遇到的坍塌问题。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 矩阵
    +关注

    关注

    0

    文章

    406

    浏览量

    34253
  • Network
    +关注

    关注

    0

    文章

    64

    浏览量

    29527

原文标题:ICLR2022 | Facebook AI提出解决表示学习坍塌问题新方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于Python和深度学习的CNN原理详解

    卷积神经网络 (CNN) 由各种类型的层组成,这些层协同工作以从输入数据中学习分层表示。每个层在整体架构中都发挥着独特的作用。
    的头像 发表于 04-06 05:51 930次阅读
    基于Python和深度<b class='flag-5'>学习</b>的CNN原理详解

    中科曙光推出一种半实物实时仿真系统计算平台及国产化方案

    随着各地新春第一会陆续召开,已有31省、自治区、直辖市发布政府工作报告,对新一年数字经济发展做出详实规划,尤其对装备制造、工业仿真软件等做出具体部署。
    的头像 发表于 03-19 09:42 134次阅读

    飒特红外2023年售后服务工作报告

    这是飒特红外投身红外热像仪研制生产的第33个年头,这是飒特红外售后服务工作与合作伙伴共庆的第33个315。
    的头像 发表于 03-15 09:20 128次阅读
    飒特红外2023年售后服务<b class='flag-5'>工作报告</b>

    从政府工作报告看磁元件2024年机遇

    字越少,事越大!政府工作报告提到的2024年重点工作,对行业来说有哪些机会? 2024年3月5日,十四届全国人大二次会议在人民大会堂开幕,国务院总理李强作政府工作报告。 政府工作报告
    的头像 发表于 03-11 15:13 105次阅读

    总投资30亿!这条Micro LED产线预计下半年将完成量产线建设并出货

    WitDisplay消息,今年,新质生产力被写入中国政府工作报告,并被列为2024年政府工作十大任务的首位。这向行业和企业释放出鲜明信号,凸显出我国对加快发展新质生产力的重视和迫切。
    的头像 发表于 03-08 15:09 615次阅读

    快看!各地政府工作报告,重点提及这些MEMS传感器及芯片项目!

    近日,多个省市发布2024年工作报告,回顾一年取得的成绩并展望2024年工作安排。 近年来,半导体产业(集成电路芯片、智能传感器)等受到国家和各省市的高度重视,包括广东重庆浙江等省市2024
    的头像 发表于 02-20 08:41 35次阅读
    快看!各地政府<b class='flag-5'>工作报告</b>,重点提及这些MEMS传感器及芯片项目!

    盛思达荣获创新发展单位/2023年度推荐获评企业

    了2023年度深圳市教育装备行业协会工作,研究部署2024年度协会各项工作,审议第一届理事会工作报告、财务报告、第一届监事会工作报告;选举产
    的头像 发表于 12-29 08:02 153次阅读
    盛思达荣获创新发展单位/2023年度推荐获评企业

    MOS学习笔记-模型及工作原理

    最近在公司做电动车控制器坏机解析的工作中碰到了一些MOS损坏的机子。在以前的工作中虽然对MOS有一些应用,但是其中的工作原理还没有仔细的学习过,希望能通过
    发表于 10-16 15:18 499次阅读
    MOS<b class='flag-5'>学习</b>笔记-模型及<b class='flag-5'>工作</b>原理

    ICML 2023 | 对多重图进行解耦的表示学习方法

    Introduction 无监督多重图表示学习(UMGRL)受到越来越多的关注,但很少有工作同时关注共同信息和私有信息的提取。在本文中,我们认为,为了进行有效和鲁棒的 UMGRL,提取完整和干净
    的头像 发表于 09-24 20:45 661次阅读
    ICML 2023 | 对多重图进行解耦的<b class='flag-5'>表示</b><b class='flag-5'>学习</b>方法

    STM32Cube学习笔记

    STM32Cube学习笔记,步手把手带你进入STM32Cube的世界,包括点灯,按键,串口,ADC,DAC等等共16
    发表于 09-20 06:49

    评估报告:联想S3200存储阵列支持多个工作负载

    电子发烧友网站提供《评估报告:联想S3200存储阵列支持多个工作负载.pdf》资料免费下载
    发表于 08-30 09:31 0次下载
    评估<b class='flag-5'>报告</b>:联想S3200存储阵列支持多个<b class='flag-5'>工作</b>负载

    机器学习theta是什么?机器学习tpe是什么?

    解一下theta。在机器学习中,theta通常表示模型的参数。在回归问题中,theta可能表示线性回归的斜率和截距;在分类问题中,theta可能表示多项式模型的各项系数。这些参数通常是
    的头像 发表于 08-17 16:30 1231次阅读

    用Arm DS分析个流线报表示

    我们使用Streamline中包含的个示例报告。这些报告提供了种快速探索Streamline性能分析器功能的方法。本教程中使用的示例报告
    发表于 08-02 07:44

    2D Transformer 可以帮助3D表示学习吗?

    预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型,例如Vision Transformers (ViTs) 或者语言模型(如BERT)。
    的头像 发表于 07-03 10:59 445次阅读
    2D Transformer 可以帮助3D<b class='flag-5'>表示</b><b class='flag-5'>学习</b>吗?

    智造之眼丨深度学习应用

    智造之眼®科学设计深度学习各应用流程,在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。
    的头像 发表于 05-04 16:55 478次阅读
    智造之眼丨深度<b class='flag-5'>学习</b>应用