0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇解决表示学习坍塌问题的工作报告

深度学习自然语言处理 来源:圆圆的算法笔记 作者:Fareise 2022-08-31 11:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1 表示学习中的坍塌问题

在表示学习中,一种很常见的做法是利用孪生网络的结构,让同一个样本的不同数据增强后的表示相似。比如对于一张图像,使用翻转、裁剪等方法生成另一个增强图像,两个图像分别经过两个共享参数的编码器,得到表示,模型的优化目标是让这两个表示的距离近。

这种方法一个比较大的挑战在于,模型在训练过程中容易出现坍塌问题。模型可以把所有样本的表示都学成完全相同的常数向量(比如每个样本模型的输出都是全0向量),这样就能满足上述两个表示距离近的要求了。

2 解决坍塌问题的方法

业内有很多解决坍塌问题的方法,主要可以分为4种类型:

对比学习方法:在训练一对正样本对时,同时采样大量的负样本,让正样本之间离得近,负样本之间离得远,避免模型偷懒把所有样本的表示都学成一样的。

聚类方法:在训练过程中增加一个聚类过程,将样本分配给不同的类簇,然后在类簇级别进行对比学习。

基于蒸馏的方法:通过模型结构的角度避免坍塌问题,学习一个student network来预测teacher network的表示,teacher network是student network参数的滑动平均,teacher network不通过反向传播更新参数。

信息最大化方法:让生成的embedding中每一维的向量相互正交,使其信息量最大化,这样可以避免各个维度的值信息过于冗余,防止坍塌问题。

目前常用的负样本采样方法,一个比较大的问题是计算开销大,取得好的效果往往需要大量负样本,因此有了MoCo等对比学习框架。本文提出的方法基于信息最大化的思路,能够只使用正样本对实现表示学习的同时,防止坍现象的发生。关于对比学习的常用经典方法,可以参考这篇文章:对比学习中的4种经典训练模式

3 信息最大化方法历史工作

基于信息最大化的方法典型的工作有两篇ICLM 2021的文章,分别是Whitening for Self-Supervised Representation Learning(ICML 2021,W-MSE)Barlow twins: Self-supervised learning via redundancy reduction(ICML 2021)。下面介绍一下这两篇文章的整体思路,Facebook的这篇论文也是基于这个思路设计的。

d3146b2a-284d-11ed-ba43-dac502259ad0.png

W-MSE的整体网络结构如上图,模型中输入一对互为正样本的样本对(例如一个图像的不同增强形式),使用共享参数Encoder分别编码后,增加一个whitening模块,对每个batch内的所有embedding进行白化,让embedding的各个维度变量线性无关,后面再接norm处理。下图形式化表明了W-MSE的用途,通过白化+norm让样本形成一个球形分布,正样本之间距离近,每个样本需要调整自己在圆周上的位置拉进正样本之间的距离,形成最终的簇。

d33098f4-284d-11ed-ba43-dac502259ad0.png


Barlow twins方法也是同样的思路,只是做法不同。在得到一对正样本的两个embedding后,计算两个向量各个变量之间的相关性矩阵,优化这个矩阵接近对角矩阵,以此实现embedding中各个变量之间线性无关。

d3550ca2-284d-11ed-ba43-dac502259ad0.png

4 VICREG

Facebook团队提出的VICREG是上述基于信息最大化表示学习方法的一个扩展,损失函数主要包括variance、invariance、covariance三个部分。模型的主体结构如下,仍然是一个孪生网络结构,输入一个样本的不同view互为正样本。

d370b272-284d-11ed-ba43-dac502259ad0.png

variance部分主要是让batch内每个样本embedding向量的每一维变量之间的方差不小于一个值,这样可以有效防止每个样本的向量都对应同一个点的情况,防止坍塌的发生。

invariance部分即让正样本对的表示embedding距离尽可能小,是正常的表示学习loss。

covariance借鉴了Barlow twins中的思路,让batch内的embedding非对角线元素尽可能为0,即让表示向量各个维度变量线性无关。

最终的表示学习loss是由上述3个loss的加和:

d3817d8c-284d-11ed-ba43-dac502259ad0.png

5 实验结果

作者进行了一些实验验证VICREG表示学习方法的效果。在ImageNet数据集上,使用不同方法预训练的表示接一个线性层进行分类,或者基于预训练的表示使用部分数据进行finetune,对比图像分类效果,实验结果如下:

d38f8f9e-284d-11ed-ba43-dac502259ad0.png

作者也对比了在不同方法上是否采用variance或covariance等loss的效果变化:

d3a9c04e-284d-11ed-ba43-dac502259ad0.png

6 总结

本文介绍了Facebook AI团队在2022年ICLR的一篇解决表示学习坍塌问题的工作,顺带介绍了基于信息最大化的防坍塌工作,有助于帮助我们更深层次理解表示学习的原理,以及如何解决实际应用表示学习、对比学习时遇到的坍塌问题。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 矩阵
    +关注

    关注

    1

    文章

    441

    浏览量

    35817
  • Network
    +关注

    关注

    0

    文章

    64

    浏览量

    30442

原文标题:ICLR2022 | Facebook AI提出解决表示学习坍塌问题新方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    施耐德电气联合发布2025零碳园区行业影响力洞察报告

    今年,“零碳园区”首次被写入政府工作报告,正式迈入规模化发展“元年”,园区作为产业发展的重要载体,其绿色低碳转型成为了“双碳”目标实现的强有力抓手。
    的头像 发表于 11-26 11:43 441次阅读

    【「高速数字设计(基础)」阅读体验】 + 书籍评测第一篇

    者系统深刻地学习与理解高速数字设计有着非常实用的价值! 最后,本人主要是做PCB设计方面的工作,收到本书后,优先阅读了关于高速PCB设计的内容,感到十分兴奋!为什么呢,请听我细细道来。阅读第八章电源
    发表于 11-09 10:31

    广电计量打造适航取证与试验验证新高地

    2025 年政府工作报告明确提出,“开展新技术新产品新场景大规模应用示范行动,推动商业航天、低空装备等新兴产业安全健康发展”。作为新质生产力的典型代表,低空产业连续两年被写入政府工作报告,从 “积极打造” 到 “推动应用落地”,低空产业已进入规模化发展的关键窗口期。
    的头像 发表于 09-01 16:27 1423次阅读
    广电计量打造适航取证与试验验证新高地

    章 W55MH32 高性能以太网单片机的学习方法概述

    本章介绍W55MH32的学习方法,建议先了解硬件资源,按基础、入门循序渐进学习。参考两份手册,提供例程资料,还给出官网、github 等学习
    的头像 发表于 05-26 09:07 550次阅读
    第<b class='flag-5'>一</b>章 W55MH32 高性能以太网单片机的<b class='flag-5'>学习</b>方法概述

    1000+例各类获奖电赛作品资料集(电路、代码、教程文末免费领取)

    本资料汇集了历届电赛的优秀获奖作品,并对所有作品资料进行仔细分类方便用户们选择学习,是套价值极高的参考学习资料,适合每位电子爱好者、电子工程师和对电赛感兴趣的学生,相信通过这套资料
    的头像 发表于 05-22 11:41 543次阅读
    1000+例各类获奖电赛作品资料集(电路<b class='flag-5'>篇</b>、代码<b class='flag-5'>篇</b>、教程<b class='flag-5'>篇</b>文末免费领取)

    180发烧功放制作学习资料【经典】

    一百多经典学习资料,部分资料内容截取: 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持下哦~)
    发表于 05-19 16:38

    【「零基础开发AI Agent」阅读体验】+ 入门学习

    的是基础,主要从为什么要学习AI Agent和开发AI Agent的知识储备入手进行介绍。作为入门AI Agent的小白还是很有必要学习的。这里将些重要观点作个归纳 1.AI Ag
    发表于 05-02 09:26

    STM32Cube学习笔记 (十六全)

    资料介绍: STM32Cube学习笔记,步手把手带你进入STM32Cube的世界,包括点灯,按键,串口,ADC,DAC等等共16
    发表于 03-22 17:02

    两会定调!2025政府工作报告未提“安防”二字,但......

    《2025政府工作报告》发布,安防行业将迎来多项工作任务。智能家居、消费安防、智慧养老和AI产业应用将推动行业发展。政府将出台多项补贴政策,为安防企业提供市场机遇。
    的头像 发表于 03-13 09:28 719次阅读

    6G首次进入政府工作报告2025是关键之年

    行业资讯
    电子发烧友网官方
    发布于 :2025年03月06日 11:35:38

    AI看点:中国AI人才缺口达500万人 政府工作报告:支持AI大模型广泛应用

    业界既需要技术和理论创新型AI人才,也需要能够结合各行业实际需求的实操型AI人才。相关人才将迎来更广阔的发展空间。 政府工作报告:支持AI大模型广泛应用 正值两会期间,我们看到AI备受关注,在今年的政府工作报告中提出,激发数字经济创新活力。
    的头像 发表于 03-05 14:59 1151次阅读

    2025年,多地筹谋集成电路产业

    来源:中国电子报  近日,全国各省(市)纷纷发布2025政府工作报告,总结2024工作,并提出2025年工作总体要求和重点任务。其中,多地对集成电路产业做出规划。 北京:推动集成电路重点项目产能爬坡
    的头像 发表于 01-28 13:21 3346次阅读

    广电计量新年首深度研究报告出炉

    新年伊始,广电计量首深度研究报告出炉,公司凭借全面发展的企业实力和资本市场的优异表现在新的年获得资本市场的认可。
    的头像 发表于 01-03 11:31 1059次阅读

    中国发展报告:我国是无人机第大技术来源国

    电子发烧友网报道(文/吴子鹏)近日,国务院发展研究中心撰写并在京发布的《中国发展报告2024》显示,与发展新质生产力相适应的新型生产关系正加快完善。比如低空经济,从20多个省份将其写入政府工作报告
    的头像 发表于 01-03 00:17 5685次阅读

    广电计量助力第二届低空科技发展大会区顺利举办

    低空经济是新质生产力的典型代表,也将是中国经济新的增长点,其战略意义重大,发展前景广阔。今年年初低空经济在全国两会上作为“新增长引擎”写入政府工作报告。2024年伊始,低空经济被写入陕西省政府工作报告,陕西低空经济发展迎来全新机遇。
    的头像 发表于 12-24 11:23 1030次阅读