0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新方法:用知识蒸馏给数据集瘦身

OpenCV学堂 来源:量子位 作者:量子位 2022-07-10 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


	

这两天,推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金(折合人民币约167万元),悬赏什么任务能让模型越大、性能反而越差。

b24de934-fecc-11ec-ba43-dac502259ad0.png

评论区里已经讨论得热火朝天了。

b267ad60-fecc-11ec-ba43-dac502259ad0.png

不过这事儿倒也不是单纯整活,而是为了进一步探索大模型。

毕竟,这两年大家越发意识到,AI模型不能单纯比“大”。

一方面,随着模型的规模越来越大,训练付出的成本开始呈现指数型增长;

b2793e72-fecc-11ec-ba43-dac502259ad0.jpg

另一方面,模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增量。

比如对于Transformer而言,交叉熵损失想要从3.4奈特降低到2.8奈特,就需要原本10倍量的训练数据。

针对这些问题,AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们,最近想到了从数据集上切入。

他们提出,对数据集进行知识蒸馏,使得数据集规模虽小,但还能保持模型性能不下降。

实验验证,在剪掉ImageNet 20%的数据量后,ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示,这也为AGI实现找出了一条新路子。

b2845424-fecc-11ec-ba43-dac502259ad0.png

超大数据集的效率并不高

本文提出的办法,其实就是对原本的数据集进行优化精简。

研究人员表示,过去许多方法都表明,许多训练示例是高度冗余的,理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标,可以根据训练示例的难度或重要性对它们进行排序,并通过保留其中一些难度高的示例,就能完成数据修剪。

基于前人的发现和研究,此次学者们进一步提出了一些可具体操作的方法。

首先,他们提出了一种数据分析方法,可以让模型只学习部分数据,就能实现同等的性能。

b2956eb2-fecc-11ec-ba43-dac502259ad0.png

通过数据分析,研究人员初步得出结论:

一个数据集怎样修剪效果最好?这和它本身的规模有关。

初始数据量越多,越应该保留难度高的示例;

初始数据量越少,则应该保留难度低的示例。

b29f7cfe-fecc-11ec-ba43-dac502259ad0.png

而在保留困难示例进行数据修剪后,模型和数据规模的对应关系,可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下,还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源,从一种分配状态调整到另一种分配状态,在没有使任何一个人变差的前提下,至少使得一个人变得更好。

在本文中,调整分配状态即可理解为,修剪多少比例的数据集。

然后,研究人员进行了实验来验证这一理论。

b2c326f4-fecc-11ec-ba43-dac502259ad0.png

从实验结果来看,当数据集越大,修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上,ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到,数据集规模保留80%的情况下,和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来,研究人员聚焦在ImageNet上,对10种不同情况进行了大规模基准测试。

结果表明,随机修剪以及一些修剪指标,在ImageNet上的表现并不够好。

b2d27fbe-fecc-11ec-ba43-dac502259ad0.png

所以更进一步,研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏(教师学生模型),这是模型压缩的一种常见方法。

b2e464fe-fecc-11ec-ba43-dac502259ad0.png

结果显示,在自监督方法下,它在找数据集中简单/困难示例上的表现都还不错。

b2f3c05c-fecc-11ec-ba43-dac502259ad0.png

使用自监督方法修剪数据后,正确率明显提高(图C中浅蓝色线)。

b308ec34-fecc-11ec-ba43-dac502259ad0.png

还存在一些问题

不过在论文中,研究人员也提到,虽然通过如上方法可以在不牺牲性能的情况下修剪数据集,但是有些问题仍旧值得关注。

比如数据集缩小后,想要训练出同等性能的模型,需要的时间可能会更长。

因此,在进行数据集修剪时,应该平衡缩减规模和训练增长时间两方面因素。

与此同时,对数据集进行修剪,势必会丧失一些群体的样本,由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli,是量子神经网络科学家。

论文地址: https://arxiv.org/abs/2206.14486

审核编辑 :李倩
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108160
  • AI
    AI
    +关注

    关注

    91

    文章

    41073

    浏览量

    302573
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261

原文标题:剪掉ImageNet 20%数据量,模型性能不下降!Meta斯坦福等提出新方法,用知识蒸馏给数据集瘦身

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新方法利用紧凑型平面透镜产生非衍射瓶状光束

    一类是贝塞尔光束,它通过激光束在空间传播时的自干涉产生。然而,理想的贝塞尔光束具有复杂的环状结构,这实际应用带来了不便。此外,现有的用于生成高级光束形状(如光学瓶状光束)的方法通常需要复杂且昂贵的装置,且必须进
    的头像 发表于 04-10 07:05 44次阅读
    <b class='flag-5'>新方法</b>利用紧凑型平面透镜产生非衍射瓶状光束

    用于窄带匹配高速射频ADC的全新方法

    本期,为大家带来的是《用于窄带匹配高速射频 ADC 的全新方法》,介绍了一种用于窄带匹配高速射频 ADC 的全新方法,以解决高中间频率系统中 ADC 前端窄带匹配的设计难题,可在 ADC 额定带宽内应用,能提升 ADC 性能、减少模拟停机时间。
    的头像 发表于 01-04 15:56 7553次阅读
    用于窄带匹配高速射频ADC的全<b class='flag-5'>新方法</b>

    奥松电子荣获2025年中国创新方法大赛全国总决赛二等奖

    2025年11月18日-21日,2025年中国创新方法大赛总决赛在山东省泰安市成功举办。国内MEMS智能传感器与半导体关键零部件领域的国家级专精特新“小巨人”企业——广州奥松电子股份有限公司,凭借
    的头像 发表于 12-05 15:17 711次阅读

    海康威视荣获2025年中国创新方法大赛总决赛金奖

    近日,2025年中国创新方法大赛圆满落幕。海康威视凭借《工业听诊师——超长距离皮带运输机托辊声纹监测系统》项目脱颖而出,斩获全国总决赛唯一金奖。
    的头像 发表于 12-04 10:55 597次阅读

    奥松半导体荣获2025中国创新方法大赛重庆赛区二等奖

    近日,2025年中国创新方法大赛(重庆赛区)暨第八届重庆市创新方法大赛圆满落幕。本届大赛以“培育创新人才,服务产业发展”为主题,旨在激发企业创新活力,推动科技创新与产业创新深度融合。大赛由重庆市科协
    的头像 发表于 11-19 11:34 974次阅读
    奥松半导体荣获2025中国创<b class='flag-5'>新方法</b>大赛重庆赛区二等奖

    奥松两项创新技术荣获2025中国创新方法大赛广东赛区一等奖

    近日,在2025年中国创新方法大赛广东区域赛中,广州奥松电子股份有限公司的《基于TRIZ的新一代气体质量流量控制器》与旗下子公司广州奥坤科技有限公司的《TRIZ驱动的智能终端全生命周期运维创新》两个
    的头像 发表于 10-30 18:58 844次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、新方法实现深度学习AI芯片 1、基于开源RISC-V的AI加速器 RISC-V是一种开源、模块化的指令架构(ISA)。优势如下: ①模块化特性②标准接口③开源
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    、集成芯片、分子器件与分子忆阻器,以及打印类脑芯片等。 第五章至第八章分别探讨化学或生物方法实现AI、AI在科学发现中创新应用、实现神经形态计算与类脑芯片的创新方法,以及具身智能芯片。 第九章
    发表于 09-05 15:10

    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的新方法

    、环境光干扰及薄膜倾斜等因素限制,测量精度难以满足高精度工业需求。为此,本研究提出一种融合红外干涉与激光校准的薄膜厚度测量新方法,旨在突破传统技术瓶颈,实现更精准、
    的头像 发表于 07-21 18:17 3143次阅读
    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的<b class='flag-5'>新方法</b>

    熔池监测的创新方法

    先进监控技术,如热成像和机器视觉,提升焊接工艺精度,实现对熔池、焊缝等特征的精准分析与跟踪。
    的头像 发表于 07-18 09:49 681次阅读
    熔池监测的创<b class='flag-5'>新方法</b>

    高光谱成像技术:植物“看病”的新“眼睛”——作物病虫害监测新方法

    想象一下,不用走到田里一片片叶子检查,也不用等作物明显枯萎了才发现问题,而是通过“看”作物反射的光线,就能早期发现它是不是生病或长虫了。这就是 光谱技术在作物病虫害监测 上的神奇应用!它就像植物
    的头像 发表于 07-11 17:39 1213次阅读
    高光谱成像技术:<b class='flag-5'>给</b>植物“看病”的新“眼睛”——作物病虫害监测<b class='flag-5'>新方法</b>

    无刷直流电机转矩脉动抑制新方法

    转矩脉动是影响无剧直流电机在高精度伺服系统中应用的主要原因。提出了一种基于a-p变换和Lyapunov函数的转矩脉动抑制直接功率控制方法。该方法在a-β坐标系下通过功率控制优化了电磁有功功率和电磁
    发表于 07-09 14:12

    无刷直流电机滑模观测器参数优化设计方法

    摘要:滑模反电势观测器的增益参数会影响观测器的收敛速度以及动态响应性能,常见的设计方法是基于观测器稳定性理论进行设计。提出一种利用遗传算法在稳定域内搜索观测误差最小的增益参数的新方法,既减少了参数
    发表于 06-27 16:48

    无刷直流电机反电势过零检测新方法

    新方法。在三相采样等效电路上分别并联一组三极管控制的电阻分压开关电路,参考电机转速线性调节控制信号占空比,以此控制三极管通断,从而调节电阻分乐开关电路阻值,可以避免高速时反电势幅值高于检测电路供电电压
    发表于 06-26 13:50

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04