首页
技术

可编程逻辑

MEMS/传感技术

嵌入式技术

模拟技术

控制/MCU

处理器/DSP

存储技术

EMC/EMI设计

电源/新能源

测量仪表

制造/封装

RF/无线

接口/总线/驱动

EDA/IC设计

光电显示

连接器

PCB设计

LEDs

汽车电子

医疗电子

人工智能

可穿戴设备

军用/航空电子

工业控制

触控感测

智能电网

音视频及家电

通信网络

机器人

vr|ar|虚拟现实

安全设备/系统

移动通信

便携设备

物联网

区块链

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充电桩

氮化镓

BLDC

逆变器

5G

电机控制
资源

技术文库

新品速递

电路图

元器件知识

电子百科

最新技术文章

元器件搜索引擎
下载

在线工具

常用软件

电子书

datasheet
专栏

电子说

专栏
社区

论坛

问答

小组

技术专栏

社区之星

试用中心

HarmonyOS技术社区

2023电子工程师大会
研究院
活动

设计大赛

硬创大赛

社区活动

线下会议

在线研讨会

小测验
学院

直播

课程
视频
企业号
工具

datasheet查询

免费评测试用

技术子站

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

新方法：用知识蒸馏给数据集瘦身

这两天，推特上一个任务悬赏火得一塌糊涂。

一家AI公司提供25万美金（折合人民币约167万元），悬赏什么任务能让模型越大、性能反而越差。

评论区里已经讨论得热火朝天了。

不过这事儿倒也不是单纯整活，而是为了进一步探索大模型。

毕竟，这两年大家越发意识到，AI模型不能单纯比“大”。

一方面，随着模型的规模越来越大，训练付出的成本开始呈现指数型增长；

另一方面，模型性能的提升也已经逐渐到达瓶颈期，哪怕想要让误差再下降1%，都需要更多的数据集增量和计算增量。

比如对于Transformer而言，交叉熵损失想要从3.4奈特降低到2.8奈特，就需要原本10倍量的训练数据。

针对这些问题，AI学者们已经在从各种方向上找解决路子了。

Meta斯坦福的学者们，最近想到了从数据集上切入。

他们提出，对数据集进行知识蒸馏，使得数据集规模虽小，但还能保持模型性能不下降。

实验验证，在剪掉ImageNet 20%的数据量后，ResNets表现和使用原本数据时的正确率相差不大。

研究人员表示，这也为AGI实现找出了一条新路子。

超大数据集的效率并不高

本文提出的办法，其实就是对原本的数据集进行优化精简。

研究人员表示，过去许多方法都表明，许多训练示例是高度冗余的，理论上可以把数据集“剪”得更小。

而且最近也有研究提出了一些指标，可以根据训练示例的难度或重要性对它们进行排序，并通过保留其中一些难度高的示例，就能完成数据修剪。

基于前人的发现和研究，此次学者们进一步提出了一些可具体操作的方法。

首先，他们提出了一种数据分析方法，可以让模型只学习部分数据，就能实现同等的性能。

通过数据分析，研究人员初步得出结论：

一个数据集怎样修剪效果最好？这和它本身的规模有关。

初始数据量越多，越应该保留难度高的示例；

初始数据量越少，则应该保留难度低的示例。

而在保留困难示例进行数据修剪后，模型和数据规模的对应关系，可以打破幂律分布。

常被提起的二八定律就是基于幂律提出的。

即20%的数据会影响80%的结果。

同时在此情况下，还能找到一个处于帕累托最优的下的极值。

这里所说的帕累托最优是指资源分配的一种理想状态。

它假设固定有一群人和可分配的资源，从一种分配状态调整到另一种分配状态，在没有使任何一个人变差的前提下，至少使得一个人变得更好。

在本文中，调整分配状态即可理解为，修剪多少比例的数据集。

然后，研究人员进行了实验来验证这一理论。

从实验结果来看，当数据集越大，修剪后的效果就越明显。

在SVHN、CIFAR-10、ImageNet几个数据集上，ResNet的错误率总体和数据集修剪规模呈反比。

在ImageNet上可以看到，数据集规模保留80%的情况下，和原本数据集训练下的错误率基本相同。

这一曲线也逼近了帕累托最优。

接下来，研究人员聚焦在ImageNet上，对10种不同情况进行了大规模基准测试。

结果表明，随机修剪以及一些修剪指标，在ImageNet上的表现并不够好。

所以更进一步，研究人员还提出了一种自监督方法来修剪数据。

也就是知识蒸馏（教师学生模型），这是模型压缩的一种常见方法。

结果显示，在自监督方法下，它在找数据集中简单/困难示例上的表现都还不错。

使用自监督方法修剪数据后，正确率明显提高（图C中浅蓝色线）。

还存在一些问题

不过在论文中，研究人员也提到，虽然通过如上方法可以在不牺牲性能的情况下修剪数据集，但是有些问题仍旧值得关注。

比如数据集缩小后，想要训练出同等性能的模型，需要的时间可能会更长。

因此，在进行数据集修剪时，应该平衡缩减规模和训练增长时间两方面因素。

与此同时，对数据集进行修剪，势必会丧失一些群体的样本，由此也可能造成模型在某一个方面出现弊端。

在这方面会容易引起道德伦理方面的问题。

研究团队

本文作者之一Surya Ganguli，是量子神经网络科学家。

论文地址： https://arxiv.org/abs/2206.14486

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4842

浏览量
108160
AI

AI

+关注

关注
91

文章
41073

浏览量
302573
数据集

数据集

+关注

关注
4

文章
1240

浏览量
26261

原文标题：剪掉ImageNet 20%数据量，模型性能不下降！Meta斯坦福等提出新方法，用知识蒸馏给数据集瘦身

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

评论

电子发烧友

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

电子发烧友

关于我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

张迎辉：mikezhang@elecfans.com

关注我们的微信

下载发烧友APP

机器人发烧友

版权所有 © 长沙勒克斯教育咨询有限公司

湖南省长沙市开福区月湖街道匍园路20号聚恒科技园1栋2301-1房
电子发烧友 （电路图） 电信与信息服务业务经营许可证：湘B2-20260003 湘ICP备2023036445号-105-1