0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

我们对目前机器学习进展的衡量有多可靠?

jmiy_worldofai 来源:未知 作者:胡薇 2018-06-08 14:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们对机器学习的发展认识,很大程度上取决于少数几个标准基准,比如CIFAR-10,ImageNet或MuJoCo。

近年来人工智能发展,大的,比如一项又一项“超越人类水平”的进步,以及小的、甚至几乎每天都在发生的(这要感谢Arxiv),比如在各种论文中不断被刷新的“state-of-the-art”,无不让人感叹领域的蓬勃。

但是,实际情况或许并没有这么美好。

一项伯克利和MIT合作的新研究,对过去近十年中提出的一些经典分类器(比如VGG和ResNet)进行再测试后发现,由于测试集过拟合,很多分类器的精度实际并没有宣称的那么高;在新的数据集上测试结果表明,这些分类器的精度普遍都有下降,幅度4%~10%不等。

研究者表示,这一结果可以被视为证据,证明模型的精度这个数字是不可靠的,并且容易受到数据分布中微小的自然变化的影响。

这项新的研究也提出了一个值得反思的问题——我们目前用来衡量机器学习进展的手段和方法,究竟有多可靠?

重复使用相同的测试集,无法推广到新数据

作者在论文中写道,在过去五年里,机器学习已经成为一个实验领域。在深度学习的推动下,大多数发表的论文都采用了同一种套路,那就是看一种新的方法在几个关键基准上性能有多少提升。换句话说,就是简单粗暴地对比数值,很少有人去解释为什么。

而在对比数值的时候,大多数研究的评估都取决于少数几个标准的基准,例如CIFAR-10、ImageNet或MuJoCo。不仅如此,由于Ground truth的数据分布一般很难得到,所以研究人员只能在单独的测试集上评估模型的性能。

“现在,在整个算法和模型设计过程中,多次重复使用相同的测试集的做法已经被普遍接受。尽管将新模型与以前的结果进行比较是很自然的想法,但显然目前的研究方法破坏了分类器独立于测试集这一关键假设。”

这种不匹配带来了明显的危害,因为研究人员可以很容易地设计出只能在特定测试集上运行良好,但实际上无法推广到新数据的模型。

CIFAR-10可重复性实验:VGG、ResNet等经典模型精度普遍下降

为了审视这种现象造成的后果,研究人员对CIFAR-10以及相关分类器做了再调查。研究的主要目标是,衡量新进的分类器在泛化到来自相同分布的、未知新数据时能做得多好。

选择标准CIFAR-10数据集,是因为它透明的创建过程使其特别适合于这个任务。此外,CIFAR-10已经成为近10年来研究的热点,在调查适应性(adaptivity)是否导致过拟合这个问题上,它是一个很好的测试用例。

在实验中,研究人员首先用新的、确定是模型没有见过的大约2000幅图像,制作了一个新的测试集,并将新测试集的子类分布与原始 CIFAR-10 数据集仔细地做匹配,尽可能保持一致。

然后,在新测试集上评估了30个图像分类器的性能,包括经典的VGG、ResNet,最近新提出的ResNeXt、PyramidNet、DenseNet,以及在ICLR 2018发布的Shake-Drop,这个Shake-Drop正则化方法结合以前的分类器,取得了目前的state-of-art。

结果如下表所示。原始CIFAR-10测试集和新测试集的模型精度,Gap是两者精度的差异。ΔRank表示排名的变化,比如“-2”意味着在新测试集中的排名下降了两个位置。

由结果可知,新测试集上模型的精度相比原始测试集有明显下降。例如,VGG和ResNet这两个模型在原始数据集上准确率为93%,而在新测试集上降为了85%左右。此外,作者还表示,他们发现现有测试集上模型的性能相比新测试集更加具有预测性。

对于出现这种结果的原因,作者设定了多个假设并一一进行了讨论,除了统计误差、调参等之外,主要还是过拟合。

作者表示,他们的结果展现了当前机器学习进展令人意外的一面。尽管CIFAR-10测试集已经被不断适应(adapting)了很多年,但这种趋势并没有停滞。表现最好的模型仍然是最近提出的Shake-Shake网络(Cutout正则化)。而且,在新的测试集置上,Shake-Shake比标准ResNet的优势从4%增加到8%。这表明,瞄准一个测试集猛攻的研究方法对过拟合而言是十分有效的。

同时,这个结果也对当前分类器的鲁棒性提出了质疑。尽管新数据集只做了微小的改变(分布转移),但现有的被广泛使用的模型,分类准确性普遍显著下降。例如,前面提到的VGG和ResNet的精度损失对应于CIFAR-10的多年进展。

作者特别指出,他们的实验引起的分布转移(distributional shift)既不是对抗性的(adversarial),也不是不同数据源导致的结果。因此,即使在良性环境中,分布转移也会带来严峻的挑战,研究人员需要思考,目前的模型真正能泛化到什么程度。

机器学习研究也需要注意可重复性

Python Machine Learning 一书作者Sebastian Raschka评论这项研究认为,它再次提醒机器学习研究人员注意测试集重复使用(以及违背独立性)的问题。

谷歌大脑研究科学家、Twitter账户hardmaru表示,对机器学习研究进行可靠评估的方法十分重要。他期待见到有关文本和翻译的类似研究,并查看PTB,wikitext,enwik8,WMT'14 EN-FR,EN-DE等结构如何从相同分布转移到新的测试集。

不过,hardmaru表示,如果在PTB上得到类似的结果,那么对于深度学习研究界来说实际上是好事,因为在PTB这个小数据集上进行超级优化的典型过程,确实会让人发现泛化性能更好的新方法。

作者表示,未来实验应该探索在其他数据集(例如ImageNet)和其他任务(如语言建模)上是否同样对过拟合具有复原性。此外,我们应该了解哪些自然发生的分布变化对图像分类器具有挑战性。

为了真正理解泛化问题,更多的研究应该收集有洞察力的新数据并评估现有算法在这些数据上的性能表现。类似于招募新参与者进行医学或心理学的可重复性实验,机器学习研究也需要对模型性能的可重复多做研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    254

    浏览量

    25036
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137224

原文标题:十年机器学习结果不可靠?伯克利&MIT研究质疑了30个经典模型

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构先进、算法精妙,数
    的头像 发表于 04-24 15:48 39次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的数据质量双保障:从“验证”到“标记”

    无线通信技术核心定位从 “速度竞赛” 转向超高可靠

    景赋能:从消费到工业的全面升级 Wi-Fi 8的超高可靠性,让无线连接深度渗透高要求场景: 工业自动化 :支撑协作机器人、AGV等设备毫秒级低时延、零丢包通信,实现无线替代有线,助力柔性生产与无人
    发表于 04-23 17:31

    上海光机所在激光焊接过程监测方面取得新进展

    图 1 用于熔透状态分类的模态机器学习框架(Fusion-XGBNet) 近日,中科院上海光机所高端光电装备部激光智能制造技术研发中心杨上陆研究员团队,在激光焊接过程监测方面取得进展
    的头像 发表于 04-01 06:40 94次阅读
    上海光机所在激光焊接过程监测方面取得新<b class='flag-5'>进展</b>

    芯光缆技术进展与挑战

    芯光缆作为光通信领域的一项前沿技术,近年来取得了显著进展,不仅推动了通信容量的飞跃,也为未来通信网络的发展开辟了新路径。然而,任何技术的发展都不是一帆风顺的,芯光缆同样面临着诸多挑战。 技术
    的头像 发表于 03-16 09:56 280次阅读

    智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是智能体强化学习
    的头像 发表于 01-21 16:21 328次阅读
    <b class='flag-5'>多</b>智能体强化<b class='flag-5'>学习</b>(MARL)核心概念与算法概览

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要
    的头像 发表于 01-07 15:37 350次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    Progress-Think框架赋能机器人首次实现语义进展推理

    在视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么阶段,因此容易漂移、兜圈,或做出难以解释的决策。我们认为,引入语义
    的头像 发表于 12-03 09:27 454次阅读
    Progress-Think框架赋能<b class='flag-5'>机器</b>人首次实现语义<b class='flag-5'>进展</b>推理

    应用光谱数字图像区分苗期作物与杂草的研究进展

    处理与机器学习算法,为自动化、智能化的杂草管理提供了新思路。本文综述该技术的研究现状、核心方法、挑战及未来发展方向。 技术原理与方法 1. 光谱成像技术 光谱成像(Multispe
    的头像 发表于 10-21 15:25 477次阅读

    光谱图像颜色特征用于茶叶分类的研究进展

    光谱成像技术结合颜色特征分析为茶叶分类提供了高效、非破坏性的解决方案。本文系统综述了该技术的原理、方法、应用案例及挑战,探讨了其在茶叶品质分级、品种识别和产地溯源中的研究进展,并展望了未来发展方向
    的头像 发表于 10-17 17:09 764次阅读
    <b class='flag-5'>多</b>光谱图像颜色特征用于茶叶分类的研究<b class='flag-5'>进展</b>

    上海光机所在波长同步皮秒光纤激光器方面取得进展

    图1 实验装置示意图 近期,中国科学院上海光学精密机械研究所空天激光技术与系统部周佳琦研究员团队,在波长同步皮秒光纤激光器方面取得进展。相关成果以“Synchronized
    的头像 发表于 09-22 09:21 622次阅读
    上海光机所在<b class='flag-5'>多</b>波长同步皮秒光纤激光器方面取得<b class='flag-5'>进展</b>

    集成摩川磁性编码器的伺服电机与机器人关节设计创新

    起着决定性作用。今天,我们就来聊聊集成摩川磁性编码器的伺服电机与机器人关节的设计创新,这可是机器人领域里的一项大突破!
    的头像 发表于 08-28 18:23 945次阅读

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3095次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练数据来掌握诸如组装和检查之类的技能,而手动演
    的头像 发表于 07-14 11:49 1273次阅读
    通过NVIDIA Cosmos模型增强<b class='flag-5'>机器人学习</b>

    机器学习赋能的智能光子学器件系统研究与应用

    腾讯会议---六月直播 1.机器学习赋能的智能光子学器件系统研究与应用 2.COMSOL声学物理场仿真技术与应用 3.超表面逆向设计及前沿应用(从基础入门到论文复现) 4.智能光学计算成像技术
    的头像 发表于 06-04 17:59 761次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知和自主导航的核心技术了更深入的理解。以下是我
    发表于 05-03 19:41