0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中赋予了什么数学意义

姚小熊27 来源:雷锋网 作者:雷锋网 2020-10-14 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习中的用于声称性能的指标标准很少被讨论。由于在这个问题上似乎没有一个明确的、广泛的共识,因此我认为提供我一直在倡导并尽可能遵循的标准可能会很有趣。它源于这个简单的前提,这是我的科学老师从中学开始就灌输给我的:

科学报告的一般规则是,您写下的每个数字都应为“真”的,因为“真”的定义是什么。

让我们来研究一下这对测试性能等统计量意味着什么。当你在科学出版物中写下以下陈述时:

测试准确率为52.34%。你所表达的是,据你所知,你的模型在从测试分布中提取的未见数据上成功的概率在0.52335和0.52345之间。

这是一个非常强有力的声明。

考虑你的测试集是从正确的测试分布中抽取的N个样本IID组成的。成功率可以表示为一个二项式变量,其平均概率p由样本平均值估计:p≅s/N

其标准差为:σ=√p(1-p)。

其中当p=0.5时,其上限为0.5。

在正态近似下,估计量的标准差为:δ=σ/√N。

这个精度估计上的误差δ是这样的,在最坏的情况下,有约50%的精度:

换句话说,为了保证上述报告中例子52.34%的准确率,你的测试集的大小至少应该在30M样本的数量级上!这种粗略的分析很容易转化为除了准确率以外的任何可计算的数量,尽管不能转化为像似然率或困惑度这样的连续数字。

下面是一些常见的机器学习数据集的说明。

在ImageNet上可以合理地报告多少位数的精度?准确率在80%左右,测试集是15万张图片:

√(0.8*0.2/150000)=0.103%

这意味着你几乎可以报告XX.X%的数字,而实际上每个人都是这样做的。

MNIST呢,准确率在99%:

√(0.99*0.01/10000)=0.099%

噗,也报个XX.X%就OK了!

然而,最值得注意的是,在大多数情况下,性能数据并不是单独呈现的,而是用来比较同一测试集上的多种方法。在这种情况下,实验之间的抽样方差会被抵消,即使在样本量较小的情况下,它们之间的准确度差异也可能在统计学上很显著。估计图方差的一个简单方法是执行bootstrap重采样。更严格、通常更严格的检验包括进行配对差异检验或更普遍的方差分析。

报告超出其内在精度的数字可能很具有极大的吸引力,因为在与基线进行比较的情况下,或者当人们认为测试集是一成不变的情况下,同时也不是从测试分布中抽取的样本时,性能数字往往更加重要。当在生产中部署模型时,这种做法会让人感到惊讶,并且固定的测试集假设突然消失了,还有一些无关紧要的改进。更普遍的是,这种做法会直接导致对测试集进行过拟合。

那么,在我们的领域中数字为“真”意味着什么?好吧,这确实很复杂。对于工程师而言,很容易辩称不应该报告的尺寸超出公差。或者对于物理学家来说,物理量不应超过测量误差。对于机器学习从业者,我们不仅要应对测试集的采样不确定性,而且还要应对独立训练运行,训练数据的不同初始化和改组下的模型不确定性。

按照这个标准,在机器学习中很难确定哪些数字是“真”的。解决办法当然是尽可能地报告其置信区间。置信区间是一种更精细的报告不确定性的方式,可以考虑到所有随机性的来源,以及除简单方差之外的显着性检验。它们的存在也向你的读者发出信号,表明你已经考虑过你所报告的内容的意义,而不仅仅是你的代码所得到的数字。用置信区间表示的数字可能会被报告得超出其名义上的精度,不过要注意的是,你现在必须考虑用多少位数来报告不确定性,正如这篇博文所解释的那样。一路走来都是乌龟。

数字少了,杂乱无章的东西就少了,科学性就强了。

避免报告超出统计学意义的数字结果,除非你为它们提供一个明确的置信区间。这理所当然地被认为是科学上的不良行为,尤其是在没有进行配对显著性测试的情况下,用来论证一个数字比另一个数字好的时候。仅凭这一点就经常有论文被拒绝。一个良好的习惯是对报告中带有大量数字的准确率数字始终持怀疑态度。还记得3000万、30万和30万的经验法则对最坏情况下作为“嗅觉测试”的统计显著性所需样本数量的限制吗?它会让你避免追逐统计上的“幽灵”。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据处理两个
    的头像 发表于 04-24 15:48 65次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>中</b>的数据质量双保障:从“验证”到“标记”

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与
    的头像 发表于 02-04 14:44 685次阅读

    赋予机器人灵动双眸:匠芯创D13x系列芯片在AI陪伴机器人中的创新应用

    在人工智能浪潮席卷全球的今天,AI陪伴机器人正从科幻概念加速走入现实生活。无论是家庭的智能玩伴、养老机构的情感陪护助手,还是教育场景的智能导师,机器人不再仅仅是执行指令的工具,而是被赋予
    的头像 发表于 02-02 19:30 1033次阅读
    <b class='flag-5'>赋予</b><b class='flag-5'>机器</b>人灵动双眸:匠芯创D13x系列芯片在AI陪伴<b class='flag-5'>机器</b>人中的创新应用

    避繁就简!商汤日日新大模型灵性巧解数学难题,获赞“机器的审美”

    、字节跳动,让数学与AI同台碰撞,开展一场真刀真枪的“图灵测试”。 现场,面对数学家抛出的难题,商汤科技“日日新”大模型在解答复分析计算积分、微分几何证明等问题中,展示惊人的进化力
    的头像 发表于 01-12 11:41 426次阅读
    避繁就简!商汤日日新大模型灵性巧解<b class='flag-5'>数学</b>难题,获赞“<b class='flag-5'>机器</b>的审美”

    机器学习和深度学习需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b><b class='flag-5'>中</b>需避免的 7 个常见错误与局限性

    《AI机器人控制进阶教程(入门版)》阅读指引

    的预编程,只能在结构化环境工作。AI的引入(如计算机视觉、自然语言处理),赋予机器人感知、理解和决策的能力,使其能适应开放、动态的真实世界。2.解决复杂任务的核心本
    的头像 发表于 01-07 10:56 2443次阅读
    《AI<b class='flag-5'>机器</b>人控制进阶教程(入门版)》阅读指引

    学习RTOS的意义

    对于嵌入式软件工程师,学习RTOS非常有必要。 1. 项目需要 随着产品要实现的功能越来越多,单纯的裸机系统已经不能完美地解决问题,反而会使编程变得更加复杂,如果想降低编程的难度,就必须引入
    发表于 11-27 08:16

    CRC校验的本质和物理意义

    工业控制系统,Modbus RTU协议的CRC校验如同通信网络的\"免疫系统\",某石化厂DCS系统曾因CRC计算错误导致0.3%的数据包丢失,引发连锁控制故障。 一、CRC
    发表于 11-13 07:58

    奥比光助力开源人形机器人Reachy 2能力升级

    在法国Pollen Robotics的实验室里,今年4月发布的人形机器人Reachy 2正在完成一项颇具挑战的任务:根据食谱精准分拣水果和蔬菜。Reachy 2能区分新鲜苹果和枯萎生菜,靠的不是编程,而是奥比光Gemini 336双目3D相机所
    的头像 发表于 11-05 15:53 684次阅读

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子机器
    的头像 发表于 09-15 10:27 960次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种数据编码方法对比与应用

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1054次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    绿叶学子北京昱栎研学行:以交流为翼,让学习领航未来

    近日,新乡市绿叶学子们在北京昱栎技术有限公司(以下简称“昱栎技术”)开启一场意义深远的研学之旅。这场旅程不仅是一次企业探访,更是一场思想的盛宴,让学子们在交流收获满满,对学习、成长
    的头像 发表于 08-06 16:17 962次阅读
    绿叶学子北京昱栎研学行:以交流为翼,让<b class='flag-5'>学习</b>领航未来

    FPGA在机器学习的具体应用

    ,越来越多地被应用于机器学习任务。本文将探讨 FPGA 在机器学习的应用,特别是在加速神经网
    的头像 发表于 07-16 15:34 3098次阅读

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1607次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    人部署,详细介绍基于颜色阈值和深度学习的巡线方法。 二维码识别则广泛应用于机器人定位与任务触发,例如AGV(自动导引车)的路径规划。 深度学习
    发表于 05-03 19:41