0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是科学假设?什么是统计假设?什么又是机器学习假设呢?

nlfO_thejiangme 来源:lp 2019-03-16 10:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

什么是科学假设?什么是统计假设?什么又是机器学习假设呢?

虽然同为假说,这三个东西其实还真不太一样!

今天,就带你来区分一下“假设”三兄弟。

了解完它们的区别后,你会对假设一词在不同领域会有更深刻的认识,对于更好的使用假设会有更深入的理解。同时,对于机器学习的入门者来说,这样一篇文章对于个人今后在该领域的发展就是如虎添翼。

通常,我们所理解的监督性机器学习,是一个类似于研究从输入映射到输出的目标函数问题。

这个过程可以被分为如何选取假设空间,以及评估候选的假设空间。

作为一个机器学习领域的初学者来说,假设这个词的概念可能让他们会产生困惑,有时会产生歧义,比如在统计领域我们会有假设检验,而在科学领域我们又会有科学假说。

这些定义互有关联,却不尽相同。

所以什么是假设呢?

假设是一种对事物的解释。

它是一种凭借经验和知识所提出的猜测性想法,需要一定的评估依据。

一个好的假设是可验证的,验证结果有可能是对的,也可能是错的。

在科学界,假说一定是可以被证伪的,即通过观察检验结果,可以证实这个假说是错误的。同时,在验证结果出来之前,假说的框架结构一定要确定好。

...任何一个或一系列假说想要成为科学定理或者科学理论,一定要满足这样一个基本条件—那就是,它是可以被证伪的。

选自《What is This Thing Called Science?》1999年,第三版,第61-62页

一个好的假说既能满足现有证据,又可以用来预测新的观察或新的情况。

一个假说如果说完全满足现有证据,同时可以被验证,那么它将会成为理论或者成为理论的一部分。

小结一下,科学假说是指符合证据、同时可以被证实或者被反驳的猜测性解释。

统计学中的假设又该如何定义呢?

大多统计问题是研究观测样本之间潜在关系。

统计学上的假设检验通常是计算产生“影响”的临界值,通过计算临界值可以来判定观测样本之间是否存在某种关系。

如果似然值很小,这种影响结果就可能会是真实的,如果似然值很大,那我们可能观测到了统计波动,这种影响可能并不真实。

举例来说,通过推断两组样本之间均值所存在的关系,可以判断它们是否具有相同的统计分布,或者它们之间又有哪些差异。

举个例子,我们可以假设两组样本的均值相同。

这种假设对我们来说没什么影响,也叫作零假设。通过假设检验,我们可以得到拒绝该假设或者保留该假设。即便我们不能拒绝零假设,也不等于我们接受零假设是对的,因为结果只是一个概率。

..在社会科学研究中,我们通过建立假设、制定标准来衡量是否保留或拒绝我们的假设,通常都是零假设。

《Statistics in plain English》2010年第三版,64-65页

在我们的例子中,如果零假设被否定,其相对立的备择假设就认为均值之间存在差异。

零假设(H0):没有影响

备择假设(H1):存在影响

统计学中的假设检验通常不会评判影响的大小,只会近似估计被观测样本之间是否存在差异。

小结一下,统计学中的假设指的是用概率来解释样本观测值之间是否存在关系。

最后,什么是机器学习中的假设呢?

机器学习,尤其是监督性学习,是用已有数据学习得到一个最佳的函数来表示输入到输出之间的映射关系。

说的专业些,这个叫做函数逼近。就是说我们想找到一个接近于我们目标函数(我们假设它存在)的方程,可以满足在问题定义域里所有观测结果都可以从输入映射到输出结果。

在机器学习中,一个近似目标函数并且将输入映射到输出的模型被称为假设。

算法选取(比如神经网络)和算法配置(如网络拓扑和超参数)决定了模型可能表示的假设空间。

机器学习算法的学习是寻找最接近目标函数的假设,即将已选取的假设空间转化成最佳或最优的假设。

“学习”是在可能的假设空间中寻找一个表现良优的假设空间,即使在训练集之外新样本上也能适用。

选自《Artificial Intelligence: A Modern Approach》2009年第二版,第695页。

这种机器学习的框架很常见,通常可以帮助我们选取算法、理解学习和泛化问题,甚至是“偏差-方差”的权衡。举例来说,训练集通常是学习假设,而测试数据集是用来评估假设。

我们通常会用小写(h)来表示给予的特定假设,用大写(H)来表示被探索的假设空间。

假设(h):单一假设,如一个实例或特定的候选模型,可以将输入映射到输出,同时也可以对模型进行评估和预测。

假设集(H):一个包括所有可能的输入映射到输出之间关系的假设空间,通常受选取的问题框架、模型和模型调参所限制。

在选择算法和配置过程中,我们需要选取一个对目标函数来说是最好的逼近函数作为假设空间。这是非常具有挑战的,通常对于一系列不同的假设空间进行抽查会更为有效。

如果假设空间包含真函数,则学习问题是可实现的。不幸的是,我们不能总是判断一个给定的学习问题是否可以实现,因为真正的函数是未知的。

选自《Artificial Intelligence: A Modern Approach》2009年第二版,697页。

这是一个困难的问题。通常,我们通过限制假设空间的大小和评估假设的复杂性来简化搜索过程。

假设空间的表达性和假设搜索的复杂性之间存在一种权衡关系。

选自《Artificial Intelligence: A Modern Approach》2009年第二版,697页。

小结一下,机器学习中的假设是一个近似目标函数的候选模型,用于表示输入样本到输出样本之间的映射关系。

总 结

让我们重新梳理一遍对假设的三个定义:

科学假说是一种对于观察现象的猜测性解释,并且是可以被证伪的。

统计中的假设是用概率的方式来解释数据样本之间的关系。

机器学习中的假设是一个近似目标函数的候选模型,用于表示输入样本到输出样本之间的映射关系。

机器学习的假设定义要比科学中的定义更加广泛。

和科学假说一样,机器学习也是基于现有证据,可以被证伪,并对新情况进行预测。

在机器学习中的假设:

涵盖现有证据:即训练数据集

可以被证伪:有一个测试集来评估模型表现,并且与基础模型作对比,确定训练过程是否有效。

适用于新的情况:可被用来对新数据集进行预测。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106793
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66833
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230

原文标题:“假设”家族大起底!如何正确区分科学假设、统计假设和机器学习假设?

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是
    发表于 09-17 11:45

    横河示波器如何使用统计功能

    使用统计功能,可以对波形自动测量的参数进行5种类型的统计:最大值、最小值、平均值、标准偏差、统计运算测量值的个数。我们最多可以统计9个自动测量的项目,而且可以把
    的头像 发表于 07-23 17:49 684次阅读
    横河示波器如何使用<b class='flag-5'>统计</b>功能<b class='flag-5'>呢</b>?

    comp输出用于tim1刹车,消隐源和pwm输出是不是得是同一个TIM

    那不是一个定时器的话 怎么能保证COMP1的消隐触发同步假设pwm输出是tim1_ch2,那么我消隐源可以选tim4_oc3?是不是tim1_oc5跟合理?
    发表于 06-09 07:12

    comp输出用于tim1刹车,消隐源和pwm输出是不是得是同一个TIM呀?

    那不是一个定时器的话 怎么能保证COMP1的消隐触发同步假设pwm输出是tim1_ch2,那么我消隐源可以选tim4_oc3?是不是tim1_oc5跟合理?
    发表于 06-05 06:10

    碳化硅衬底厚度测量中探头温漂的热传导模型与实验验证

    模型假设与简化 为便于建模,对探头结构及热传导过程进行假设与简化。假设探头各部件为均匀连续介质,忽略探头内部微观结构差异对热传导的影响;热传导过程遵循傅里叶定律
    的头像 发表于 06-04 09:37 391次阅读
    碳化硅衬底厚度测量中探头温漂的热传导模型与实验验证

    想从linux系统读回CYC65215部件的配置程序映像,并检查其CRC是否正确(假设它有附加 CRC),图像有CRC吗?

    我想从 linux 系统读回 CYC65215 部件的配置程序映像,并检查其 CRC 是否正确(假设它有附加 CRC)。图像有 CRC 吗? CRC 是否使用标准多项式的已知算法生成? 如果是,是哪条多项式?
    发表于 05-23 06:22

    VirtualLab Fusion:精确的物理和数值控制

    速度vs.精度面板包含了不同的与采样相关工具的选择,例如奈奎斯特采样,包括使用易于控制的滑块来指定更偏向速度或更偏向精度。 傍轴假设面板允许用户对系统应用近似值,从而加快傍轴系统的模拟时间。 速度
    发表于 05-15 10:33

    comp输出用于tim1刹车,消隐源和pwm输出是不是得是同一个TIM

    那不是一个定时器的话 怎么能保证COMP1的消隐触发同步假设pwm输出是tim1_ch2,那么我消隐源可以选tim4_oc3?是不是tim1_oc5跟合理?
    发表于 05-14 08:14

    MOSFET讲解-13(可下载)

    这种单桥臂载波的管子,哪个管子发热会大?MOS管的四大损耗:开通损耗,关断损耗,导通损耗,续流损耗上桥臂载波情况下:假设I=1A,Rdson=3mΩ。所以导通损耗:P=I^2*Rdson=3mW续
    发表于 04-21 13:35 4次下载

    三极管开关电路设计思路假设成真,还要保证啥条件?

    本文只介绍作为开关管使用时的电路设计介绍电路之前,我们需要了解一下压控和流控的概念压控:是指电压作为控制信号,理想状态下,对于MOS只要VGS的电压满足开启要求(Vth),MOS管就导通流控:是指电流作为控制信号,对于BJT,只要Ibe满足开启要求,三极管就会导通记得第一次分析MOS管的导通状态的时候,还会各种考虑D级与G极D极与S极的电压关系;搞得自己脑袋
    的头像 发表于 03-08 19:34 1494次阅读
    三极管开关电路设计思路<b class='flag-5'>假设</b>成真,还要保证啥条件?

    为何选择GraphPad Prism

    节省统计分析的时间 专为科学家(而非统计学家)设计的多功能统计工具。直接将数据输入专为科学研究而设计的表格,并指导您进行
    的头像 发表于 02-18 09:23 484次阅读
    为何选择GraphPad Prism

    假设检验的功效和样本数量

    于判断 H0 是否可以被否定。如果其被否定,则统计结论将认为备择假设 Ha 正确。 请记住这一检验的功效,或是在原假设不正确时,原假设被否定的可能性。 它可以解释为“检验在应该拒绝原
    的头像 发表于 01-15 10:50 792次阅读

    假设正弦波每个周期采20个点,DAC900的产生正弦波极限频率是多少?

    假设正弦波每个周期采20个点。那个DAC900的产生正弦波极限频率是多少?
    发表于 01-14 07:08

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 699次阅读

    为什么噪声功率在低采样率和过采样率的情况下是相同的

    请教一下,为什么噪声功率在低采样率和过采样率的情况下是相同的假设是相同的,我觉得低采样率采到的频率成分少,噪声的能量不应该是更少么,这点应该如何理解
    发表于 12-13 08:08