0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

常见概率分布背后的直觉及相互联系

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-26 09:20 次阅读

编者按:Databricks数据科学主管Sean Owen介绍了常见概率分布背后的直觉及相互联系。

数据科学,不管它到底是什么,其影响力已不可忽视。“数据科学家比任何软件工程师都更擅长统计学。”你可能在本地的技术聚会或者黑客松上无意中听到一个专家这么说。应用数学家大仇得报,毕竟从咆哮的二十年代起人们就不怎么谈论统计学了。以前聊天的时候,像你这样的工程师,会因为分析师从来没听说过Apache Bikeshed(口水仗)这个分布式评论格式编排项目而发出啧啧声。现在,你却突然发现人们在聊置信区间的时候不带上你了。为了融入聊天,为了重新成为聚会的灵魂人物,你需要恶补下统计学。不用学到正确理解的程度,只需学到让人们(基于基本的观测)觉得你可能理解了的程度。

数据科学文氏图

正如数据结构是计算机科学的基础,概率分布是统计学的基础。如果你计划像一个数据科学家一样聊天,那么概率分布就是你学习的起点。有时候,不怎么理解概率分布的情况下,使用R或scikit-learn就可以完成一些简单的分析,就像不理解哈希函数也可以编写Java程序一样。然而,很快你就会碰到bug和虚假的结果,并为此痛哭流涕,或者更糟:收获统计学专业人士的叹息和白眼。

概率分布有数百种,有些听起来像是中世纪传说中的怪兽,比如Muth和Lomax。不过,实践中经常出现的概率分布只有15种。这15种概率分布是什么?关于它们你需要记忆哪些明智的洞见?请看下文。

什么是概率分布?

每时每刻都有各种事件正在发生:骰子掷出、雨滴落下、巴士到站。事件发生之后,特定的结果便确定了:掷出3点加4点,今日的降雨量是半英寸,巴士3分钟到站。在事件发生之前,我们只能讨论结果的可能性。概率分布描述我们对每种结果出现概率的想法,有些时候,我们更关心概率分布,而不是最可能出现的单个结果。概率分布有各种形状,但大小只有一种:概率分布的概率之和恒等于1.

例如,抛掷一枚匀质硬币有两种结果:正面、反面。(假定硬币落地时不可能以边缘立起,或者被空中的海鸥偷走。)在扔硬币之前,我们相信有二分之一的几率扔到正面,或者说,0.5的概率。扔到反面的概率同理。这是扔硬币的两种结果的概率分布。实际上,如果你充分理解了上面的话,那么你已经掌握了伯努利分布。

除了奇异的名字之外,常见分布之间的关系直观而有趣,所以不管是记忆它们,还是以权威的语气评论它们,都很容易。例如,不少分布都能很自然地从伯努利分布导出。是时候揭开概率分布的相互关系地图了。

常见概率分布及其关键联系

上图中的每种分布都包含相应的概率质量函数或概率密度函数。本文只涉及结果为单个数字的分布,所以横轴均为可能的数值结果的集合。纵轴描述了结果概率。有些分布是离散的,例如,结果为0到5之间的整数,其概率质量函数图形为稀疏的直线,每根线表示一种结果,线高表示该结果的概率。有些分布是连续的,例如,结果为-1.32到0.005之间的任意实数,其概率密度函数为曲线,曲线下的面积表示概率。概率质量函数的线高之和,概率密度函数的曲线下面积,总是等于1.

把上面这张图打印出来放到钱包或坤包中。它能指引你厘清概率分布和它们之间的联系。

伯努利分布和均匀分布

你已经通过上面扔硬币的例子接触过伯努利分布了。扔硬币有两个离散的结果——正面或反面。不过,你可以把结果看成0(反面)或1(正面)。这两种结果发生的可能性都一样,如下图所示。

图片来源:WolframAlpha

伯努利分布可以表示可能性不同的结果,例如抛掷一枚不均匀的硬币。那么,扔到正面的概率就不是0.5,而是不等于0.5的概率p,扔到反面的概率则是1-p. 和很多分布一样,伯努利分布实际上是由参数定义的一系列分布(伯努利分布由p定义)。你可以将“伯努利”想象为“扔(可能不均匀的)硬币”。

图片来源:probabilitycourse.com

有多个结果,所有结果发生概率相等的分布,则是均匀分布。想象抛掷一枚匀质骰子,结果为1点到6点,出现每种点数的可能性相同。均匀分布可以由任意数目n的结果定义,甚至可以是连续分布。

图片来源:IkamusumeFan;许可: CC BY-SA 3.0

看到均匀分布,就联想“投掷一枚均质骰子”。

二项分布和超几何分布

二项分布可以看成遵循伯努利分布的事件的结果之和。抛掷一枚均质硬币,扔20次,有多少次扔出正面?这一计数的结果遵循二项分布。它的参数是试验数n和“成功”(这里的“成功”指正面,或1)的概率p。每次抛掷硬币得到的是一个遵循伯努利分布的结果,也就是一次伯努利试验。累计类似抛掷硬币(每次抛掷硬币的结果相互独立,成功的概率保持不变)的事件的成功次数时,想想二项分布。

图片来源:Tayste(公有领域)

或者,你可以想像一个瓮,其中放着数量相等的白球和黑球。闭上你的眼睛,从瓮里抽一个球,并记录它是不是黑球,接着把这个球放回。重复这一过程。你有多少次抽到黑球?这一计数同样遵循二项分布。

想象这种奇怪的场景是有意义的,因为这让我们容易解释超几何分布。在上面的场景中,如果我们不放回抽取的球,那么结果计数就遵循超几何分布。毫无疑问,超几何分布是二项分布的表兄弟,但两者并不一样,因为移除球后成功的概率改变了。如果球的总数相对抽取数很大,那么这两个分布是类似的,因为随着每次抽取,成功的几率改变很小。

当人们谈论从瓮中抽取球而没有提到放回时,插上一句“是的,超几何分布”几乎总是安全的,因为我在现实生活中从来没碰到任何人真用球装满一个瓮,接着从中抽球,然后放回。(我甚至不知道谁拥有一个瓮。)更宽泛的例子,是从种群中抽取显著的子集作为样本。

泊松分布

累计每分钟呼叫热线的客户数?这听起来像是二项分布,如果你把每一秒看成一次伯努利试验的话。然而,电力公司知道,停电的时候,同一秒可能有数百客户呼叫。将它看成60000次毫秒级试验仍然不能解决这个问题——分割的试验数越多,发生1次呼叫的概率就越低,更别说2次或更多呼叫了,但是这个概率再低,技术上说,始终不是伯努利试验。然而,如果n趋向于无限,p趋向于0,相当于在无穷多个无穷小的时间切片上,呼叫概率无穷小,我们就得到了二项分布的极限,泊松分布。

类似二项分布,泊松分布是计数的分布——某事件发生的计数。泊松分布的参数不是概率p和试验次数n,而是平均发生率λ(相当于np)。试图累计连续事件发生率,统计一段时间内某事件的发生数时,千万别忘了考虑泊松分布。

图片来源:probabilitycourse.com

到达路由的包、到访商店的客户、在某种队列中等待的事物,遇到类似这样的事情,想想“泊松”。

几何分布和负二项分布

从伯努利试验又可以引出另一种分布。在第一次出现正面向上之前,扔出了多少次背面向上的硬币?这一计数遵循几何分布。类似伯努利分布,几何分布由参数p(成功概率)决定。几何分布的参数不包括试验数n,因为结果本身是失败的试验数。

图片来源:probabilitycourse.com

如果说伯努利分布是“成功了多少次”,那么几何分布就是“在成功前失败了多少次”。

负二项分布是几何分布的简单推广。它是成功r次前失败的次数。因此,负二项分布有一个额外的参数,r。有时候,负二项式分布指r次失败前成功的次数。我的人生导师告诉我,成功和失败取决于你的定义,所以这两种定义是等价的(前提是概率p与定义保持一致)。

聊天时,如果你想活跃气氛,那么可以说,显然,二项分布和超几何分布是一对,但是几何分布和负二项分布也很类似,接着提问:“我想说,谁起名字起得这么乱?”

指数分布和威布尔分布

回到客户支持电话的例子:距下一个客户呼叫还有多久?这一等待时间的分布听起来像几何分布,因为直到终于有客户呼叫的那一秒为止,无人呼叫的每一秒可以看成失败。失败数可以视为无人呼叫的秒数,这几乎是下一次呼叫的等待时间,但还不够接近。这次的问题在于,这样计算出的等待时间总是以整秒为单位,没有计入客户最终呼叫的那一秒中的等待时间。

和之前一样,对几何分布取极限,趋向无穷小的时间切片,可以奏效。我们得到了指数分布。指数分布精确地描述了下一呼叫前的时间分布。它是一个连续分布,因为结果不一定是整秒。类似泊松分布,指数分布由参数发生率λ决定。

图片来源:Skbkekas;许可: CC BY 3.0

和二项分布与几何分布之间的关系相呼应,泊松分布是“给定时间内事件发生了多少次”,指数分布则是“直到事件发生过了多少时间”。给定一个某段时间内发生次数遵循泊松分布的事件,那么事件间隔时间遵循参数λ相同的指数分布。正是基于这两种分布之间的这一对应关系,在谈论两者之一时提下另一种是很安全的。

涉及“到某事件发生前的时间”(也许是“无故障工作时间”),应该考虑指数分布。实际上,无故障工作时间是如此重要,我们有一种更一般的分布对其加以描述,威布尔分布。指数分布适用于发生率(例如,损毁或故障概率)恒定的情况,威布尔分布则可以建模随着时间而增加(或减少)的发生率。指数分布不过是威布尔分布的一个特例。

当聊天转向无故障工作时间时,考虑“威布尔”。

正态分布、对数正态分布、t分布、卡方分布

正态分布,又称高斯分布,也许是最重要的概率分布。它的钟形曲线极具辨识度。像自然对数e一样,神奇的正态分布随处可见。从同一分布大量取样——任何分布——然后相加,样本的和遵循(近似的)正态分布。取样数越大,样本之和就约接近正态分布。(警告:必须是非病态分布,必须是独立分布,仅仅趋向正态分布)。无论原分布是何种分布,这一点均成立,真是令人惊奇。

这称为中心极限定理,你必须知道这个名词和它的含义,不然立遭哄笑。

图片来源:mfviz.com

从这个意义上说,正态分布和所有分布相关。不过,正态分布和累加尤为相关。伯努利实验的和遵循二项分布,随着试验数的增加,二项分布变得越来越接近正态分布。它的表兄弟超几何分布也是一样。泊松分布——二项分布的极端形式——也随着发生率参数的增加而逼近正态分布。

如果对结果取对数,所得遵循正态分布,那么我们就说结果遵循对数正态分布。换句话说,正态分布值的对数遵循对数正态分布。如果和遵循正态分布,那么相应的乘积遵循对数正态分布。

图片来源:维基百科

学生t-分布是t检验的基础,许多非统计学家在其他学科中接触过t检验。它用于推断正态分布的均值,随着其参数的增加而更加接近正态分布。学生t-分布的主要特点是,尾部比正态分布更厚(见下图所示,红线为学生t-分布,蓝线为标准正态分布)。

图片来源:IkamusumeFan;许可: CC BY-SA 3.0

如果厚尾的说法不能引起邻居的惊叹,那可以讲讲比较有趣的和啤酒有关的背景故事。一百年前,Guinness使用统计学酿制更好的烈性黑啤酒。在Guinness,William Sealy Gosset研究出了一种新的统计学理论以种出更好的大麦。Gosset说服老板其他酿酒商无法搞明白如何利用这些想法,取得了发表成果的许可,不过是以笔名“学生”发表。Gosset最出名的成果就是学生t-分布,某种程度上而言是以他的名字命名的。

最后,卡方分布是正态分布值的平方和的分布。它是卡方检验的基础。卡方检验基于观测值和理论值的差(假定差遵循正态分布)的平方和。

伽玛分布和贝塔分布

如果都谈到卡方分布之类了,那么谈话应该算是比较严肃的。你可能在和真正的统计学家聊天,到了这个份上,你也许该致歉,表示自己知道的不多,因为伽玛分布之类的名词会出现了。伽玛分布是指数分布和卡方分布的推广。伽玛分布通常用作等待时间的复杂模型,这一点上更像指数分布。例如,伽玛分布可以用来建模接下来第n个事件发生前的时间。在机器学习中,伽玛分布是一些分布的“共轭先验”。

图片来源:维基百科;许可:GPL

别在共轭先验的对话中插话,不过如果你真的插话了,准备好谈论贝塔分布,因为它是上面提到过的大多数分布的共轭先验。就数据科学家而言,贝塔分布的用途主要在此。不经意地提到这一点,然后朝门口移动。

图片来源:Horas;许可:公有领域

智慧的开端

概率分布的知识浩如烟海。真正对概率分布感兴趣的可以从下面这张所有单元分布的地图开始。

希望本文能给你一点信心,让自己看起来知识渊博,并且能融入今日的技术文化。或者,至少能为你提供一种方法,能够以很高的概率判断什么时候你应该找一个不那么书呆的鸡尾酒会。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据结构
    +关注

    关注

    3

    文章

    560

    浏览量

    39895
  • 计算机科学
    +关注

    关注

    1

    文章

    140

    浏览量

    11230

原文标题:常见概率分布的直觉与联系

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于labview实现数据不同范围的不同概率分布

    可以实现任意概率分布和数据范围的程序,特共享一下,希望对各位有所帮助!现在你们不应该对一些商家的抽奖活动表示幻想了吧。。。都控制了概率的 大概会中大奖的号码都在内部人员手里 哈哈
    发表于 12-06 17:01

    概率统计-怎么对csv文件进行概率密度函数和累积分布函数

    问一下,怎么对csv文件进行概率密度函数和累积分布函数。
    发表于 02-27 22:19

    一种基带GMSK信号相关器及其输出概率分布

    一种基带GMSK信号相关器及其输出概率分布该文提出一种基带GMSK 信号相关器,并从GMSK 解调信号的相位概率分布函数以及独立同分布随机变
    发表于 10-28 23:33 14次下载

    模2n加整体逼近模2 加产生的噪声函数的概率分布研究

    模2n加整体逼近模2 加产生的噪声函数的概率分布研究:该文证明了模2n 加变换以6 种不同的方式整体逼近模2 加时产生的噪声函数取值概率的数值分布相同,给出了6 种噪声函数的
    发表于 10-29 13:10 20次下载

    一种新的基于概率理论的概率数据互联滤波器

    该文从理论上分析了用于目标跟踪的概率数据互联滤波器(PDAF)和联合概率数据互联滤波器(JPDAF)存在的不足,提出了一种新的概率数据
    发表于 11-13 14:26 9次下载

    随机射线的概率分布及其应用

    在使用随机射线方法建模无线传播信道时,需要求解以反射次数为指标的无线电波经过若干次反射以后达到特定位置的概率分布。该文使用信息论中的最大熵原理,首先计算在Manhatta
    发表于 11-17 14:05 8次下载

    基于Wasserstein距离概率分布模型的非线性降维算法

    降维是大数据分析和可视化领域中的核心问题,其中基于概率分布模型的降维算法通过最优化高维数据模型和低维数据模型之间的代价函数来实现降维。这种策略的核心在于构建最能体现数据特征的概率分布
    发表于 11-24 17:13 2次下载

    直觉multiplicative集

    针对软直觉模糊集在决策中出现的部分反直觉的现象,结合直觉multiplicative集,首先提出了一种新的软集模型软直觉multiplicative集,推广了软集和
    发表于 11-25 10:35 0次下载

    光伏出力概率分布估计方法

    regression neural network,QRNN)和核密度估计(kernel density estimator,KDE)的光伏出力概率分布估计方法,构造出未来ld任意时刻的光伏出力概率密度函数
    发表于 01-09 15:07 3次下载
    光伏出力<b class='flag-5'>概率</b><b class='flag-5'>分布</b>估计方法

    基于概率常见的分类方法--朴素贝叶斯

    本文介绍机器学习中一种基于概率常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素
    的头像 发表于 02-03 14:37 4942次阅读
    基于<b class='flag-5'>概率</b>的<b class='flag-5'>常见</b>的分类方法--朴素贝叶斯

    一种线束内串扰概率分布的预测方法

    串扰是电气、电子系统内部多导体传输线间的相互电磁干扰,受其影响系统可靠性往往较差。电缆线束作为典型的多导体传输线,其串扰问题显得尤为突出。针对电缆线束内导线位置的不确定性,提出一种线束内串扰概率分布
    发表于 02-12 15:37 2次下载
    一种线束内串扰<b class='flag-5'>概率</b><b class='flag-5'>分布</b>的预测方法

    风电场群功率波动概率密度分布函数

    如何描述风电功率波动的概率密度分布特性一直是风电联网运行分析领域的难点。在利用概率密度函数法分析风电功率波动特性的基础上,首先验证了采用多种单一分布函数模型拟合风电波动
    发表于 02-27 16:32 12次下载

    工业互联网与“包子”有何联系

    工业互联网的数据背后,还隐藏着什么秘密?数据直接的内在联系是什么?还有什么能够提升优化空间,帮我们真正做到更加“安全生产”、“节能减排”、“提高效率”?
    的头像 发表于 12-07 15:59 3121次阅读

    基于概率分布函数的流程工厂模型拓扑相似度计算

    基于概率分布函数的流程工厂模型拓扑相似度计算
    发表于 06-25 11:48 5次下载

    深度学习基本概率分布教程

    在贝叶斯概率论中,如果后验分布 p(θx)与先验概率分布 p(θ)在同一概率分布族中,则先验和后
    发表于 08-02 09:54 425次阅读