0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阐述正态分布的概率,并解释它的应用为何如此的广泛

WpOh_rgznai100 来源:lq 2019-07-13 08:03 次阅读

为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。

在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。

我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。

文章结构

本文的主要内容如下:

概率分布是什么

正态分布意味着什么

正态分布的变量有哪些

如何使用 Python 来检验数据的分布

如何使用 Python 参数化生产一个正态分布

正态分布的问题

简短的背景介绍

首先,正态分布又名高斯分布

它以数学天才 Carl Friedrich Gauss 命名

正态分布又名高斯分布

越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。

因此,理解正态分布非常有必要。

什么是概率分布?

首先介绍一下相关概念。

考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。

如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。

首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。

第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。

事件的概率越大,该事件越容易出现。

在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。

我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。

我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。

一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。

如果将所有概率值求和,那么求和结果将会是100%

世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。

初遇正态分布

我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。

如下图所示,为正态分布的概率分布曲线:

理解和估计变量的概率分布非常重要。

下面列出的变量的分布都比较接近正态分布:

人群的身高

成年人的血压

传播中的粒子的位置

测量误差

回归中的残差

人群的鞋码

一天中雇员回家的总耗时

教育指标

此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。

什么是正态分布?

正态分布只依赖于数据集的两个特征:样本的均值和方差。

均值——样本所有取值的平均

方差——该指标衡量了样本总体偏离均值的程度

正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。

值得注意的是,大自然中发现的变量,大多近似服从正态分布。

正态分布很容易解释,这是因为:

正态分布的均值,模和中位数是相等的。

我们只需要用均值和标准差就能解释整个分布。

正态分布是我们熟悉的正常行为

为何如此多的变量都大致服从正态分布?

这个现象可以由如下定理理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。

由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。

这就是中心极限定理。

本文的核心:

我们从上文的分析得出,正态分布是许多随机分布的总和。 如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:

如上图所示,该钟形曲线有均值为 100,标准差为1:

均值是曲线的中心。 这是曲线的最高点,因为大多数点都是均值。

曲线两侧的点数相等。 曲线的中心具有最多的点数。

曲线下的总面积是变量所有取值的总概率。

因此总曲线面积为 100%

更进一步,如上图所示:

约 68.2% 的点在 -1 到 1 个标准偏差范围内。

约 95.5% 的点在 -2 到 2 个标准偏差范围内。

约 99.7% 的点在 -3 至 3 个标准偏差范围内。

这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。

正态概率分布函数

正态概率分布函数的形式如下:

概率密度函数基本上可以看作是连续随机变量取值的概率。

正态分布是钟形曲线,其中mean = mode = median。

如果使用概率密度函数绘制变量的概率分布曲线,则给定范围的曲线下的面积,表示目标变量在该范围内取值的概率。

概率分布曲线基于概率分布函数,而概率分布函数本身是根据诸如平均值或标准差等多个参数计算的。

我们可以使用概率分布函数来查找随机变量取值范围内的值的相对概率。 例如,我们可以记录股票的每日收益,将它们分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。

标准差越大,样品中的变化性越大。

如何使用 Python 探索变量的概率分布

最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):

DataFrame.hist(bins=10)#Make a histogram of the DataFrame.

该函数向我们展示了所有变量的概率分布。

变量服从正态分布意味着什么?

如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。

服从正态分布的变量总是服从正态分布。 例如,假设 A 和 B 是两个具有正态分布的变量,那么:

•A x B 是正态分布

•A + B 是正态分布

因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。

样本不服从正态分布怎么办?

我们可以将变量的分布转换为正态分布。

我们有多种方法将非正态分布转化为正态分布:

1.线性变换

一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:

计算平均值

计算标准偏差

对于每个 x,使用以下方法计算 Z:

2.使用 Boxcox 变换

我们可以使用 SciPy 包将数据转换为正态分布:

scipy.stats.boxcox(x,lmbda=None,alpha=None)

3.使用 Yeo-Johnson 变换

另外,我们可以使用 yeo-johnson 变换。 Python 的 sci-kit learn 库提供了相应的功能:

sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True,copy=True)

正态分布的问题

由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。 假设变量服从正态分布会有一些显而易见的缺陷。 例如,我们不能假设股票价格服从正态分布,因为价格不能为负。 因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。

我们知道股票收益可能是负数,因此收益可以假设服从正态分布。

假设变量服从正态分布而不进行任何分析是愚蠢的。

变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。

总结

本文阐述了正态分布的概念和性质,以及它如此重要的原因。

希望能帮助到你。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8092

    浏览量

    130510
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24335

原文标题:正态分布为何如此重要?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    异步电机为何应用如此广泛

    电子发烧友网报道(文/李宁远)电机品种繁多,分类方式也是多种多样。按照控制方式可以分为伺服电机、步进电机和力矩电机等。按照驱动方式分为直流电机和交流电机,其中,交流电机按照转子和定子转动是否同步可以分为同步电机和异步电机。   异步电机作为电机中重要的门类,有着结构简单、制造容易、价格低廉、运行可靠、坚固耐用的工作特性,是电机领域不能忽视的重要产品。   对比同步电机,异步电机有哪些特点   我们知道同步电机最
    的头像 发表于 03-05 00:11 2831次阅读

    电机启动电流为何如此之小?

    后话:直接启动时电机用钳安表测的瞬间电流是53A左右,而实际满负荷工作的电流只有23A,很可能是大马拉小车,电机选型选大了。当然钳安表测得的瞬间电流可能也不准。经过这次教训,深切感受到学电气的基础一定要扎实,接触面一定要广,不要像我这次遇到问题才去查资料上网请教专家。再次感谢论坛各位大佬,谢谢! 困扰我们的有两个问题(为简单化,将电机在空载状态讨论) 1.如何精确测出电机启动电流峰值和启动时间。 2.发电机的短时电流系数150%两分钟,那么在10-15秒内是不是允许达到200%,甚至更大呢? 我想,如果电机厂提供启动电流峰值,发电机厂提供15秒内电流最大过载系数。有了这两个关键参数,电机能不能直接启动,要不要软启动,不就迎刃而解了吗! 不幸的是,发电机厂家为经济效益考虑,他不会告诉你过载系数,而且推荐的发电机功率至少为电机容量的2.5倍以上,造成了巨大的资源浪费。就像变频器和软启动厂家,推荐的都比电机功率大一档,而不是从电流来考虑。
    发表于 11-22 06:30

    求助,关于应用笔记CN0343超声波接收电路的计算问题

    2.5V直流偏置,不知道为何如此做法。在应用笔记中只是提到 R6//C10为高通滤波器。不知道放大倍数该如何计算 U8A已经将信号的offset 从0 提到2.5V。为何U8B的正向输入端还是加入直流偏置,而且对于其放大倍数计算和仿真结果也不进相同。 请指导一下该电路不胜
    发表于 11-16 06:41

    集成电路产业全国第二、全省第一,无锡为何如此大的能量?

    集成电路产业在全球被视为高精尖技术竞赛场,很幸运,无锡就拥有这一“王牌产业”,无锡集成电路产业综合实力雄踞全国第二、全省第一,小小无锡为何如此大的能量?
    的头像 发表于 11-06 22:07 594次阅读
    集成电路产业全国第二、全省第一,无锡<b class='flag-5'>为何</b>有<b class='flag-5'>如此</b>大的能量?

    机器学习中统计概率分布大全

    数可以用一个数字表示。或者篮子里有多少苹果仍然是可数的。 连续随机变量 这些是不能以离散方式表示的值。例如,一个人可能有 1.7 米高,1米 80 厘米,1.6666666...米高等等。 2. 密度函数 我们使用密度函数来描述随机变量 的概率分布。 PMF:
    的头像 发表于 11-03 10:46 273次阅读
    机器学习中统计<b class='flag-5'>概率</b><b class='flag-5'>分布</b>大全

    数字化时代,API网关为何如此重要?

    数字经济时代,无论是互联网商业创新还是传统企业数字化转型,都在推动API数量与应用范围的爆发式增长。从只用于企业内部服务调用的1.0时代,到面向服务架构的2.0时代,再到如今成为开放平台和云原生微服务的3.0时代,API正在成为数字世界的基础设施,在企业的业务体系中发挥着越来越重要的作用。 福兮祸之所倚,API在给企业数字化转型带来巨大便利的同时,也带来了新的安全挑战。由于其开放的特性,API成为了网络攻击的重灾区。Facebook、Lin
    的头像 发表于 11-02 15:40 194次阅读
    数字化时代,API网关<b class='flag-5'>为何如此</b>重要?

    串口通信为何要打开复用时钟?

    串口通信为何要打开复用时钟???小白不是很理解,求大佬解释
    发表于 10-23 06:04

    如何用尺寸公差分析软件来探索单孔销浮动的奥秘:DTAS在圆内均匀分布的实现与验证!

    的配合到位不需要销头部圆弧的导向,装配后孔销也未必相切接触。弱化导向作用后,孔销中心的相对位置可按正态分布仿真建模。当然现实生产中,由于后续夹具定位,连接紧固的存在,孔销浮动一般不会按上述理想
    发表于 09-20 12:09

    基于正态分布变换(NDT)的实时三维SLAM方法

    挑战性的任务。本文提出了一种新的基于正态分布变换(NDT)的实时三维SLAM方法,该方法利用姿态图优化和回环检测来进一步提高mapping的一致性。我们创新地提取巷道中的地板和墙壁作为平面节点来构建地标约束,此外还通过无损检测应用激光雷达里程
    的头像 发表于 08-16 10:14 1147次阅读
    基于<b class='flag-5'>正态分布</b>变换(NDT)的实时三维SLAM方法

    OneCapture效用为Windows

    电子发烧友网站提供《OneCapture效用为Windows.zip》资料免费下载
    发表于 07-28 16:54 0次下载
    OneCapture效<b class='flag-5'>用为</b>Windows

    对于三维视觉,C++为何如此重要?

    C++一直都被称作是最难学的计算机语言,笔者从业多年,也认为确实如此。相比于其他几种语言,单纯从语法结构来说,C++都是比较困难的。何况很多同学并不是计算机专业出身,基础不是很扎实。
    的头像 发表于 07-17 14:27 268次阅读
    对于三维视觉,C++<b class='flag-5'>为何如此</b>重要?

    高斯如何得到他理论的结果?聊聊高斯概率分布的数学公式

    这个模拟世界中的各种物理过程都表现出一定程度的随机性,例如,请想想噪声。高斯概率分布(Gaussian probability distributions)描述了许多噪声过程,我们应该看看它的数学公式。
    的头像 发表于 07-17 10:21 586次阅读
    高斯如何得到他理论的结果?聊聊高斯<b class='flag-5'>概率</b><b class='flag-5'>分布</b>的数学公式

    本次视频教程讲解的是灰度图像直方图实验,图像数据通过LCD显示。

    1、实验目的 本节视频的目的是学习直方图统计的原理,掌握图像的读取方法,实现在LCD上显示灰度图像的直方图统计结果。 2、实验原理 直方图是用来整理计量值的观测数据,分析其分布状态的统计
    发表于 05-25 11:23

    systemverilog随机约束implication的概率分析

    在此设计三种不同的随机先后顺序,分析x和y取值的其概率分布
    的头像 发表于 05-04 18:24 700次阅读
    systemverilog随机约束implication的<b class='flag-5'>概率</b>分析

    语音芯片排行榜,为何唯创知音WT588F语音芯片如此受欢迎

    随着智能家居、智能玩具、智能机器人等领域的快速发展,语音芯片逐渐成为智能硬件的重要组成部分。在众多语音芯片中,唯创知音WT588F语音芯片备受关注,成为市场上备受欢迎的产品。那么,WT588F语音芯片具备哪些功能,为何如此受欢迎呢?下面,我们来了解一下。
    的头像 发表于 04-28 10:48 672次阅读
    语音芯片排行榜,<b class='flag-5'>为何</b>唯创知音WT588F语音芯片<b class='flag-5'>如此</b>受欢迎