0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可视化数据科学中的概率分布可帮你更好地理解各种分布

电子设计 来源:电子设计 作者:电子设计 2020-12-14 23:07 次阅读

在某些分布假设下,某些机器学习模型被设计为最佳工作。因此,了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。

介绍

拥有良好的统计背景可能对数据科学家的日常生活大有裨益。每次我们开始探索新的数据集时,我们首先需要进行探索性数据分析(EDA),以了解某些功能的主要特征是什么。如果我们能够了解数据分布中是否存在任何模式,则可以量身定制最适合我们的案例研究的机器学习模型。这样,我们将能够在更短的时间内获得更好的结果(减少优化步骤)。实际上,某些机器学习模型被设计为在某些分布假设下效果最佳。因此,了解我们正在使用哪些发行版可以帮助我们确定最适合使用哪些模型。

同类型的数据

我们正在与一个数据集工作,每次,我们的数据代表一个样本人口。然后,使用此样本,我们可以尝试了解其主要模式,以便我们可以使用它对整个人口进行预测(即使我们从未有机会检查整个人口)。

假设我们要根据一组特定功能来预测房屋的价格。我们也许可以在线找到一个包含旧金山所有房价的数据集(我们的样本),并且进行一些统计分析之后,我们也许可以对美国任何其他城市的房价做出相当准确的预测(我们的人口)。

数据集由两种主要类型的数据组成:数字(例如整数,浮点数)和分类(例如名称,笔记本电脑品牌)。

数值数据还可以分为其他两类:离散继续。离散数据只能采用某些值(例如学校中的学生人数),而连续数据可以采用任何实数或分数值(例如身高和体重的概念)。

从离散随机变量中,可以计算出概率质量函数,而从连续随机变量中,可以得出概率密度函数

概率质量函数给出了一个变量可以等于某个值的概率,相反,概率密度函数的值本身并不是概率,因为它们首先需要在给定范围内进行积分。

自然界中存在许多不同的概率分布(概率分布流程图),在本文中,我将向您介绍数据科学中最常用的概率分布。

首先,让我们导入所有必需的库:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作导出更复杂分布的起点。

这种分布只有两个可能的结果和一个试验。

一个简单的例子可以是抛掷偏斜/无偏硬币。在此示例中,可以认为结果可能是正面的概率等于p,而对于反面则是(1-p)(包含所有可能结果的互斥事件的概率总和为1)。

在下图中,我提供了一个偏向硬币情况下伯努利分布的例子。

均匀分布

均匀分布可以很容易地从伯努利分布中得出。在这种情况下,结果的数量可能不受限制,并且所有事件的发生概率均相同。

例如,想象一下一个骰子的掷骰。在这种情况下,存在多个可能的事件,每个事件都有相同的发生概率。

二项分布

二项分布可以被认为是遵循伯努利分布的事件结果的总和。因此,二项分布用于二元结果事件,成功和失败的可能性在所有后续试验中均相同。此分布采用两个参数作为输入:事件发生的次数和分配给两个类别之一的概率。

一个实际的二项式分布的简单示例可以是重复一定次数的有偏/无偏硬币的抛掷。

改变偏差量将改变分布的外观(如下图所示)。

二项分布的主要特征是:

  • 给定多个试验,每个试验彼此独立(一项试验的结果不会影响另一项试验)。
  • 每个试验只能导致两个可能的结果(例如,获胜或失败),其概率分别为p(1- p)

如果给出成功的概率(p)和试验次数(n),则可以使用以下公式计算这n次试验中的成功概率(x)(下图)。

正态(高斯)分布

正态分布是数据科学中最常用的分布之一。我们日常生活中发生的许多常见现象都遵循正态分布,例如:经济中的收入分布,学生的平均报告,人口的平均身高等。此外,小的随机变量的总和还导致:通常遵循正态分布(中心极限定理)。

“在概率论中,中心极限定理CLT)确定,在某些情况下,当添加独立随机变量时,即使原始变量本身未呈正态分布,其适当归一化的和也趋于正态分布。”

—维基百科

可以帮助我们识别正态分布的一些特征是:

  • 曲线在中心对称。因此,均值,众数和中位数都等于相同的值,从而使所有值围绕均值对称分布。
  • 分布曲线下的面积等于1(所有概率之和必须等于1)。

可以使用以下公式得出正态分布(下图)。

使用正态分布时,分布平均值和标准偏差起着非常重要的作用。如果我们知道它们的值,则只需检查概率分布即可轻松找出预测精确值的概率(下图)。实际上,由于分布特性,68%的数据位于平均值的一个标准偏差范围内,95%的数据位于平均值的两个标准偏差范围内,99.7%的数据位于平均值的三个标准偏差范围内。

许多机器学习模型被设计为遵循正态分布的最佳使用数据。一些例子是:

  • 高斯朴素贝叶斯分类器
  • 线性判别分析
  • 二次判别分析
  • 基于最小二乘的回归模型

此外,在某些情况下,还可以通过应用对数和平方根之类的转换将非正常数据转换为正常形式。

泊松分布

泊松分布通常用于查找事件可能发生或不知道事件通常发生的频率。此外,泊松分布还可用于预测事件在给定时间段内可能发生多少次。

例如,保险公司经常使用泊松分布来进行风险分析(例如,在预定时间范围内预测车祸事故的数量),以决定汽车保险的价格。

当使用Poisson Distributions时,我们可以确信发生不同事件之间的平均时间,但是事件发生的确切时刻在时间上是随机间隔的。

泊松分布可以使用以下公式建模(下图),其中λ表示一个时期内可能发生的预期事件数。

描述泊松过程的主要特征是:

  1. 事件彼此独立(如果事件发生,则不会改变另一个事件发生的可能性)。
  2. 一个事件可以发生任何次数(在定义的时间段内)。
  3. 两个事件不能同时发生。
  4. 事件发生之间的平均速率是恒定的。

在下图中,显示了改变周期(λ)中可能发生的事件的预期数目如何改变泊松分布。

指数分布

最后,指数分布用于对不同事件发生之间的时间进行建模。

举例来说,假设我们在一家餐厅工作,并且希望预测到到不同顾客进入餐厅之间的时间间隔。针对此类问题使用指数分布,可能是一个理想的起点。

指数分布的另一个常见应用是生存分析(例如,设备/机器的预期寿命)。

指数分布由参数λ调节。λ值越大,指数曲线到十年的速度就越快(下图)。

指数分布使用以下公式建模(下图)。

如果你喜欢本文的话,欢迎点赞转发!谢谢。

看完别走还有惊喜!

我精心整理了计算机/Python/机器学习/深度学习相关的2TB视频课与书籍,价值1W元。关注微信公众号“计算机与AI”,点击下方菜单即可获取网盘链接。

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    405

    浏览量

    24038
  • 机器学习
    +关注

    关注

    66

    文章

    8123

    浏览量

    130567
收藏 人收藏

    评论

    相关推荐

    数据可视化有什么优势?#可视化 #数据可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年09月25日 09:50:22

    什么是数据可视化?如何进行数据可视化?#可视化 #光点科技

    数据可视化
    光点科技
    发布于 :2023年09月20日 17:41:03

    可视化大屏设计模板 | 主题皮肤(报表UI设计)

    效果: 下载使用步骤: 1、上传数据源。登录奥威软件数据可视化平台后,点击“新增数据源”,在弹窗填入
    发表于 09-12 10:10

    设备运营可视化平台,数据大屏展示,可视化管理

    在当今的数字时代,数据管理发挥出越来越重要的作用,具备可视化管理的平台更受欢迎。对于设备制造商而言,设备运营可视化平台可以实现设备和数据的直观视图,针对设备运营情况、设备
    的头像 发表于 09-08 13:59 358次阅读
    设备运营<b class='flag-5'>可视化</b>平台,<b class='flag-5'>数据</b>大屏展示,<b class='flag-5'>可视化</b>管理

    可视化分布式系统概述

    讯维可视化分布式系统是一种基于分布式计算、云计算和大数据技术的控制系统,具有高效、稳定、灵活的特点。该系统通过将各个子系统进行模块化设计,使得各个子系统可以相互协作,实现信息的实时共享和处理的协同
    的头像 发表于 08-31 16:50 2079次阅读

    利用讯维可视化分布式系统提升生产效率:未来工业控制的新方向

    ,并分析其优势和未来发展趋势。 一、讯维可视化分布式系统概述 讯维可视化分布式系统是一种基于分布式计算、云计算和大数据技术的控制系统。该系统采用模块化设计,由多个子系统组成,各子系统之
    的头像 发表于 08-31 16:49 328次阅读

    可视化分布式系统的未来发展趋势

    随着技术的不断发展和市场的不断扩大,讯维可视化分布式系统将会在未来发挥更加重要的作用。以下是一些未来发展趋势: 技术创新:随着人工智能、机器学习、大数据等技术的不断发展,讯维可视化分布式系统将会不断
    的头像 发表于 08-25 10:15 1748次阅读

    可视化分布式系统:工业4.0智能控制的关键

    中的应用,分析其优势和未来发展趋势。 一、讯维可视化分布式系统概述 讯维可视化分布式系统是一种基于分布式计算、云计算和大数据技术的控制系统。该系统采用模块化设计,由多个子系统组成,各子
    的头像 发表于 08-25 10:03 2153次阅读

    可视化分布式控制系统

    分析其应用场景、实际效益及未来发展前景。 系统架构 讯维可视化分布式控制系统采用模块化设计,由多个子系统组成,各子系统之间通过高速通信网络进行数据传输和指令交互。系统包括以下几个主要模块: 控制模块:负责接收并处理各
    的头像 发表于 08-25 09:54 1341次阅读
    <b class='flag-5'>可视化分布</b>式控制系统

    keras可视化介绍

    (LR), 纵向显示(TB) expand_nested=False,# 是否将嵌套模型扩展到聚类 dpi=96 )4 训练历史可视化 Keras Model 上的 fit() 方法返回一个
    发表于 08-18 07:53

    讯维分布可视化控制系统的应用

    分布可视化控制系统在以下场景中具有广泛的应用: .指挥中心:分布可视化控制系统可以应用于城市指挥中心、应急指挥中心、调度中心等,实现对多个监控画面、
    的头像 发表于 07-31 09:43 264次阅读

    讯维分布可视化控制系统维 的发展趋势

    的自动化程度和智能化水平。 2.大数据应用:随着数据量的不断增长,分布可视化控制系统将越来越重视大数据的应用,可以对海量的
    的头像 发表于 07-31 09:42 286次阅读

    讯维分布可视化控制系统的发展趋势

    的自动化程度和智能化水平。 2.大数据应用:随着数据量的不断增长,分布可视化控制系统将越来越重视大数据的应用,可以对海量的
    的头像 发表于 07-28 10:09 306次阅读

    几款好用的可视化工具推荐

      1 说在前面的话 在开发IMU设备时,我们经常需要验证算法的正确性,并通过图表、图形和图像的可视化方式更直观地呈现数据和信息。这样可以更清晰地理解和分析复杂的数据关系,从而
    的头像 发表于 07-23 15:24 664次阅读
    几款好用的<b class='flag-5'>可视化</b>工具推荐

    详解图形绘制和可视化

    MATLAB是一种功能强大的科学计算和数据可视化软件,它提供了丰富的函数和工具,使得图形绘制和数据可视化变得简单而直观。这些功能对于研究人员
    的头像 发表于 07-07 09:56 445次阅读