0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可视化数据科学中的概率分布可帮你更好地理解各种分布

电子设计 来源:电子设计 作者:电子设计 2020-12-14 23:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在某些分布假设下,某些机器学习模型被设计为最佳工作。因此,了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。

介绍

拥有良好的统计背景可能对数据科学家的日常生活大有裨益。每次我们开始探索新的数据集时,我们首先需要进行探索性数据分析(EDA),以了解某些功能的主要特征是什么。如果我们能够了解数据分布中是否存在任何模式,则可以量身定制最适合我们的案例研究的机器学习模型。这样,我们将能够在更短的时间内获得更好的结果(减少优化步骤)。实际上,某些机器学习模型被设计为在某些分布假设下效果最佳。因此,了解我们正在使用哪些发行版可以帮助我们确定最适合使用哪些模型。

同类型的数据

我们正在与一个数据集工作,每次,我们的数据代表一个样本人口。然后,使用此样本,我们可以尝试了解其主要模式,以便我们可以使用它对整个人口进行预测(即使我们从未有机会检查整个人口)。

假设我们要根据一组特定功能来预测房屋的价格。我们也许可以在线找到一个包含旧金山所有房价的数据集(我们的样本),并且进行一些统计分析之后,我们也许可以对美国任何其他城市的房价做出相当准确的预测(我们的人口)。

数据集由两种主要类型的数据组成:数字(例如整数,浮点数)和分类(例如名称,笔记本电脑品牌)。

数值数据还可以分为其他两类:离散继续。离散数据只能采用某些值(例如学校中的学生人数),而连续数据可以采用任何实数或分数值(例如身高和体重的概念)。

从离散随机变量中,可以计算出概率质量函数,而从连续随机变量中,可以得出概率密度函数

概率质量函数给出了一个变量可以等于某个值的概率,相反,概率密度函数的值本身并不是概率,因为它们首先需要在给定范围内进行积分。

自然界中存在许多不同的概率分布(概率分布流程图),在本文中,我将向您介绍数据科学中最常用的概率分布。

首先,让我们导入所有必需的库:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作导出更复杂分布的起点。

这种分布只有两个可能的结果和一个试验。

一个简单的例子可以是抛掷偏斜/无偏硬币。在此示例中,可以认为结果可能是正面的概率等于p,而对于反面则是(1-p)(包含所有可能结果的互斥事件的概率总和为1)。

在下图中,我提供了一个偏向硬币情况下伯努利分布的例子。

均匀分布

均匀分布可以很容易地从伯努利分布中得出。在这种情况下,结果的数量可能不受限制,并且所有事件的发生概率均相同。

例如,想象一下一个骰子的掷骰。在这种情况下,存在多个可能的事件,每个事件都有相同的发生概率。

二项分布

二项分布可以被认为是遵循伯努利分布的事件结果的总和。因此,二项分布用于二元结果事件,成功和失败的可能性在所有后续试验中均相同。此分布采用两个参数作为输入:事件发生的次数和分配给两个类别之一的概率。

一个实际的二项式分布的简单示例可以是重复一定次数的有偏/无偏硬币的抛掷。

改变偏差量将改变分布的外观(如下图所示)。

二项分布的主要特征是:

  • 给定多个试验,每个试验彼此独立(一项试验的结果不会影响另一项试验)。
  • 每个试验只能导致两个可能的结果(例如,获胜或失败),其概率分别为p(1- p)

如果给出成功的概率(p)和试验次数(n),则可以使用以下公式计算这n次试验中的成功概率(x)(下图)。

正态(高斯)分布

正态分布是数据科学中最常用的分布之一。我们日常生活中发生的许多常见现象都遵循正态分布,例如:经济中的收入分布,学生的平均报告,人口的平均身高等。此外,小的随机变量的总和还导致:通常遵循正态分布(中心极限定理)。

“在概率论中,中心极限定理CLT)确定,在某些情况下,当添加独立随机变量时,即使原始变量本身未呈正态分布,其适当归一化的和也趋于正态分布。”

—维基百科

可以帮助我们识别正态分布的一些特征是:

  • 曲线在中心对称。因此,均值,众数和中位数都等于相同的值,从而使所有值围绕均值对称分布。
  • 分布曲线下的面积等于1(所有概率之和必须等于1)。

可以使用以下公式得出正态分布(下图)。

使用正态分布时,分布平均值和标准偏差起着非常重要的作用。如果我们知道它们的值,则只需检查概率分布即可轻松找出预测精确值的概率(下图)。实际上,由于分布特性,68%的数据位于平均值的一个标准偏差范围内,95%的数据位于平均值的两个标准偏差范围内,99.7%的数据位于平均值的三个标准偏差范围内。

许多机器学习模型被设计为遵循正态分布的最佳使用数据。一些例子是:

  • 高斯朴素贝叶斯分类器
  • 线性判别分析
  • 二次判别分析
  • 基于最小二乘的回归模型

此外,在某些情况下,还可以通过应用对数和平方根之类的转换将非正常数据转换为正常形式。

泊松分布

泊松分布通常用于查找事件可能发生或不知道事件通常发生的频率。此外,泊松分布还可用于预测事件在给定时间段内可能发生多少次。

例如,保险公司经常使用泊松分布来进行风险分析(例如,在预定时间范围内预测车祸事故的数量),以决定汽车保险的价格。

当使用Poisson Distributions时,我们可以确信发生不同事件之间的平均时间,但是事件发生的确切时刻在时间上是随机间隔的。

泊松分布可以使用以下公式建模(下图),其中λ表示一个时期内可能发生的预期事件数。

描述泊松过程的主要特征是:

  1. 事件彼此独立(如果事件发生,则不会改变另一个事件发生的可能性)。
  2. 一个事件可以发生任何次数(在定义的时间段内)。
  3. 两个事件不能同时发生。
  4. 事件发生之间的平均速率是恒定的。

在下图中,显示了改变周期(λ)中可能发生的事件的预期数目如何改变泊松分布。

指数分布

最后,指数分布用于对不同事件发生之间的时间进行建模。

举例来说,假设我们在一家餐厅工作,并且希望预测到到不同顾客进入餐厅之间的时间间隔。针对此类问题使用指数分布,可能是一个理想的起点。

指数分布的另一个常见应用是生存分析(例如,设备/机器的预期寿命)。

指数分布由参数λ调节。λ值越大,指数曲线到十年的速度就越快(下图)。

指数分布使用以下公式建模(下图)。

如果你喜欢本文的话,欢迎点赞转发!谢谢。

看完别走还有惊喜!

我精心整理了计算机/Python/机器学习/深度学习相关的2TB视频课与书籍,价值1W元。关注微信公众号“计算机与AI”,点击下方菜单即可获取网盘链接。

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    25123
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3D系统可视化

    本身的深入描述和F-Theta透镜的应用示例。 光学系统的3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统的3D可视化,因此可以用于检查元件的位置,以及快速了解系统内部的光
    发表于 03-30 09:25

    KubePi:开源Kubernetes可视化管理面板,让集群管理如此简单

    :人人可用的开源数据可视化分析工具,可用于Kubernetes集群数据的实时可视化分析。 MeterSphere :开源持续测试平台,支持Kubernetes环境
    发表于 02-11 12:53

    怕故障?怕扩展难?分布可视化控制:给足场景安全

    可视化控制系统,正是为破解复杂场景需求而生的智能解决方案。 作为以分布式网络架构为基础的核心控制系统,它打破了传统设备的功能壁垒,将音频处理、视频拼接、网络传输、环境监控、可视化控制等多元能力深度集成,通过数字
    的头像 发表于 11-09 17:27 615次阅读

    讯维如何推动分布可视化控制系统全国产

    在数字转型深入推进的今天,分布可视化控制系统已成为指挥调度、远程医疗、能源管控等关键领域的 "神经中枢",其技术自主性直接关系到国家关键基础设施安全与产业发展主动权。
    的头像 发表于 11-05 09:43 685次阅读

    十大趋势破局!分布可视化控制系统:从智能到低碳,重塑产业数字控制新生态

    当前,工业制造、城市管理、农业生产等领域正面临 “数据割裂、响应滞后、安全风险、场景适配难” 等核心痛点。分布可视化控制系统作为数字转型的 “神经中枢”,其发展已从 “技术堆砌”
    的头像 发表于 10-30 09:56 382次阅读
    十大趋势破局!<b class='flag-5'>分布</b>式<b class='flag-5'>可视化</b>控制系统:从智能到低碳,重塑产业数字<b class='flag-5'>化</b>控制新生态

    工业可视化平台是什么

    工业可视化平台是一种基于信息技术和可视化技术,将工业生产过程数据、信息、流程等以直观、动态的图形方式呈现,并实现交互式管理与分析的数字
    的头像 发表于 10-24 18:00 1209次阅读

    从 “单一控制” 到 “智能可视”:分布式系统与传统音视频控制系统的关键区别

    分布可视化控制系统与传统的音视频控制系统的区别主要体现在以下几个方面: 1.系统架构:分布可视化控制系统采用分布式架构,将音视频处理、
    的头像 发表于 10-21 10:52 522次阅读

    基于 HT 搭建的农林牧数据可视化监控平台

    农业场景应用的深度适配。 其中,HT for Web GIS 产品具备多类型地图服务支持能力,可将地理信息系统(GIS)数据以丰富的可视化形式展示与叠加,为农业空间信息分析提供全新模式 —— 能精准呈现农林牧场景
    的头像 发表于 08-29 14:51 700次阅读
    基于 HT 搭建的农林牧<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>监控平台

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为
    发表于 07-16 14:16

    测、可控、可调、可观——分布式光伏监控系统的“智慧四驱”

    来自不同厂商。 环境复杂:局部遮挡、温度差异、用户用电波动频繁。 2.光伏四 系统通过以下方式解决分布式场景的痛点: 测:实现低压分布式光伏统计
    的头像 发表于 05-22 09:42 1747次阅读
    <b class='flag-5'>可</b>测、可控、可调、可观——<b class='flag-5'>分布</b>式光伏监控系统的“智慧四驱”

    结构可视化:利用数据编辑器剖析数据内在架构​

    结构可视化聚焦于展示数据的内部结构和各部分之间的关系,使企业能够深入理解数据的组织方式和层次体系,从而更好地进行数据管理和分析。通过结构
    的头像 发表于 05-07 18:42 874次阅读

    工业设备数据集中监控可视化管理平台是什么

    工业设备数据集中监控可视化管理平台是一种用于整合、监控和可视化工业设备数据的综合性系统,旨在帮助企业实现设备数据的集中管理、实时监控和
    的头像 发表于 05-06 11:10 1193次阅读

    VirtualLab Fusion应用:3D系统可视化

    描述和F-Theta透镜的应用示例。 光学系统的3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统的3D可视化,因此可以用于检查元件的位置,以及快速了解系统内部的光传播情况
    发表于 04-30 08:47

    可视化组态物联网平台是什么

    可视化组态物联网平台是物联网技术与组态技术相结合的产物,是通过提供丰富的图形组件和可视化元素,让用户能够以直观、便捷的方式对物联网数据进行监控、分析和管理的平台。以下是其具体介绍:
    的头像 发表于 04-21 10:40 1034次阅读

    可视化组态数据管理平台是什么

    可视化组态数据管理平台是一种用于工业自动、物联网、能源管理等领域的软件平台,它结合了可视化和组态技术,帮助用户实现数据的采集、管理、展示和
    的头像 发表于 04-21 10:00 900次阅读