0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

统计学基础理论之一——中心极限定理的核心概念

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-18 09:08 次阅读

编者按:中心极限定理是概率论中的一组重要定理,它的中心思想是无论是什么分布的数据,当我们从中抽取相互独立的随机样本,且采集的样本足够多时,样本均值的分布将收敛于正态分布。为了帮助更多学生理解这个概念,今天,UW iSchool的教师Mike Freeman制作了一些直观的可视化图像,让不少统计学教授大呼要把它们用在课堂上。

本文旨在尽可能直观地解释统计学基础理论之一——中心极限定理的核心概念。通过下文中的一系列动图,读者应该能真正理解这个定理,并从中汲取应用灵感,把它用于决策树等其他项目。

需要注意的是,这里我们不会介绍具体推理过程,所以它不涉及定理解释。

教科书上的中心极限定理

在看可视化前,我们先来回顾一下统计学课程对中心极限定理的描述。

来源:LthID

n>30一般为大样本的分界线 来源:LthID

来源:LthID

一个简单的例子

为了降低这个定理的理解门槛,首先我们来举个简单的例子。假设有一个包含100人的团体,他们在某些问题上的意见分布在0-100之间。如果以可视化的方式把他们的意见分数表示在水平轴上,我们可以得到下面这幅图:深色竖线表示所有人意见分数的平均值。

假如你是一名社会科学家,你想知道这个团体的立场特点,并用一些信息,比如上面的“平均意见得分”来描述他们。但可惜的是,由于时间、资金有限,你没法一一询问。这时候,你就可能需要对这100人进行抽样。比方说,在有限的时间、资金条件内,你可以从中随机抽取10个人作为自己的采访对象(n=10),向他们询问有关特定问题的具体想法:

随机抽取10个样本

如你所见,这些样本的均值可能会和整个团体的总体均值有很大差异。那么,怎么采样才能更可靠呢?

考虑多个样本

假设我们可以从团体中采集多个样本。虽然这种做法在现实中是客观存在的(尤其是在政治民意调查中),但在这里,我们会更多地将其作为一种解释工具(当你进行重复采样时,实际上会有一些意料之外的因素出现)。对于每个样本,我们在每次采样时都跟踪样本均值与整体平均值的差。

多次重复该过程,我们就能获得样本均值的分布,它通常被称为样本均值分布,或者(更简单的)抽样分布。下面是对100人的团体进行多次抽样后(每次10人),样本均值的变化情况:

第一次采样,样本均值和总体均值有明显偏差

多次采样后,样本均值和总体均值的偏差变小了

可以发现,随着抽样次数逐渐增多,总体均值和样本均值之间的差距正在不断缩小。这是可以理解的,因为整个过程就相当于从100人中抽取更多样本。但之前我们也说了,资金、时间是有限的,这没有解决资源受限的问题,也无法反映人整个团体在特定问题上的立场。

为了了解每次计算样本均值的效果,我们得先看看抽样分布的分布情况。

理解分布

鉴于上述可视化图像在分布上不够直观,所以在这里,我们把原先表示每个意见的圆圈变成方块,以直方图的形式展现总体分布的情况:

显然,我们的数据分布并不正常。虽然上图中有些部分的曲线是符合正态分布的,但大多数是不符合的,这段曲线没法帮助我们理解这100个人的习性。相反地,我们可以从样本均值的分布情况着手,看看抽样分布的变化情况:

随着采样次数上升,抽样分布正在发生变化

进一步增加采样次数,抽样分布的形状逐渐趋于稳定

随着采样数量的增加,采样分布在可视化中形成了一条钟形曲线,符合正态分布。如上所述,随着重复采样次数的增加,样本均值(抽样分布的平均值)会变得越来越准确。

为什么重要

当采样的数量接近无穷大时,我们的抽样分布就会近似于正态分布。这个统计学基础理论意味着我们能根据个体样本推断所有样本。结合正态分布的其他知识,我们可以轻松计算出给定平均值的值的概率。同样的,我们也可以根据观察到的样本均值估计总体均值的概率。

维基百科对于“中心极限定理”的定义:中心极限定理是概率论中的一组定理。中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

在留言中,美国田纳西州范德堡大学的医学院生物统计学教授Frank Harrell留下了自己的风趣评论:“但是在所有定理中,中心极限定理是最后一个我想教给学生的东西。我想他们得先学好第一堂课,它包括一些设计、数据的意义、数据的稳健性、bootstrap、一些贝叶斯、高精度数据图等等。”

读完他的话,是不是觉得即便了解了这个定理,自己要学的东西还是很多呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1062

    浏览量

    40016
  • 可视化
    +关注

    关注

    1

    文章

    1003

    浏览量

    20542

原文标题:什么是中心极限定理?这里有一份可视化解释

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    MPEG基础理论和协议分析

    MPEG基础理论和协议分析MPEG 基础理论和协议分析(包括DVB和ATSC)的指南MPEG 是当今最流行的音频/ 视频压缩技术之一。这是因为它不仅仅是个单独的标准,而是
    发表于 10-20 17:36

    检测技术基础理论知识

    检测技术基础理论知识
    发表于 11-27 14:51

    种基于统计学和模糊控制理论的权控智能节水系统设计

    、集成化、智能化方向发展。基于此,设计了种基于统计学和模糊控制理论的权控智能节水系统。它利用改进的红外检测单元准确地采集数据;以AT89C2051单片机为硬件平台构建信号处理、控制的主控制器,对检测数据
    发表于 07-15 06:30

    统计学和编程题目

    统计学和编程练习
    发表于 09-10 14:21

    统计学的概率分布

    统计学术语总结
    发表于 09-27 16:24

    统计学习方法数据挖掘

    统计学习方法C1概论
    发表于 10-29 09:12

    Spark集群安装步骤和基础理论

    Spark基础理论及安装
    发表于 11-05 09:24

    量子力学基础理论之一 维量子系统的应用

    量子力学基础理论之一 维量子系统的应用 量子力学开启了当今世界现代的量子计算与与通讯的大门(俗称,我国5G---->>>6G),这里见识下其
    发表于 07-09 09:06

    阀控铅酸蓄电池基础理论

      阀控铅酸蓄电池基础理论   一、基本概念:   1、电池电压:   a、开路电压:电池在开路状态下的端电压。  
    发表于 11-04 11:29 402次阅读

    混频器的基础理论和应用

    混频器的基础理论和应用
    发表于 09-18 16:53 32次下载
    混频器的<b class='flag-5'>基础理论</b>和应用

    如何使用统计学知识进行和统计分析误差分析?

    3.1 误差分析背后的统计学知识
    的头像 发表于 08-22 01:32 4588次阅读

    人工智能其实就是华丽的统计学

    人工智能其实就是统计学,只不过用了一个很华丽的辞藻,其实就是统计学。好多的公式都非常老,但是所有的人工智能利用的都是统计学来解决问题。
    的头像 发表于 08-13 15:33 2818次阅读

    数据分析师应当了解的五个统计基本概念

    本文讲述了数据分析师应当了解的五个统计基本概念统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。 从高的角度来看,统计学是一种利用
    的头像 发表于 11-02 15:57 1590次阅读
    数据分析师应当了解的五个<b class='flag-5'>统计</b>基本<b class='flag-5'>概念</b>

    深度学习与经典统计学的差异

    深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从
    的头像 发表于 09-20 15:18 834次阅读

    统计学习方法代码集

    统计学习所含部分代码合集
    发表于 09-07 09:24 0次下载