0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

八种不同类型的抽样技术介绍

汽车玩家 来源:人工智能遇见磐创 作者:人工智能遇见磐创 2020-05-04 08:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

介绍

你肯定很熟悉以下情况:你下载了一个比较大的数据集,并开始分析并建立你的机器学习模型。当加载数据集时,你的计算机会爆出"内存不足"错误。

即使是最优秀的人也会遇到这种事。这是我们在数据科学中面临的最大障碍之一,在受计算限制的计算机上处理大量数据(并非所有人都拥有Google的资源实力!)。

那么我们如何克服这个问题呢?是否有一种方法可以选择数据的子集并进行分析,并且该子集可以很好地表示整个数据集?

这种方法称为抽样。我相信你在学校期间,甚至在你的职业生涯中,都会遇到这个名词很多次。抽样是合成数据子集并进行分析的好方法。但是,那我们只是随机取一个子集呢?

我们将在本文中进行讨论。我们将讨论八种不同类型的抽样技术,以及每种方法的使用场景。这是一篇适合初学者的文章,会介绍一些统计的知识

目录

什么是抽样?

为什么我们需要抽样?

抽样步骤

不同类型的抽样技术

概率抽样的类型

非概率抽样的类型

什么是抽样?

让我们从正式定义什么是抽样开始。

抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

上图完美地说明了什么是抽样。让我们通过一个例子更直观的进行理解。

我们想要找到Delhi这个城市所有成年男性的平均身高。Delhi的人口大约为3千万,男性大约为1500万(这些都是假想数据,不要当成实际情况了)。你可以想象,要找到Delhi所有男性的身高来计算平均身高几乎是不可能的。

我们不可能接触到所有男性,因此我们无法真正分析整个人口。那么,什么可以我们做的呢?我们可以提取多个样本,并计算所选样本中个体的平均身高。

但是,接下来我们又提出了一个问题,我们如何取样?我们应该随机抽样吗?还是我们必须问专家?

假设我们去篮球场,以所有职业篮球运动员的平均身高作为样本。这将不是一个很好的样本,因为一般来说,篮球运动员的身高比普通男性高,这将使我们对普通男性的身高没有正确的估计。

这里有一个解决方案,我们在随机的情况下随机找一些人,这样我们的样本就不会因为身高的不同而产生偏差。

为什么我们需要抽样?

我确定你在这一点上已经有了直觉的答案。

抽样是为了从样本中得出关于群体的结论,它使我们能够通过直接观察群体的一部分(样本)来确定群体的特征。

选择一个样本比选择一个总体中的所有个体所需的时间更少

样本选择是一种经济有效的方法

对样本的分析比对整个群体的分析更方便、更实用

抽样步骤

将概念形象化是在记忆的好方法。因此,这是一个以流程图形式逐步进行抽样的流程图!

让我们以一个有趣的案例研究为例,将这些步骤应用于执行抽样。几个月前,我们在印度举行了大选。你一定看过当时每个新闻频道的民意调查:

这些结果是根据全国9亿选民的意见得出的还是根据这些选民的一小部分得出的?让我们看看是怎么做的。

第一步

抽样过程的第一步是明确定义目标群体。

因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格在人口中投票的人。

第二步

抽样框架(Sampling Frame)–这是构成样本总体的个体列表。

因此,这个例子的抽样框架将是是名字出现在一个选区的所有投票人列表。

第三步

一般来说,使用概率抽样方法是因为每一张选票都有相等的价值。不考虑种姓、社区或宗教,任何人都可以被包括在样本中。不同的样品取自全国各地不同的地区。

第四步

样本量(Sample Size)-是指样本中所包含的个体的数量,这些个体的数量需要足量以对期望的准确度和精度进行推断。

样本量越大,我们对总体的推断就越准确。

在民意调查中,各机构试图让尽可能多的不同背景的人参与抽样调查,因为这有助于预测一个政党可能赢得的席位数量。

第五步

一旦确定了目标人群,抽样框架,抽样技术和样本数量,下一步就是从样本中收集数据。

在民意测验中,机构通常会向人民提出问题,例如他们要投票给哪个政党或前政党做了什么工作,等等。

根据答案,各机构试图解释选民投票给谁,以及一个政党要赢得多少席位。

不同类型的抽样技术

这里是另一个图解!这一个是关于我们可以使用的不同类型的采样技术:

概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本

非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果

例如,假设我们的人口由20个人组成。每个个体的编号从1到20,并由特定的颜色(红色、蓝色、绿色或黄色)表示。在概率抽样中,每个人被选中的概率是1/20。

对于非概率抽样,这些概率是不相等的。一个人被选中的机会可能比别人大。现在我们对这两种抽样类型有了一定的了解,让我们分别深入了解每种抽样类型,并理解每种抽样的不同类型。

概率抽样的类型

简单随机抽样

这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。

简单的随机抽样可减少选择偏差。

这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。

系统抽样

在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。

假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。

假设,我们从第3个人开始,样本容量是5。因此,我们要选择的下一个个体将是(20/5)= 4,从第3个人开始,即7(3+4),依此类推。

3、3+4=7、7+4=11、11+4=15、15+4=19 . 3、7、11、15、19

系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。

分层抽样

在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本:

在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。

当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的人口特征的知识。

整群抽样

在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。

在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。

当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。

非概率抽样的类型

便利抽样

这可能是最简单的抽样方法,因为个人的选择是基于他们的可用性和参与意愿。

这里,假设编号为4、7、12、15和20的个体想要成为样本的一部分,因此,我们将把它们包含在样本中。

便利抽样容易产生显著的偏见,因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

配额抽样

在这种抽样中,我们根据预先确定的总体特征来选择样本。考虑到我们必须为我们的样本我们选择一个倍数为4的个体:

因此,编号为4、8、12、16和20的个人已经为我们的样本保留。

在配额抽样中,选择的样本可能不是未考虑的人口特征的最佳代表。

判断抽样

这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

假设,我们的专家认为,应该将编号为1、7、10、15和19的人作为我们的样本,因为它们可以帮助我们更好地推断人口。你可以想象,配额抽样同样也容易受到专家的偏见,不一定具有代表性。

雪球抽样

我很喜欢这种抽样方法。现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

在这里,我们随机选择了1个人作为样本,然后他推荐了6个人,6个人推荐了11个人,依此类推。

1-> 6-> 11-> 14-> 19

雪球抽样有很大的选择偏见风险,因为被引用的个体将与推荐他们的个体具有共同的特征。

结尾

在本文中,我们了解了抽样的概念,抽样所涉及的步骤以及不同类型的抽样方法。抽样在统计世界和现实世界中都有广泛的应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1812

    浏览量

    60625
  • 抽样
    +关注

    关注

    0

    文章

    11

    浏览量

    7354
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    光伏系统接地故障的主要类型与测试方法

    光伏系统的接地故障具有多种不同类型,需要采用不同的测试技术来识别和定位。要第一时间确定哪种测试方法能提供最快且最准确的结果,往往颇具挑战性。无论系统类型或规模如何,接地故障都是光伏系统中最常见的问题之一。
    的头像 发表于 03-19 09:10 656次阅读
    光伏系统接地故障的主要<b class='flag-5'>类型</b>与测试方法

    大常见芯片封装类型及应用!

    个常见芯片封装类型在芯片封装就像半导体的“保护壳”,不仅能保护芯片核心,还直接决定芯片适配哪些产品、发挥多少性能。不管是日常用的手机、电脑,还是工业设备里的芯片,都离不开合适的封装。今天就用通俗
    的头像 发表于 02-02 15:01 1405次阅读
    <b class='flag-5'>八</b>大常见芯片封装<b class='flag-5'>类型</b>及应用!

    MUN12AD03-SH:完美替代TI与艾诺(Aino)同类型芯片

    MUN12AD03-SH:完美替代TI与艾诺(Aino)同类型芯片在当前芯片国产化替代加速的背景下,MUN12AD03-SH作为一款高性能DC/DC电源模块,凭借其高效率、智能控制等优势,可替代多款
    发表于 01-16 10:11

    同类型的电能质量在线监测装置在多维度统计报表功能上有哪些差异?

    同类型的电能质量在线监测装置(基础型 / 增强型 / 电网级)在多维度统计报表功能上的差异,核心围绕 “统计维度丰富度、报表类型覆盖、定制化能力、输出集成、合规适配” 展开,本质是匹配不同应用场
    的头像 发表于 12-12 13:59 577次阅读

    同类型功放芯片对音箱音质的核心影响

    功放芯片的核心作用是 “将弱电信号放大为足以驱动喇叭的强电信号”,其电路结构、放大原理、元件选择的差异,会直接影响音质的 “失真度、动态范围、频响完整性、音色风格”。不同类型的功放板,对音箱(尤其是
    的头像 发表于 11-18 11:39 2662次阅读

    堆栈指针SP介绍

    SP 堆栈指针:8位寄存器,用来指示堆栈的位置,可由软件修改。 堆栈的介绍堆栈是一按“先进后出”规律操作的存储结构。不同类型的处理器其堆栈的设计各不相同: SP寄存器作为堆栈指针。这种结构的特点是
    发表于 11-17 06:07

    多个Vector同类型VN设备固定硬件通道分配问题

    同类型VN设备(如多个1640A)同时使用时,出现再次运行工程时,硬件通道和逻辑通道不匹配的情况。需要手动再次匹配,影响使用体验和效率,此时需要重新“channel mapping”,当涉及到一个测试台架有多个VN设备时,极其影响使用体验,增加工作量。
    的头像 发表于 11-02 17:08 1369次阅读
    多个Vector<b class='flag-5'>同类型</b>VN设备固定硬件通道分配问题

    同类型的电能质量在线监测装置数据存储方式有哪些优缺点?

    同类型的电能质量在线监测装置数据存储方式,核心差异体现在 数据控制权、实时性、运维成本、扩展性 上,主要分为 本地存储、云端存储、混合存储 三类。每类方式的优缺点需结合电能质量数据特征(时序性
    的头像 发表于 10-30 10:00 430次阅读

    HDMI接口类型介绍

    我们都知道USB接口有很多类型,然而熟悉的HDMI接口,它也有很多不一样的接口,本文将围绕HDMI的不同接口类型进行解析。
    的头像 发表于 10-28 16:11 6636次阅读
    五<b class='flag-5'>种</b>HDMI接口<b class='flag-5'>类型</b><b class='flag-5'>介绍</b>

    同类型的暂态事件(如电压暂降、电压暂升、谐波等)在捕捉方法上有何异同?

    要分析不同类型暂态事件(需先明确:电压暂降、电压暂升、脉冲暂态属于 “短时突发暂态”,而谐波(稳态)不属于暂态事件,仅 “暂态谐波”(如负载突变时的短时谐波)属于暂态范畴)的捕捉方法异同,需先立足
    的头像 发表于 09-26 09:57 845次阅读
    不<b class='flag-5'>同类型</b>的暂态事件(如电压暂降、电压暂升、谐波等)在捕捉方法上有何异同?

    同类型的自动化工具在评估数据缓存效果时有哪些优缺点?

    在评估数据缓存效果时,不同类型的自动化工具(实时监控类、性能测试类、深度分析类、云原生专属类)因设计目标和技术特性不同,存在显著的优缺点差异。以下结合工具类型与具体场景,系统对比其核心优劣势,并给出
    的头像 发表于 09-25 17:48 856次阅读
    不<b class='flag-5'>同类型</b>的自动化工具在评估数据缓存效果时有哪些优缺点?

    同类型浪涌保护器(SPD):接线制式与选型指南

    浪涌保护器(SPD,Surge Protective Device)是电气系统防雷与过电压防护的重要设备,能够有效抑制由雷电感应、电网操作、电磁脉冲等引起的瞬态过电压,保护电气设备安全运行。不同类型
    的头像 发表于 09-22 14:49 1531次阅读
    不<b class='flag-5'>同类型</b>浪涌保护器(SPD):接线制式与选型指南

    同类型的电能质量在线监测装置数据验证频率有何差异

      电能质量在线监测装置的类型划分,通常基于 应用场景(电网侧 / 用户侧)、监测功能(通用型 / 专项型)、电压等级(高压 / 中低压) 三大维度。不同类型装置的核心差异在于 “数据用途的关键程度
    的头像 发表于 09-04 11:55 658次阅读

    工业相机的类型及不同类型的应用

    工业相机根据不同的分类标准,可分为多种类型,每种类型都有其独特的应用场景。
    的头像 发表于 08-29 17:07 937次阅读
    工业相机的<b class='flag-5'>类型</b>及不<b class='flag-5'>同类型</b>的应用

    简述不同类型接地电阻柜及其特点

    接地电阻柜在电力系统中用于限制接地故障电流、抑制过电压并保障设备安全,不同类型的接地电阻柜根据应用场景和设计需求具有以下特点: 1. 中性点接地电阻柜 应用场景: 主要用于变压器、发电机或配电系统
    的头像 发表于 05-23 16:28 928次阅读