0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

理解这些数据类型有助于对数据集进行恰当的探索性数据分析

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:35 次阅读

编者按:数据类型是统计学的重要概念。机器学习和数据科学开发者Niklas Donges简要介绍了不同的数据类型,理解这些数据类型有助于对数据集进行恰当的探索性数据分析(EDA)——机器学习项目最被低估的部分之一。

介绍

理解不同的数据类型,是探索性数据分析(Exploratory Data Analysis,EDA)所需的关键预备知识,同时也有助于你选择正确的可视化方法。你可以将数据类型看成归类不同类型变量的方式。我们将讨论主要的变量类型,以及相应的示例。有时我们会称其为测量尺度(measurement scale)。

类别数据

类别数据(categrorical data)表示特性,例如一个人的性别,所说的语言,等等。类别数据同样可以使用数值(例如:1表示雌性,0表示雄性)。

名目数据

名目值(nominal value)指用于标记变量的定性离散单元。你可以直接把它们想象成“标签”。注意名目数据是无序的。因此,如果你改变名目值的顺序,其语义并不会改变。下面是一些名目特征的例子:

性别:雌性、雄性。

语言:英语、法语、德语、西班牙语。

上面的性别特征也被称为“二分(dichotomous)”值,因为它只包含两个类别。

次序数据

次序值(ordinal value)指离散、有序的定性单元。除了有序之外,它几乎和名目数据一样。例如,教育背景可以用次序值来表示:

初中

高中

大学

研究生

注意,其实初中、高中之间的差别,和高中、大学之间的差别,是不一样的。这是次序数据的主要限制,次序值之间的差别是未知的。因此,次序值通常用于衡量非数值特征,例如愉悦程度、客户满意度。

数值数据

离散数据

离散数据(discrete data)的值是不同而分散的,换句话说,只能接受一些特定值。这类数据无法测量但可以计数。它基本上用来表示可以分类的信息。例如,抛100次硬币正面向上的次数。

你可以通过以下两个问题检查你处理的是否是离散数据:你可以对其计数吗?它可以被切分成越来越小的部分吗?

相反,如果数据可以测量但无法计数,那就是连续数据。

连续数据

连续数据(continuous data)表示测量。例如身高。

连续数据可以分为等距数据(interval data)和等比数据(ratio data)。

等距值指间隔相等的有序单元,也就是说,等距变量包含有序数值,并且我们知道这些数值之间的间隔。例如,用等距数据表示温度:

-10

-5

0

+5

+10

+15

等距值的问题在于,它们没有“真正的零”。拿上面的例子来说,0度不是绝对零度。另外,我们可以加减等距值,而不能乘除等距值或计算比率。由于没有“真正的零”,无法应用许多描述统计学或推论统计学的方法。

等比值具有等距值的所有特性,同时也有绝对的零。因此,不仅可以加减,还可以乘除。高度、重量、长度、绝对温度等都属于等比值。

数据类型为什么重要?

数据类型是一个非常重要的概念,因为统计学方法只能应用于特定的数据类型。你需要使用不同的方式分析连续数据和类别数据。因此,理解你处理的数据的类型,让你能够选择正确的分析方法。

下面我们将重新查看上面提到的每种数据类型,了解它们可以应用什么样的统计学方法。为了理解我们将讨论的一些性质,你需要对描述性统计学有所了解。如果你对此不熟悉,可以先看下我写的描述性统计学介绍。

统计学方法

名目数据

处理名目数据时,你通过下述方式收集信息:

频数在一段时间内或整个数据集中出现的次数。

比例频数除以所有事件的频数之和,即可得到比例。

百分比我想这无需解释了吧。

众数出现次数最多,也就是频数最高的数据。

可视化方法你可以使用饼图或直方图可视化名目数据。

左:饼图;右:直方图

次序数据

当你处理次序数据时,你可以使用以上用于名目数据的方法,不过,除此之外,你还可以使用一些额外的工具。也就是说,你可以使用频数、比例、百分比、众数概括次序数据,也可以使用饼图、直方图可视化次序数据。除此之外,你还可以使用:

百分位数计算由小到大排列的次序数据的累计百分位,某一百分位对应的数据值就称为这一百分位的百分位数。百分位数可以用来描述数据的离散趋势。

中位数即第50百分位数,它将数据分为相等的上下两部分。中位数可以用来描述数据的中间趋势。例如,如果我们用次序数据表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位数为大杯(也就是说,真正的中杯是大杯)。

四分位距第75百分位数与第25百分位数之差即为四分位距。四分位距可以简要概述数据的离散趋势。

连续数据

大多数统计学方法都可以用于连续数据。你可以使用百分位数、中位数、四分位距、均值、众数、标准差、区间。

你可以使用矩形图或箱形图可视化连续数据。从矩形图上可以看到分布的中间趋势、离散程度、形态和峰态。注意,矩形图不体现离散值,因此我们有时使用箱形图。

左:箱形图;右:矩形图

总结

本文讨论了统计学中常用的不同数据类型。你了解了离散数据和连续数据的区别,以及什么是名目数据、次序数据、等距数据、等比数据。此外,你现在知道了每种数据类型可以应用的统计学方法和可视化方法。如果你在给定数据集上进行探索性分析,你会发现这些非常有用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8118

    浏览量

    130550
  • 数据分析
    +关注

    关注

    2

    文章

    1351

    浏览量

    33732
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24348

原文标题:统计学常用数据类型

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    变量和数据类型PPT教程

    变量和数据类型PPT教程程序是为执行一项任务而编写的有序指令算法是解决问题的具体方法和步骤流程图是算法的图形化表现形式C语言的特点C程序的编译和运行过程编译器将源程序转换成机器能理解的程序连接器
    发表于 06-20 16:38

    数据分析需要的技能

    数据分析人员要具备对数据库的操作能力,来实现数据的读取、修改、删除和更新等功能,常用的数据存储数据
    发表于 04-10 15:59

    python数据分析的类库

    学运算及对数组执行元素级计算的函数;3).用于读写硬盘上基于数组的数据的工具;4).线性代数运算、傅里叶变换,以及随机数生成。2.Pandas大名鼎鼎的Pandas可以说只要做数据分析
    发表于 05-10 15:18

    什么是探索性测试ET

    探索性测试ET(exploratory)是和ST(script based test)相比较而言的.笼统地说,ST就是有确定的步骤和预期目标的测试.探索性测试可以说是一种测试思维。它没有很多实际
    发表于 07-05 06:38

    数据分析与挖掘实战》总结及代码---chap3数据探索

    数据分析与挖掘实战》总结及代码练习---chap3 数据探索
    发表于 05-25 13:25

    数据探索数据预处理

    目录1数据探索数据预处理21.1 赛题回顾21.2 数据探索性分析与异常值处理21.3 相关性
    发表于 07-12 08:37

    探索性数据分析(EDA)及其应用

    所谓探索性数据分析(EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行
    发表于 01-24 10:02 1365次阅读
    <b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(EDA)及其应用

    介绍几种用于机器学习探索性数据分析数据类型

    离散数据是指其取值是不连续的分离值,数据只能在一些特定点取值。这样的数据不能定量测量但可以进行统计计量,并可将其蕴含的信息通过分类的方式进行
    的头像 发表于 04-20 16:47 4719次阅读

    如何看懂R中的探索性数据分析(附R代码)

    本文将通过介绍一个代码模板的四个基本步骤,来帮助您完成数据分析的初期探索
    的头像 发表于 11-25 10:52 3339次阅读
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(附R代码)

    细分模型探索性数据分析和预处理

    交流学习!文章较长,建议收藏~ 客户细分模型是将整体会员划分为不同的细分群体或类别,然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分析,通过细分建立初步认知,为下一步的
    的头像 发表于 11-08 16:05 1314次阅读
    细分模型<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>和预处理

    数据分析的重要性

    数据分析有助于找到问题的解决方案,如降低成本,节省时间并降低决策风险。通过结合数据分析和机器学习,企业可以通过以下方式获益匪浅:
    的头像 发表于 05-10 15:34 668次阅读

    PLC 数据类型 (UDT) 的基本知识

    ,也可直接使用关键字 STRUCT 声明为一个结构。因此,嵌套深度限制为 8 级。 PLC 数据类型 (UDT) 可在程序代码中统一更改和重复使用。系统自动更新该数据类型的所用使用位置。 PLC 数据类型的优势: 通过块接口,在
    的头像 发表于 09-10 09:46 2209次阅读
    PLC <b class='flag-5'>数据类型</b> (UDT) 的基本知识

    Sweetviz让你三行代码实现探索性数据分析

    ,还能对每个栏目做众数、最大值、最小值等横向对比。 所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后自动帮你进行总结,是一个探索性数据分析的好帮手。 1.准备
    的头像 发表于 10-17 10:59 235次阅读
    Sweetviz让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    Sweetviz: 让你三行代码实现探索性数据分析

    栏目做众数、最大值、最小值等横向对比。 所有输入的数值、文本信息都会被自动检测,并进行数据分析、可视化和对比,最后自动帮你进行总结,是一个探索性数据分析的好帮手。 1.准备 开始之前,
    的头像 发表于 10-31 10:28 682次阅读
    Sweetviz: 让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    plc数据类型怎么理解和应用

    PLC(可编程逻辑控制器)是一种工业自动化设备,用于控制机械和工业过程。在PLC编程中,数据类型是非常重要的概念,因为它决定了程序中数据的存储和处理方式。正确理解和应用PLC数据类型
    的头像 发表于 12-19 11:39 1382次阅读