0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍几种用于机器学习探索性数据分析的数据类型

nlfO_thejiangme 来源:未知 作者:李倩 2018-04-20 16:47 次阅读

数据类型是统计学中的重要概念,我们需要对它有正确的理解方能利用正确的数据类型来获得结论。这篇文章将介绍几种用于机器学习探索性数据分析的数据类型,以便正确的把握和利用数据。

对数据结构的良好理解对于机器学习中探索性分析十分重要,对于不同的数据类型我们需要不同的统计学度量手段来进行分析测试。同时也需要根据数据的类型选择合适的可视化方式来帮助我们更好的理解数据。最后数据类型也为变量的分类提供了一个有效的途径。

分类数据

分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。

定类数据

定类变量用于标记不同变量的特征,而并不需要定量的数值,它们仅仅是标签而已。需要注意定类数据是无序的,对于变量顺序的更改不会改变数据的本质特征。

上图中表示的便是一个样本典型的分类数据,分别描述了个体的性别和语言属性。特别的作图中是一个只有两个属性的二叉分枝。

定序数据

定序数据代表了离散但是有序的变量单位。它于定类数据十分类型但确实有序的数据组织。下面教育背景的数据很好地的描述了定序数据的特点。

上图中的四个选项依次表示了不同的受教育程度,但却无法量化初级教育与高中的差别和高中与大学差别间的不同。定序数据缺乏对于特征间差别的量化使得它更多的只能用于评价利于情绪和用户满意度等一系列非数值特征。

数值数据

离散数据

离散数据是指其取值是不连续的分离值,数据只能在一些特定点取值。这样的数据不能定量测量但可以进行统计计量,并可将其蕴含的信息通过分类的方式进行表示。掷硬币便是最著名的例子,我们无法预测出下一次硬币的正反但是可以通过统计历史数据来估测概率的分布。

当处理离散数据时我们需要对两个问题进行深入思考:数据是否可以计数统计,是否可以分割成较小的部分。如果结论于此相关数据可以被测量而不能够计数,那么意味着我们需要处理的便是连续的数据类型。

连续数据

连续数据类型代表着对象可测量的连续取值,虽然不能够计数但是可以用某种尺度进行连续的测量取值,例如人的身高和年龄便是连续的数值。通常情况下人们只用或者实数来进行表示。

定距数据

定距变量用于表示对象等差属性的描述方法。当我们使用定距变量时我们可以明确的知道数值间的顺序和差别,并计量这种差别。对于温度的描述就是一个定距数据典型的例子。

但定距变量存在的问题在于它没有一个绝对的基准零值,对于上图中的温度来说0度并不意味着没有温度。对于定距变量来说我们可以进行加减操作却无法进行乘除或者比例计算操作。由于不存在绝对零值使得描述性和推理性的统计方法都无法在定距数据上应用。

定比数据

定比数据和定距数据一样都是有序的数据排列,但定比数据存在一个绝对的零值,所描述的都是具有零值基准的变量,包括重量、高度和长度等。

为何数据类型如此重要?

由于不同的统计方法适用于不同的数据类型,所以数据的类型对于统计和机器学习分析十分重要。试想如果利用连续数据的分析方法来研究分类数据,那么十有八九会得出错误的结论。对于数据类型的理解将会有助于我们选择正确的方法和统计模型来探索和分析数据。那么不同的数据类型我们该选择何种统计模型来分析呢?

对于定类数据来说主要需要关注频率、比例/百分比和可视化方法三个要素。用频率度量某一事物在一定时间或者是在数据集中发生的次数。同时可以用频率将其从数据中的占比进行统计和分离。对于这列数据来说饼图和柱状图是最好的呈现方式。

对于定序数据来说除了百分比和频率等指标外,还可以利用百分位数、中位数等统计指标来描述数据。

对于连续数据来说可以利用更为丰富的的手段进行处理,除了常见统计手段的均值和方差外还有峰峰值、范围等指标来进行表示。为了表示数据的误差和离散程度,带有误差棒的箱式图和直方图不失为一种直观的呈现方式。通过箱图可以看到数据的集中程度和误差程度,而直方图则可以提供数据的整体形态、中值、分布以及趋势。

在这篇文章中我们看到除了连续和离散的数值类型外,统计学中还包括了定序数据、定类数据、定距数据和定比数据等类别。对于不同的数据类型有着不同的分析和可视化方法,在着手处理数据时,理解数据是开始工作的首要条件,不仅有助于我们选择正确的工具和方法,更有助于我们用正确的思维去探索和分析数据,更容易地得出正确有效的结论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130553
  • 数据类型
    +关注

    关注

    0

    文章

    227

    浏览量

    13496

原文标题:机器学习探索性数据分析的数据类型

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    GaussDB 数据类型介绍

    进行数据类型转换,以满足不同的需求。本文将以示例的形式罗列并介绍一些常见的数据类型转换方法等。  数据类型概念及特点 数据类型是一组值的集合
    的头像 发表于 06-05 16:40 1271次阅读
    GaussDB <b class='flag-5'>数据类型</b><b class='flag-5'>介绍</b>

    Python中常用的数据类型

    的对象集合。7. 集合集合是一个无序的、不重复的数据组合,它的主要作用有两个,分别是去重和关系测试。以上是对Python的七种数据类型的简单介绍,具体使用方法,可以进行深入查找学习
    发表于 04-19 15:14

    怎么有效学习Python数据分析

    Python在人工智能、机器学习领域受到火热追捧,很大程度上在于它拥有非常庞大的第三方库,以及强大的通用编程性能。因此,快速掌握Python进行数据分析,就是学习Python各种第三方
    发表于 06-28 15:18

    什么是探索性测试ET

    探索性测试ET(exploratory)是和ST(script based test)相比较而言的.笼统地说,ST就是有确定的步骤和预期目标的测试.探索性测试可以说是一种测试思维。它没有很多实际
    发表于 07-05 06:38

    推荐几本机器学习和深度学习必读书籍+机器学习实战视频PPT+大数据分析书籍

    小白 机器学习和深度学习必读书籍+机器学习实战视频PPT+大数据分析书籍推荐!
    发表于 07-22 17:02

    DSP里的数据类型有哪几种数据类型使用不正确又会有什么后果?

    DSP里的数据类型有哪几种数据类型使用不正确又会有什么后果?
    发表于 04-20 06:21

    数据探索数据预处理

    目录1数据探索数据预处理21.1 赛题回顾21.2 数据探索性分析与异常值处理21.3 相关性
    发表于 07-12 08:37

    探索性数据分析(EDA)及其应用

    所谓探索性数据分析(EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算
    发表于 01-24 10:02 1365次阅读
    <b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(EDA)及其应用

    设计多网络协议的Python网络编程的探索性指南

    很高兴看到本书出版了,我要感谢所有为本书的出版做出贡献的人。本书是Python网络编程方面的探索性指南,涉及了很多网络协议
    发表于 09-14 10:47 5次下载

    如何看懂R中的探索性数据分析(附R代码)

    本文将通过介绍一个代码模板的四个基本步骤,来帮助您完成数据分析的初期探索
    的头像 发表于 11-25 10:52 3339次阅读
    如何看懂R中的<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>(附R代码)

    Python数据类型几种

    是对Python的七种数据类型的简单介绍,具体使用方法,可以进行深入查找学习!本文摘自tj.java.tedu.cn,如有侵权请及时告知。
    发表于 02-18 17:59 1404次阅读

    细分模型探索性数据分析和预处理

    交流学习!文章较长,建议收藏~ 客户细分模型是将整体会员划分为不同的细分群体或类别,然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性
    的头像 发表于 11-08 16:05 1314次阅读
    细分模型<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>和预处理

    Sweetviz让你三行代码实现探索性数据分析

    Sweetviz是一个开源Python库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析)。输出一个HTML。 如上图所示,它不仅能根据性别、年龄等不同栏目纵向分析
    的头像 发表于 10-17 10:59 235次阅读
    Sweetviz让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    Sweetviz: 让你三行代码实现探索性数据分析

    Sweetviz是一个开源Python库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析)。输出一个HTML。 它不仅能根据性别、年龄等不同栏目纵向分析数据
    的头像 发表于 10-31 10:28 682次阅读
    Sweetviz: 让你三行代码实现<b class='flag-5'>探索性</b><b class='flag-5'>数据分析</b>

    plc数据类型怎么理解和应用

    的PLC程序的关键。 PLC数据类型的基本理解 PLC数据类型是指用于存储和表示数据的方式,它们可以区分为不同类型
    的头像 发表于 12-19 11:39 1386次阅读