0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中的数据准备,为什么它如此重要

独爱72H 来源:百家号 作者:百家号 2019-11-11 16:03 次阅读

(文章来源:百家号)

自动驾驶汽车等基于AI的大规模技术革命到构建非常简单的算法,您都需要正确格式的数据。实际上,特斯拉和福特一直在通过行车记录仪,传感器和倒车摄像头收集数据,并对其进行分析以制造出无人驾驶和全自动汽车,以确保安全的道路。

收集数据之后的下一步是准备数据的过程,这将成为本文的重点,并将在后续部分中详细讨论。在深入研究数据准备过程的概念之前,让我们首先了解其含义。作为基于AI创新的大脑的数据科学家,您需要了解数据准备的重要性,以实现模型所需的认知能力。

什么是数据准备?数据是每个组织的宝贵资源。但是,如果我们不进一步分析该声明,它可能会否定自己。 企业将数据用于各种目的。从广义上讲,它用于制定明智的业务决策,执行成功的销售和营销活动等。但是,这些不能仅用原始数据来实现。

数据只有经过清洗,贴标签,注释和准备后,才能成为宝贵的资源。数据经过适应性测试的各个阶段后,便最终具备进行进一步处理的资格。处理可以采用多种方法-将数据提取到BI工具,CRM数据库,开发用于分析模型的算法,数据管理工具等。

现在,重要的是您从此信息的分析中收集的见解是准确且值得信赖的。实现此输出的基础在于数据的健康状况。此外,无论您是构建自己的模型还是从第三方那里获得模型,都必须确保标记,扩充,干净,结构化的整个过程背后的数据都经过标记,概括,即数据准备。

正如Wikipedia所定义的,数据准备是将原始数据(可能来自不同的数据源)操纵(或预处理)为可以方便,准确地进行分析的形式的行为,例如出于商业目的。数据准备是数据分析项目的第一步,可以包括许多离散任务,例如加载数据或数据摄取,数据融合,数据清理,数据扩充和数据交付。

根据Cognilytica的最新研究,其中记录并分析了组织,机构和最终用户企业的响应,以识别在标记,注释,清理,扩充和丰富机器学习模型的数据上花费了大量时间。数据科学家80%以上的时间都花在准备数据上。尽管这是一个好兆头,但考虑到随着良好的数据进入建立分析模型,准确的人会得到输出。但是,理想情况下,数据科学家应该将更多的时间花在与数据交互,高级分析,培训和评估模型以及部署到生产上。

只有20%的时间进入流程的主要部分。为了克服时间限制,组织需要利用用于数据工程,标记和准备的专家解决方案来减少在清理,扩充,标记和丰富数据上花费的时间(取决于项目的复杂性)。这将我们带入了“垃圾中的垃圾”概念,即输出的质量取决于输入的质量。数据提取数据工作流程的第一阶段是提取过程,通常是从非结构化源(如网页,PDF文档,假脱机文件,电子邮件等)中检索数据。部署从网络中提取信息的过程称为网络刮。

数据概要分析是检查现有数据以提高质量并通过格式带来结构的过程。这有助于评估质量和对特定标准的一致性。当数据集不平衡且配置不当时,大多数机器学习模型将无法正常工作。数据清理可确保数据干净,全面,无错误,并提供准确的信息,因为它不仅可以检测文本和数字的异常值,还可以检测图像中无关的像素。您可以消除偏见和过时的信息,以确保您的数据是干净的。

数据转换是对数据进行转换以使其均匀。地址,名称和其他字段类型之类的数据以不同的格式表示,数据转换有助于对此进行标准化和规范化。数据匿名化是从数据集中删除或加密个人信息以保护隐私的过程。数据扩充用于使可用于训练模型的数据多样化。在不提取新信息的情况下引入其他信息包括裁剪和填充以训练神经网络

数据采样识别大型数据集中的代表性子集,以分析和处理数据。特征工程是将机器学习模型分类为好模型还是坏模型的主要决定因素。为了提高模型的准确性,您可以将数据集合并以将其合并为一个。

(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87587
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130546
收藏 人收藏

    评论

    相关推荐

    什么是机器学习?它的重要性体现在哪

    任务的解决方法。机器学习重要性体现在几个方面数据处理能力:在当今数字化时代,我们产生了大量的数据机器
    的头像 发表于 01-05 08:27 483次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?它的<b class='flag-5'>重要</b>性体现在哪

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器
    的头像 发表于 08-24 09:20 1151次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>为什么需要<b class='flag-5'>数据</b>预处理

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1389次阅读

    机器学习theta是什么?机器学习tpe是什么?

    机器学习theta是什么?机器学习tpe是什么? 机器学习是近年来蓬勃发展的一个领域,其相关技术
    的头像 发表于 08-17 16:30 1219次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    的技术。在这个过程中,计算机通过不断地迭代和学习,提高算法的准确性和可靠性,从而可以更好地解决各种实际问题。 机器学习属于计算机科学领域的一种技术,并在人工智能领域中具有重要的地位。它
    的头像 发表于 08-17 16:30 1273次阅读

    机器学习数据挖掘的区别 机器学习数据挖掘的关系

    机器学习数据挖掘的区别 , 机器学习数据挖掘的关系 机器
    的头像 发表于 08-17 16:30 1519次阅读

    数据挖掘和机器学习有什么关系

    数据挖掘和机器学习有什么关系 数据挖掘和机器学习是两个不同的概念,但它们有一些
    的头像 发表于 08-17 16:29 2064次阅读

    python数据挖掘与机器学习

    python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘和机器学习
    的头像 发表于 08-17 16:29 883次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器学习算法优缺点?
    的头像 发表于 08-17 16:11 1066次阅读

    机器学习算法的5种基本算子

    机器学习算法的5种基本算子 机器学习是一种重要的人工智能技术,它是为了让计算机能够通过数据自主的
    的头像 发表于 08-17 16:11 1330次阅读

    python机器学习概述

    Python机器学习概述 机器学习是人工智能领域的一个重要分支,是一种可以自动改进和学习的算法。
    的头像 发表于 08-17 16:11 761次阅读

    机器学习和深度学习的区别

    的区别。 1. 机器学习 机器学习是指通过数据使机器能够自动地
    的头像 发表于 08-17 16:11 3375次阅读

    机器学习可以分为哪几类?机器学习技术有哪些?

    对自然语言、图像、声音、视频等数据进行分析、分类、预测的重要方法之一。在日常生活和工作中,我们可以看到机器学习广泛应用于推荐系统、搜索引擎、语音识别、自然语言处理、计算机视觉、医学诊断
    的头像 发表于 08-17 16:11 4374次阅读

    机器学习管道的重要

    数据提取和预处理到模型训练和调优,模型和部署的分析将在主流设计中的单个实体中运行。这意味着将使用相同的脚本提取、清理、准备、建模和部署数据。由于机器
    的头像 发表于 05-04 09:55 491次阅读