0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据和机器学习的数据如何演变

姚小熊27 来源: 新浪科技 作者: 新浪科技 2020-11-25 11:03 次阅读

大数据会影响质量,因为大数据的定义特征是数量,种类和速度使验证变得困难难以捉摸的“第四”,即准确性组件(关于数据可靠性),由于可能会聚集大量的数据源而面临挑战,每个数据源可能会遇到不同的质量问题,大数据还释放了可能引入新类型数据错误的新的和更复杂的查询的可能性,同时由于非结构化数据比结构化数据具有更大的不确定性,因此非结构化数据会产生问题,并且机器学习算法倾向于充当“黑匣子”,其中数据中包含的偏差可能永远不会消失。

您的数据质量工具箱尽管已经开发了许多工具来解决数据质量问题,但是如果不小心应用自动条目更正本身可能会降低数据质量,所有影响数据清晰度的因素(例如准确性,一致性,及时性,重复性,易失性,完整性和相关性)都可能导致进一步的问题,因为企业会更正数据并将其调整为适合处理的形式,每个转换都可能会丢失可能与给定查询相关的信息,当前的数据质量工具由主要的分析公司,利基公司和开源提供,它们提供诸如数据清理,数据概要分析,数据匹配,数据标准化,数据丰富和数据监视之类的功能,诸如金融服务之类的利基工具专注于特殊类型的问题,并且正在开发新的工具,这些工具采用机器学习技术进行数据分类和数据清理。在将大数据与机器学习相结合的地方,还会出现其他质量问题为规范化数据而进行的更改可能导致机器学习算法在解释上出现偏差,大型数据存储中错误发生的频率相对较低,可以说使得对数据质量检查的需求变得不那么重要了,但现实情况是,质量问题只是转移到了其他领域,自动校正和一般假设可能会在整个数据集中引入隐藏的偏差。

保持真实必须根据业务需求了解数据质量,在某些情况下,需要采用涉及无数变量的严格方法,但是对于许多查询而言,更宽容的方法是可以接受的,在及时性和准确性,查询值和数据清理以及准确性和可接受的错误之间始终需要权衡取舍,在复杂的数据和分析环境中,没有一个适合所有大小的空间,查询需要不同级别的准确性和及时性。

以一种方式构造的数据可能适用于某些用途,但会导致其他用途的结果不准确或有偏差。数据质量的最终测试是它是否产生所需的结果这要求进行严格的测试,并考虑引入错误的潜在原因,尽管用于数据清理,规范化和整理的工具越来越受欢迎,但可能的因素的多样性意味着这些过程不会在短期内完全实现自动化,随着自动化的普及,您必须确保自动化解决方案不会由于转换规则而在数据流中引入新问题。确定性的不确定性由于数据集和结构化数据有限,因此数据质量问题相对明确,创建数据的过程通常是透明的,并且会遇到已知错误:数据输入错误,表格填写不正确,地址问题,重复等,可能的范围相当有限,并且要严格定义处理的数据格式,随着机器学习和大数据的出现,数据清理的机制必须改变,除了更多,更快的数据外,非结构化数据的不确定性也大大增加,数据清理必须解释数据并将其放入适合处理的格式,而不会引入新的偏差,此外质量过程将根据特定用途而有所不同。数据质量比绝对质量更重要。

根据研究目标和业务目标,需要使查询与数据集更好地匹配,数据清理工具可以减少数据流中的一些常见错误,但始终存在潜在的意外偏见,同时查询需要及时且负担得起,从未迫切需要一种谨慎的数据质量方法,机器学习和高级软件工具无疑提供了解决方案的一部分,从而有可能为质量问题带来新的方法,但是没有万能药,更高级别的复杂性意味着需要更仔细地检查数据。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6512

    浏览量

    87601
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130567
  • 大数据
    +关注

    关注

    64

    文章

    8651

    浏览量

    136590
收藏 人收藏

    评论

    相关推荐

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    一文详解机器学习和深度学习的区别

    深度学习这几年特别火,就像5年前的大数据一样,不过深度学习其主要还是属于机器学习的范畴领域内,所以这篇文章里面我们来唠一唠
    发表于 09-06 12:48 1341次阅读
    一文详解<b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>的区别

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步
    的头像 发表于 08-24 09:20 1155次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>为什么需要<b class='flag-5'>数据</b>预处理

    机器学习数据挖掘的区别 机器学习数据挖掘的关系

    机器学习数据挖掘的区别 , 机器学习数据挖掘的关系 机器
    的头像 发表于 08-17 16:30 1528次阅读

    数据挖掘与机器学习专业就业方向

    数据挖掘与机器学习专业就业方向 随着信息技术的不断发展以及互联网的普及,我们现在生活在一个大数据时代中。大量的数据被收集并存储在不同的领域,
    的头像 发表于 08-17 16:29 1213次阅读

    数据挖掘和机器学习有什么关系

    数据挖掘和机器学习有什么关系 数据挖掘和机器学习是两个不同的概念,但它们有一些重要的相似之处。这
    的头像 发表于 08-17 16:29 2069次阅读

    python数据挖掘与机器学习

    python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘和机器学习
    的头像 发表于 08-17 16:29 888次阅读

    机器学习数据挖掘的对比与区别

    机器学习数据挖掘的对比与区别  机器学习数据挖掘是当前互联网行业中最热门的领域之一。虽然它们
    的头像 发表于 08-17 16:11 1158次阅读

    传感器、大数据机器学习、人工智能和机器人如何彼此影响?

    传感器、大数据机器学习、人工智能和机器人是怎样拧在一起了呢?在人工智能时代硬件和软件是共生演化的,彼此影响的呢?
    发表于 08-17 09:56 694次阅读
    传感器、<b class='flag-5'>大数据</b>、<b class='flag-5'>机器</b><b class='flag-5'>学习</b>、人工智能和<b class='flag-5'>机器</b>人如何彼此影响?

    大数据属于人工智能吗

    从不同的方面来考虑。 首先,要理解大数据和人工智能之间的区别。大数据是一种技术工具,它可以处理大量的数据,提供准确的分析和预测,但它并不具备智能。人工智能则是基于算法和模型,通过机器
    的头像 发表于 08-12 17:44 2038次阅读

    人工智能与大数据的关系和影响

    人工智能和大数据是密不可分的。大数据提供了足够的数据机器学习,从而使人工智能更加聪明、精确和准确。同时,人工智能也能够为
    发表于 08-03 17:45 1416次阅读

    Hadoop版本演变(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 14:37:20

    Hadoop版本演变(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 14:36:55

    大数据分析的重要性

    大数据分析有助于找到问题的解决方案,如降低成本,节省时间并降低决策风险。通过结合数据分析和机器学习,企业可以通过以下方式获益匪浅:
    的头像 发表于 05-10 15:34 670次阅读

    大数据是什么 大数据存储的概念 大数据应用场景有哪些

    大数据的成功管理取决于几个方面,例如数据的收集、存储、处理、分析和可视化。在大数据的处理过程中,各种技术和算法也被不断地应用于解决各种问题。大数据技术将继续发展和应用于各种领域,成为管
    发表于 05-03 09:23 2808次阅读