0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何克服机器学习面临的数据挑战?

我快闭嘴 来源:千家网 作者:千家网 2020-07-07 09:54 次阅读

众所周知,数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家确定适合其项目的正确存储基础架构。数据基础架构使机器学习成为可能。然而,一旦开始使用,机器学习就面临着关键的数据挑战,需要首先解决:

质量

稀疏性

完整性

接下来,让我们深入研究其中的每一个,以便大家了解如何克服机器学习的这些挑战:

1. 质量

许多数据科学家希望利用外部来源的数据。然而,通常没有质量控制或保证如何捕获原始数据。

你相信外部数据的准确性吗?

这是一个很好的例子。漂浮在海洋中的浮标上的传感器收集有关海洋温度的数据。但是,当传感器无法收集温度时,它将记录为999。此外,在2000年之前,仅用两个数字记录了年份的数字。但是在2000年之后,记录的数字变为了四个。

因此,我们需要了解数据的质量以及如何准备数据。在这种情况下,分析浮标数据的科学家可以使用平均值、均值、最小值、最大值来可视化原始数据,捕获这些数据库错误并相应地对其进行清理。

2. 稀疏性

在这种情况下,稀疏适用于元数据。通常,元数据字段不完整,有些字段已填写,有些字段留空。如果数据是从单一来源生成的,则可能是由于人类缺乏规范或知识所致。但是,如果数据来自各种来源,而没有元数据的标准定义,则每个数据集可能具有完全不同的字段。因此,将它们组合在一起时,完成的字段可能不对应。

当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据?

如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元数据以便能够相应地调整其模型。

3. 完整性

数据完整性是数据准确性和一致性的保证。数据保管链对于证明数据在流水线和位置中移动时不会受到损害至关重要。当数据的捕获和摄取受到控制时,您可以相对轻松地验证其完整性。但是,与他人合作时,很难进行验证。生成数据时,没有用于外部数据的安全证书。您也不能确保数据记录完全符合预期,也不能确保接收到的数据与原始记录时完全相同。

关于物联网数据和区块链存在一些有趣的概念,但是,在广泛采用这种概念之前,数据完整性取决于安全技术和策略的结合。例如,由于数据在静态或传输过程中可能会受到威胁,因此通过网络传输的数据应使用https,并且在静态时应进行加密。另一方面,访问控制应受策略驱动,以避免人为错误。

如何开始?

数据质量、稀疏性和完整性直接影响最终模型的准确性,并且是当今机器学习面临的一些比较大的挑战。拥有清晰数据定义,政策并探索行业特定数据标准的组织将在短期和长期项目中受益。

如果您还没有,那么您的组织应该首先定义自己的数据收集策略,元数据格式,然后应用标准的安全技术。数据质量和稀疏性齐头并进。下一步,设置元数据策略,并确保可以使用捕获的定性数据来验证数据的有效性。最后,为了确保数据完整性,可以在生成数据时应用数字证书,应该在传输过程中强制使用SSL,并且始终保持启用加密状态。

安全数据协作

如果您所在的行业需要与外部组织不断交换数据,那么最好开放您的数据和元格式的源代码,因为这些标准比许多专有标准更广泛。更好的是,您可以发起一个行业开放标准委员会,让其他人参与和贡献。一个很好的例子是“开放目标”,这是一种“公私合作伙伴关系,利用人类遗传学和基因组学数据进行系统的药物靶点识别和优先排序。”

尤其是研究数据生态系统已经变得高度复杂,组织内部和外部的合作者需要快速访问数据以及简化数据管理的方法。机器学习的挑战很多。第一步是使用正确的数据和基础结构启动项目。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2526

    文章

    48092

    浏览量

    740016
  • 物联网
    +关注

    关注

    2868

    文章

    41622

    浏览量

    358351
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
收藏 人收藏

    评论

    相关推荐

    大语言模型在机器人上的应用及面临挑战

    。   一些机器人现在能够理解人类的语言,并与之进行交流。此外,一些新型的智能机器人还具备学习能力。他们可以通过大量的数据和经验,不断地优化自己的行为和决策,提高自身的性能。这种能力使
    的头像 发表于 01-09 00:05 1083次阅读

    克服GaN功率放大器实施中的挑战

    电子发烧友网站提供《克服GaN功率放大器实施中的挑战.pdf》资料免费下载
    发表于 11-23 16:41 0次下载
    <b class='flag-5'>克服</b>GaN功率放大器实施中的<b class='flag-5'>挑战</b>

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步
    的头像 发表于 08-24 09:20 1151次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>为什么需要<b class='flag-5'>数据</b>预处理

    Emulex光纤通道HBA克服光纤通道SAN拥塞挑战

    电子发烧友网站提供《Emulex光纤通道HBA克服光纤通道SAN拥塞挑战.pdf》资料免费下载
    发表于 08-22 10:43 0次下载
    Emulex光纤通道HBA<b class='flag-5'>克服</b>光纤通道SAN拥塞<b class='flag-5'>挑战</b>

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1396次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    机器学习是什么意思?机器学习属于什么分支?机器学习是什么有什么用处?
    的头像 发表于 08-17 16:30 1273次阅读

    机器学习数据挖掘的区别 机器学习数据挖掘的关系

    机器学习数据挖掘的区别 , 机器学习数据挖掘的关系 机器
    的头像 发表于 08-17 16:30 1523次阅读

    数据挖掘和机器学习有什么关系

    数据挖掘和机器学习有什么关系 数据挖掘和机器学习是两个不同的概念,但它们有一些重要的相似之处。这
    的头像 发表于 08-17 16:29 2069次阅读

    python数据挖掘与机器学习

    python数据挖掘与机器学习 Python是一个非常流行的编程语言,被广泛用于数据挖掘和机器学习
    的头像 发表于 08-17 16:29 884次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    ,讨论一些主要的机器学习算法,以及比较它们之间的优缺点,以便于您选择适合的算法。 一、机器学习算法的基本概念 机器
    的头像 发表于 08-17 16:27 625次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器学习算法优缺点?
    的头像 发表于 08-17 16:11 1073次阅读

    机器学习和深度学习的区别

    的区别。 1. 机器学习 机器学习是指通过数据使机器能够自动地
    的头像 发表于 08-17 16:11 3382次阅读

    机器学习数据挖掘的对比与区别

    机器学习数据挖掘的对比与区别  机器学习数据挖掘是当前互联网行业中最热门的领域之一。虽然它们
    的头像 发表于 08-17 16:11 1154次阅读

    如何克服LoRa®终端节点设计中的挑战

    本文将介绍LoRa网络架构的四个主要元素,并详细讨论设计人员在开发LoRa终端节点时面临的一些最常见的挑战。我们还会介绍在帮助克服这些挑战并缩短上市时间方面,经过法规认证的LoRa模块
    的头像 发表于 07-13 15:45 369次阅读
    如何<b class='flag-5'>克服</b>LoRa®终端节点设计中的<b class='flag-5'>挑战</b>