0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何克服机器学习面临的数据挑战?

我快闭嘴 来源:千家网 作者:千家网 2020-07-07 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,数据对于机器学习的重要性。了解数据访问模式将帮助数据科学家确定适合其项目的正确存储基础架构。数据基础架构使机器学习成为可能。然而,一旦开始使用,机器学习就面临着关键的数据挑战,需要首先解决:

质量

稀疏性

完整性

接下来,让我们深入研究其中的每一个,以便大家了解如何克服机器学习的这些挑战:

1. 质量

许多数据科学家希望利用外部来源的数据。然而,通常没有质量控制或保证如何捕获原始数据。

你相信外部数据的准确性吗?

这是一个很好的例子。漂浮在海洋中的浮标上的传感器收集有关海洋温度的数据。但是,当传感器无法收集温度时,它将记录为999。此外,在2000年之前,仅用两个数字记录了年份的数字。但是在2000年之后,记录的数字变为了四个。

因此,我们需要了解数据的质量以及如何准备数据。在这种情况下,分析浮标数据的科学家可以使用平均值、均值、最小值、最大值来可视化原始数据,捕获这些数据库错误并相应地对其进行清理。

2. 稀疏性

在这种情况下,稀疏适用于元数据。通常,元数据字段不完整,有些字段已填写,有些字段留空。如果数据是从单一来源生成的,则可能是由于人类缺乏规范或知识所致。但是,如果数据来自各种来源,而没有元数据的标准定义,则每个数据集可能具有完全不同的字段。因此,将它们组合在一起时,完成的字段可能不对应。

当前,关于捕获哪些元数据没有行业标准。然而,元数据与数据本身一样重要。当您具有填充了不同元数据字段的相同类型的数据时,如何关联和过滤数据?

如果以浮标为例,初始数据传感器每十分钟收集一次水温,而较新的浮标每三分钟收集一次水温。关联数据的唯一方法是通过元数据在捕获时公开。当科学家进行历史分析时,他们需要元数据以便能够相应地调整其模型。

3. 完整性

数据完整性是数据准确性和一致性的保证。数据保管链对于证明数据在流水线和位置中移动时不会受到损害至关重要。当数据的捕获和摄取受到控制时,您可以相对轻松地验证其完整性。但是,与他人合作时,很难进行验证。生成数据时,没有用于外部数据的安全证书。您也不能确保数据记录完全符合预期,也不能确保接收到的数据与原始记录时完全相同。

关于物联网数据和区块链存在一些有趣的概念,但是,在广泛采用这种概念之前,数据完整性取决于安全技术和策略的结合。例如,由于数据在静态或传输过程中可能会受到威胁,因此通过网络传输的数据应使用https,并且在静态时应进行加密。另一方面,访问控制应受策略驱动,以避免人为错误。

如何开始?

数据质量、稀疏性和完整性直接影响最终模型的准确性,并且是当今机器学习面临的一些比较大的挑战。拥有清晰数据定义,政策并探索行业特定数据标准的组织将在短期和长期项目中受益。

如果您还没有,那么您的组织应该首先定义自己的数据收集策略,元数据格式,然后应用标准的安全技术。数据质量和稀疏性齐头并进。下一步,设置元数据策略,并确保可以使用捕获的定性数据来验证数据的有效性。最后,为了确保数据完整性,可以在生成数据时应用数字证书,应该在传输过程中强制使用SSL,并且始终保持启用加密状态。

安全数据协作

如果您所在的行业需要与外部组织不断交换数据,那么最好开放您的数据和元格式的源代码,因为这些标准比许多专有标准更广泛。更好的是,您可以发起一个行业开放标准委员会,让其他人参与和贡献。一个很好的例子是“开放目标”,这是一种“公私合作伙伴关系,利用人类遗传学和基因组学数据进行系统的药物靶点识别和优先排序。”

尤其是研究数据生态系统已经变得高度复杂,组织内部和外部的合作者需要快速访问数据以及简化数据管理的方法。机器学习的挑战很多。第一步是使用正确的数据和基础结构启动项目。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2578

    文章

    55527

    浏览量

    794010
  • 物联网
    +关注

    关注

    2950

    文章

    48135

    浏览量

    418572
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 65次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    四足机器面临的热管理与散热挑战:持续运行的隐形障碍

    下面用专业且贴近工程实际的方式,把四足机器狗的热管理与散热挑战拆透——它之所以被称为「持续运行的隐形障碍」,是因为不爆炸、不报错、不明显卡机,却会悄悄让机器狗降功率、断续航、折寿命、无法连续作业
    的头像 发表于 02-14 11:20 651次阅读
    四足<b class='flag-5'>机器</b>狗<b class='flag-5'>面临</b>的热管理与散热<b class='flag-5'>挑战</b>:持续运行的隐形障碍

    芯片可靠性面临哪些挑战

    芯片可靠性是一门研究芯片如何在规定的时间和环境条件下保持正常功能的科学。它关注的核心不是芯片能否工作,而是能在高温、高电压、持续运行等压力下稳定工作多久。随着晶体管尺寸进入纳米级别,芯片内部犹如一个承受着巨大电、热、机械应力考验的微观世界,其可靠性面临着原子尺度的根本性挑战
    的头像 发表于 01-20 15:32 556次阅读
    芯片可靠性<b class='flag-5'>面临</b>哪些<b class='flag-5'>挑战</b>

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    基于ETAS嵌入式AI工具链将机器学习模型部署到量产ECU

    AI在汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成到ECU软件中,已成为业界面临的核心挑战
    的头像 发表于 12-24 10:55 6386次阅读
    基于ETAS嵌入式AI工具链将<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型部署到量产ECU

    亚太地区AI数据中心可持续发展面临重重挑战

    当Chat GPT每秒“吞吐”数万次请求、自动驾驶汽车毫秒级解析路况、AI大模型训练一口“吞”掉百万度电时,我们正亲历着一场由“算力浪潮”驱动的科技革命;与此同时,一个严峻的现实问题也浮出水面:强大的AI背后是对电力的极度渴求,算力增长与能源约束之间的矛盾已成为全球面临的关键挑战
    的头像 发表于 12-10 10:24 1338次阅读
    亚太地区AI<b class='flag-5'>数据</b>中心可持续发展<b class='flag-5'>面临</b>重重<b class='flag-5'>挑战</b>

    克服全车以太网汽车架构中的 QoS 挑战

    这份报告由雷诺Ampere汽车公司和RTaW公司在2025年10月15日法国图卢兹举办的IEEEEthernet&IP@AutomotiveTechnologyDay上联合发表,主题为“OvercomingQoSChallengesinaFullAutomotiveEthernetArchitecture(克服全车
    发表于 10-29 15:47 1次下载

    开发无线通信系统所面临的设计挑战

    的设计面临多种挑战。为了解决这些挑战,业界逐渐采用创新的技术解决方案,例如高效调变与编码技术、动态频谱管理、网状网络拓扑结构以及先进的加密通信协议。此外,模块化设计、可升级架构与边缘计算的结合,为系统带来更高的灵活性与未来发展潜
    的头像 发表于 10-01 15:15 1w次阅读

    AI 驱动三维逆向:点云降噪算法工具与机器学习建模能力的前沿应用

    在三维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点云降噪算法工具与机器学习建模能力
    的头像 发表于 08-20 10:00 868次阅读
    AI 驱动三维逆向:点云降噪算法工具与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>建模能力的前沿应用

    利用NVIDIA Cosmos模型训练通用机器

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型(如 NVIDIA
    的头像 发表于 08-05 16:22 2259次阅读
    利用NVIDIA Cosmos模型训练通用<b class='flag-5'>机器</b>人

    FOPLP工艺面临挑战

    FOPLP 技术目前仍面临诸多挑战,包括:芯片偏移、面板翘曲、RDL工艺能力、配套设备和材料、市场应用等方面。
    的头像 发表于 07-21 10:19 1785次阅读
    FOPLP工艺<b class='flag-5'>面临</b>的<b class='flag-5'>挑战</b>

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3098次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战
    的头像 发表于 07-14 11:49 1281次阅读
    通过NVIDIA Cosmos模型增强<b class='flag-5'>机器人学习</b>

    AI 时代来袭,手机芯片面临哪些新挑战

    边缘AI、生成式AI(GenAI)以及下一代通信技术正为本已面临高性能与低功耗压力的手机带来更多计算负载。领先的智能手机厂商正努力应对本地化生成式AI、常规手机功能以及与云之间日益增长的数据传输需求
    的头像 发表于 06-10 08:34 1379次阅读
    AI 时代来袭,手机芯片<b class='flag-5'>面临</b>哪些新<b class='flag-5'>挑战</b>?

    智能软件+硬件解决方案克服实时立体视觉中的挑战

    现出色,特别适用于工业机器人应用。从料箱捡取到自主导航,立体视觉使得各种机器人应用成为可能。然而,在实时应用场景中部署立体视觉系统时,常常面临以下几个挑战:图像处理
    的头像 发表于 05-16 17:04 770次阅读
    智能软件+硬件解决方案<b class='flag-5'>克服</b>实时立体视觉中的<b class='flag-5'>挑战</b>