0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习如何帮助解决大数据转换及管理问题?

电子设计 来源:电子设计 作者:电子设计 2020-12-24 23:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

尽管大数据分析技术取得了惊人的进步,但我们在很大程度上仍需要手动来完成重要任务,例如数据转换和数据管理。随着数据量的增长,手动完成任务与自动化产生的生产力差距越来越大,这使得以人工智能机器学习为基础的自动化趋势越来越有市场。机器学习可以帮助缩小这一差距吗?

坦率地说,数据转换和数据管理问题颇具挑战性。各行各业的公司都渴望将机器学习与他们的数据库结合使用,以获得竞争优势。但是,数据不干净、数据未集成、不可比较和不匹配的数据问题层出不穷,使公司的大数据计划陷入困境。

许多从事机器学习的数据科学家花费了90%的时间来查找、集成、修复和清理其输入数据。 人们似乎没有意识到数据科学家不再是数据科学家,而是成为了数据集成商。

不过也有一个好消息,机器学习本身可以帮助机器学习。这个想法是利用算法的预测能力来模拟人类数据处理。这不是100%完美的解决方案,但它可以帮助缓解工作强度,让数据科学家转向真正的创新工作。

您可以在任何你能买到的地方购买ML,通过使用ML来来帮助您完成ETL的转换部分。

转换和管理数据

虽然它们在某些方面是相似的,但是数据管理和数据转换之间有重要的区别。数据转换是数据集成过程中的第一步,其目标是将异类数据转换为通用的全局模式,组织可以提前制定该模式。自动脚本通常用于将美元转换成欧元,或将英镑转换成公斤。

转换阶段之后,分析人员开始管理和分析数据。第一步通常涉及运行“match/merge”函数来创建与相同实体对应的记录集群,例如将不同但拼写相似的名称分组在一起。像“编辑距离”这样的概念可以用来确定两个不同实体之间的距离。

然后使用更多的规则来比较各种实体,以确定给定记录的最佳值。公司可以声明最后一项是最好的,或者使用一组值中的公共值,这样就可以产生最佳数据。

几十年来,这种通用的两步过程已在许多数据仓库中使用,并且在现代的数据湖中继续使用。但是,ETL和数据管理在很大程度上未能跟上今天的数据量以及企业面临的挑战规模。

例如,这需要预先定义一个全局模式,这阻碍了许多ETL的进行,这些工作试图集成更多的数据源。在有些时候,程序员无法跟上必须设置的数据转换规则的数量。

如果您有10个数据源,您还可以这样做,但是,如果您有10,000个,那就不太可能了。

显然,这需要一种不同的方法。

在小型企业中,您可能可以提前创建全局数据模式,然后在整个组织中强制使用它,从而省去了昂贵的ETL和数据管理项目的成本,一起放在数据仓库中。但是,在大型组织中,这种自上而下的方法不可避免地会失败。

即使大型企业中的业务部门彼此非常相似,它们记录数据的方式也会有微小的差异。这些微小差异需要加以考虑,然后才能对其进行有意义的分析,这只是企业数据性质的反映。

因此业务灵活性需要一定程度的独立性,这意味着每个业务部门都建立自己的数据中心

例如,以丰田汽车欧洲公司(Toyota Motor Europe)为例,该公司在每个业务国家都有独立的客户支持组织。该公司希望为250个数据库中的所有实体创建一个主记录,其中包含40种不同语言的3000万条记录。

丰田汽车欧洲公司面临的问题是,ETL和数据管理项目的规模是巨大的,如果按照传统方式进行,将消耗大量的资源。该公司决定使用Tamr来帮助解决机器学习的挑战,而不是数据转换和使用数据管理过程。

ETL最大的问题是已经预先定义了全局模式,如何大规模地做到这一点是个问题。需要使用机器学习进行自下向上的匹配、自下而上地构造目标模式,从规模上看,这是唯一可行的方式。

这并不意味着机器学习提供了非常简单的方法来解决这些棘手的数据集成问题。它仍然需要大量的数据和处理能力,您通常需要一个最优秀的员工来帮助指导软件获得正确的数据分析结果与决策见解。

这样来看的话,成本并不便宜,但这不是最重要的。但还有一个问题是,不同的供应商之间该如何选择。不同国家或地区的供应商提供的解决方案不同,而且出于一些宏观因素,会出现不同的选择。

出于安全考虑,这些数据问题不能完全外包给其他公司,所以不要指望完全用机器学习来处理数据,人在其中的作用还是非常重要的。人与机器学习合作才能够使您的数据集成和管理效率最大化。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 工业自动化
    +关注

    关注

    17

    文章

    3235

    浏览量

    70060
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137226
  • 大数据
    +关注

    关注

    64

    文章

    9096

    浏览量

    144061
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据
    的头像 发表于 04-24 15:48 60次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    黑M-狂野大数据5期|网盘无密Mp4+大数据直播课-狂野大数据

    科技重构数据生产力:狂野大数据直播实战全解析 随着数字化时代的快速发展,大数据已经渗透到我们生活的方方面面。无论是商业、教育,还是医疗、政府服务,大数据的应用都在不断创造新的价值。而在
    的头像 发表于 04-06 11:13 206次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    大数据平台运营的基础是什么

    ,值得每一位企业运营者思考。 本文提供大数据平台运营的三元素模型,旨在帮助企业管理层以全面的视角审视企业当前正在建设的大数据体系,真正地实现数据
    的头像 发表于 12-23 16:07 355次阅读

    大数据时代下的管理变革:勤哲EXCEL服务器助力企业高效运营

    大数据高速发展的今天,先进信息技术正在潜移默化地改变现代企业的经营管理模式。实践证明,这些技术不但提升了管理效率,还为企业决策提供了科学依据。信息化建设已成为企业管理创新的重要趋势,
    的头像 发表于 11-19 14:29 618次阅读

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等领域。其核心
    的头像 发表于 10-30 11:29 322次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    北京华盛恒辉电磁兼容 (EMC) 大数据智能管理系统精简解析 在 EMC 大数据分析中,电磁兼容与电磁干扰(EMI)智能管理系统是保障设备稳定、提升系统可靠性的核心工具。系统整合 EM
    的头像 发表于 09-17 14:58 767次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 730次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据</b>分析中的智能<b class='flag-5'>管理</b>平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 1052次阅读
    电磁兼容与电磁干扰在电磁兼容性<b class='flag-5'>大数据</b>分析中的智能<b class='flag-5'>管理</b>系统

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 801次阅读

    东软集团与贵州省大数据发展管理局达成战略合作

    8月20日,东软与贵州省大数据发展管理局共同签署战略合作协议。此次签约将加速推动贵州省医疗、养老、就业的数据价值化进程,为地方经济社会高质量发展注入强大动力,也将为东软在数据价值化、人
    的头像 发表于 08-25 16:53 1141次阅读

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1213次阅读

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3097次阅读

    安科瑞有序充电平台:物联网与大数据驱动的充电设施管理

    概述 有序充电运营管理平台是基于物联网和大数据技术的充电设施管理系统,可以实现对充电桩的监控、调度和管理、提供充电桩的利用率和充电效率,提升用户的充电体验和服务质量。用户可以通过APP
    的头像 发表于 07-15 15:58 1687次阅读
    安科瑞有序充电平台:物联网与<b class='flag-5'>大数据</b>驱动的充电设施<b class='flag-5'>管理</b>

    智慧环保大数据管理平台有什么功能

    在环境污染问题日益严峻的当下,智慧环保大数据管理平台成为环境治理的重要利器。它围绕污水处理、垃圾处理、气体监测三大核心场景,深度融合大数据、物联网、人工智能等技术,构建起全方位、智能化的环境管理
    的头像 发表于 06-06 15:17 718次阅读
    智慧环保<b class='flag-5'>大数据管理</b>平台有什么功能