0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么90%的机器学习模型从未应用于生产

电子设计 来源:电子设计 作者:电子设计 2020-12-08 23:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入数十亿美元开发可以改进产品的机器学习模型就可以理解了。但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说,数据科学家的工作只有十分之一能够真正产出对公司有用的东西。

本文最初发布于 Towards Data Science,由 InfoQ 中文站翻译并分享。

大多数机器学习模型从未部署。图片由作者提供。

企业正在经历艰难时期。我说的不是病毒流行和股市波动。

时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入 数十亿美元 开发可以改进产品的机器学习模型就可以理解了。

但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。

有数据为证。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说,数据科学家的工作只有十分之一能够真正产出对公司有用的东西。

尽管 十分之九 的科技高管相信,人工智能将成为下一次科技革命的中心,但人工智能的采用和部署尚未获得长足的发展,而这不能怪数据科学家。

企业尚未准备好采用机器学习

领导支持并不意味着投钱多

数据科学家的 就业市场非常好。企业在招聘,而且也已经准备好支付高薪。

当然,管理人员和企业负责人期望这些数据科学家能带来巨大的价值。然而,就目前而言,他们并没有为此提供便利。

GAP 数据分析高级副总裁 Chris Chapo表示:“有时人们会想,我所需要做的只是针对一个问题投入资金或技术,成功就会到来。”

为了帮助数据科学家在工作中发挥出色的作用,领导者不仅需要将资源引向正确的方向,还需要了解机器学习模型是干什么的。一个可能的解决方案是,让领导者们自己接受一些数据科学的入门培训,这样他们就可以在公司里把这些知识付诸实践。

数据访问难度大

公司不擅长收集数据。许多公司都是高度筒仓化的,这意味着每个部门都有自己收集数据的方式、首选格式、存储位置以及安全和隐私偏好。

另一方面,数据科学家经常需要来自多个部门的数据。筒仓化增加了清理和处理这些数据的难度。此外,许多数据科学家 抱怨,他们甚至无法获得他们需要的数据。如果你没有必要的数据,怎么开始训练一个模型呢?

也许在过去,筒仓化的公司结构——以及无法访问的数据——便于管理。但在一个技术飞速变革的时代,企业将需要加快步伐,在整个过程中建立起统一的数据结构。

对于数据科学家来说,能够获取所需的数据至关重要。图片由作者提供。

IT、数据科学和工程脱节

如果公司的目标是减少“筒仓”,这就意味着各部门需要更多地相互沟通,调整各自的目标。

在许多公司中,IT 部门和数据科学部门之间存在着 根本性的分歧。IT 倾向于优先考虑让事情正常运转并保持稳定。另一方面,数据科学家喜欢实验和破坏东西。这会导致沟通困难。

此外,对于数据科学家来说,工程并非总是必不可少的。这是一个问题,因为工程师有时候可能无法了解数据科学家所设想的所有细节,或者可能会由于沟通错误而改变实现方式。因此,正如 StackOverflow 指出 的那样,能够部署模型的数据科学家比那些不能部署模型的数据科学家更有竞争优势。

机器学习模型自身面临的挑战

扩展比你想象的要难

模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。

首先,可能没有处理更大数据集的硬件或云存储空间可供使用。此外,在规模很大时,机器学习模型的模块并不总是像规模较小时那么有效。

最后,数据获取可能比较困难,甚至不可能。正如前面所讨论的,这可能是由于公司的筒仓结构,也可能是由于在获取更多数据时遇到的其他挑战。

这也是在组织之间统一数据结构、鼓励不同部门之间进行交流的另一个原因。

重复工作

在部署机器学习模型的漫长道路上,超过四分之一 的企业都存在重复工作。

例如,软件工程师可能会按数据科学家的说法进行实现。后者可能也会继续,自己做一些工作。

这不仅浪费时间和资源,而且,当涉众不知道使用了哪个版本的代码,在遇到任何错误时就不知道应该向谁求助,这会导致额外的混乱。

如果数据科学家能够实现他们的模型,这是他们的优势,但对于谁做什么,他们应该与工程师沟通清楚。这样,就可以节省公司的时间和资源。

有效沟通对于机器学习模型正常运行至关重要。图片由作者提供。

高管们可能会不认可

总体来说,技术高管 非常相信 人工智能的力量,但这并不意味着他们会同意所有的想法。据 Algorithmia 报道,三分之一的企业高管将糟糕的部署统计数据归咎于缺乏高层支持。

似乎人们仍然认为数据科学家有点书呆子气,缺乏商业意识。为此,数据科学家应加强他们的业务技能,并尽可能寻求与高管的对话。

当然,这并不意味着每个数据科学家需要 MBA 学位才能胜任他们的工作。然而,从课程或业务经验中学习一些关键知识可能会对他们有长远的帮助。

不能跨语言且缺少框架支持

由于机器学习模型仍处于起步阶段,不同的语言和框架仍有相当大的差距。

有些管道开始时是 Python 开始,中间是 R,最后是 Julia。有的则相反,或者完全使用其他语言。由于每种语言都有自己独特的库和依赖项,项目很快就变得很难跟踪。

此外,有些管道可能会使用 Docker 和 Kubernetes 进行容器化,其他管道可能不会。有些管道将部署特定的 API,其他管道则不会。这样的例子不胜枚举。

为了弥补这种不足,像 TFX、Mlflow 和 Kubeflow 这样的工具出现了。但这些工具仍处于起步阶段,到目前为止,这方面的专家还很少。

数据科学家们知道,他们需要不断了解自己领域的最新进展。这应该也适用于模型部署。

版本控制和再现仍面临挑战

与上述问题相关的是,到目前为止,机器学习模型版本控制还没有一种可行的方法。显然,数据科学家需要跟踪他们所做的任何更改,但现在这相当麻烦。

此外,数据集可能会随时间漂移。随着公司和项目的发展,这是很自然的,但这使得再现过去的结果变得更加困难。

更重要的是,一旦项目启动,就会建立一个基准,用于现在和将来对模型进行测试。结合版本控制,数据科学家可以再现他们的模型。

如果模型不可再现,就会导致漫长的调查研究。图片由作者提供。

停止尝试,开始部署

如果数据科学家 90% 的努力都没有结果,这可不是一个好现象。这不是数据科学家的错,如上所述,这是由于组织结构上固有的障碍。

变革不是一天能完成的。对于刚刚开始接触机器学习模型的公司,建议他们从一个非常小而简单的项目开始。

一旦管理者勾勒出一个清晰而简单的项目,第二步就是选择合适的团队。这个团队应该是跨职能的,应该包括数据科学家、工程师、DevOps 和任何其他看起来对于获得成功至关重要的角色。

第三,在开始的时候,管理者应该考虑利用第三方来帮助他们加速这个过程。IBM 是提供这种服务的公司之一,但市场上也有其他公司。

最后一点是,切莫不惜一切代价追求先进。如果一个简单的低成本模型能满足 80% 的客户需求,并能在几个月内交付,这已经是一个了不起的成就了。此外,从构建简单模型积累的经验将有助于实现更复杂的模型,并有望使客户百分之百满意。

结论:革命需要时间

下一个十年注定是革命性的,就像上一个十年一样。人工智能的广泛应用只是 众多发展趋势 中的一个,物联网、高级机器人技术和区块链技术也在兴起。

我说的是几十年,而不是几年。例如,考虑到 90% 的公司都 已上云——如此之多,以至于我们很难想象没有云我们怎么生活。而另一方面,云是花了 几十年时间 才被广泛地采用。

我们没有理由认为人工智能革命会有任何不同。它需要一段时间才能推广开,因为目前还有许多需要解决的障碍。

但是,由于机器学习提供了如此多的方法来改善客户体验和企业效率,显然,赢家将是那些快速并尽早部署模型的公司。

本文转自 公众号:AI前线 ,作者Rhea Moutafis,点击阅读原文

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50366

    浏览量

    267038
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137247
  • 深度学习
    +关注

    关注

    73

    文章

    5610

    浏览量

    124651
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数
    的头像 发表于 04-24 15:48 100次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的数据质量双保障:从“验证”到“标记”

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉
    的头像 发表于 01-31 09:34 847次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶<b class='flag-5'>模型</b><b class='flag-5'>学习</b>更快吗?

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注
    的头像 发表于 01-07 15:37 361次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    基于ETAS嵌入式AI工具链将机器学习模型部署到量产ECU

    AI在汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成到ECU软件中,已成为业界面临的核心挑战。
    的头像 发表于 12-24 10:55 6405次阅读
    基于ETAS嵌入式AI工具链将<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>部署到量产ECU

    穿孔机顶头检测仪 机器视觉深度学习

    顶头状态。 检测顶头算法 引入人工智深度学习技术,通过Keras实现卷积神经网络(CNN),用Numpy实现采集数据的训练,得到符合现场需求的模型,进一步提升检测的准确性和现场的适应性。 应用范围
    发表于 12-22 14:33

    机器人内部零配件的生产加工厂从哪找?

    技术。 东莞市力存科技有限公司将新能源汽车的液冷技术应用于咖啡机配件的生产中,特别是在咖啡机的锅炉组件和蒸汽管道的加工中,通过精密的冷却通道设计和加工,确保了机器人在长时间工作时的温度稳定性,提升了产品
    发表于 12-09 18:22

    小萝卜机器人的故事

    经过我的申请, 马老师发放了, 小萝卜机器人的, 开发权限, 原来的小萝卜公司, 因为经营不善倒闭, 作为科研产品, 几个技术对此惋惜, 自掏腰包, 要让小萝卜机器人, 再生, 每次听到小萝卜说
    发表于 10-23 05:24

    自主生产:制造业的未来

    在德国,自主生产目前主要被选择性地用于工具层面,例如质量保证或过程监控。机器人应用层面是一个特别有活力的领域,在这一层面,正在创建半自动化自动化单元。这是向完全网络化生产系统迈出的第
    发表于 09-15 15:08

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    FPGA在机器学习中的具体应用

    ,越来越多地被应用于机器学习任务中。本文将探讨 FPGA 在机器学习中的应用,特别是在加速神经网络推理、优化算法和提升处理效率方面的优势。
    的头像 发表于 07-16 15:34 3111次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练
    的头像 发表于 07-14 11:49 1320次阅读
    通过NVIDIA Cosmos<b class='flag-5'>模型</b>增强<b class='flag-5'>机器人学习</b>

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    在人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型
    发表于 07-04 11:10

    模型在半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够在解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面 应该问什么大模型比较好,或者是看什么视频能够
    发表于 06-24 15:10

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 1164次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理<b class='flag-5'>模型</b>部署与工业集成!

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    人部署,详细介绍了基于颜色阈值和深度学习的巡线方法。 二维码识别则广泛应用于机器人定位与任务触发,例如AGV(自动导引车)的路径规划。 深度学习
    发表于 05-03 19:41