0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习项目难管理的原因是什么

汽车玩家 来源: AI公园 作者:Lukas Biewald 2020-04-19 11:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我看到过很多公司尝试使用机器学习 —— 有些大获成功,有些惨败。一个不变的事实是,机器学习团队很难设定目标和期望。这是为什么呢?

机器学习项目难管理的原因是什么

1. 很难预先分辨出什么是难的,什么是容易的

是在国际象棋中击败卡斯帕罗夫更困难,还是捡起棋子并移动棋子更困难?计算机在二十多年前打败了国际象棋世界冠军,但是可靠地抓取和举起物体仍然是一个未解决的研究问题。人类不擅长评估什么对人工智能来说是困难的,什么是容易的。即使在一个领域中,性能也可能有很大差异。预测情绪的准确性有多高?在影评中,有大量的文本和作者很容易搞清楚他们的想法,现在能期待的准确率是90-95%。在推特上,两个人在80%的情况下对一条推文的观点是一致的。在推文中,只要是关于航空公司的,那么总是把这条推文的情绪预测成负面的,就可以达到95%以上的准确率。

度量标准也可能在项目的早期提升很多,然后突然碰壁。我曾经举办过一场Kaggle竞赛,全世界成千上万的人竞相为我的数据建模。在第一周,准确率从35%上升到65%,但在接下来的几个月里,准确率从未超过68%。68%的准确率显然是数据对于最先进的机器学习技术的限制。那些在Kaggle竞赛中竞争的人非常努力地获得了68%的正确率,我确信这是一个巨大的成就。但在大多数情况下,65%和68%是完全无法区分的。如果这是一个内部项目,我肯定会对结果感到失望。

我的朋友Pete Skomoroch最近告诉我,作为一名研究机器学习的数据科学家,在工程部门工作是多么令人沮丧。工程项目通常会向前推进,但机器学习项目可能会完全停滞。花一周时间对数据进行建模,结果可能(甚至很常见)没有任何改进。

机器学习项目难管理的原因是什么

2. 机器学习很容易以意想不到的方式失败.

机器学习通常工作得很好,只要你有大量的训练数据以及你在生产中运行的数据看起来很像你的训练数据。人类非常善于从训练数据中归纳归纳,因此我们对此有着可怕的直觉。我做了一个小机器人,带着摄像机和一个视觉模型,这个模型是根据从网上获取的成百万的ImageNet图像制作的。我对我的机器人相机上的图像进行了预处理,使其看起来像来自网络的图像,但准确性比我预期的要差得多。为什么?网络上的图片往往会针对目标物体进行构图,但是我的机器人不一定会像人类摄影师那样直视一个物体。人类甚至可能都没有注意到这种差异,但使用现代深度学习网络的时候就会非常痛苦。有很多方法可以处理这种现象,但我之所以注意到它,只是因为它的性能下降非常严重,我花了很多时间调试它。

更厉害的是,导致性能下降的细微差异很难被发现。接受《纽约时报》训练的语言模型不能很好地概括社交媒体文本。我们可以预料到。但很显然,从2017年开始接受文本训练的模型,在2018年写的文本中表现不佳。上游分布随时间以多种方式变化。当对手适应了欺诈模型所做的事情时,欺诈模型就会完全崩溃。

3. 机器学习需要大量相关的训练数据.

每个人都知道这一点,但这是一个巨大的障碍。如果你能够收集并标记大量的训练数据,计算机视觉可以做很多惊人的事情。对于某些用例,数据是某些业务流程的副产品。这就是机器学习真正发挥作用的地方。对于许多其他用例来说,收集训练数据是非常昂贵和具有挑战性的。许多医疗用例对于机器学习来说似乎是完美的 —— 使用许多微弱的信号和清晰的结果来做出关键的决策 —— 但是数据由于重要的隐私问题而被锁定,或者一开始就没有被统一的进行收集。

许多公司不知道从哪里开始投资收集训练数据。这是一项重要的工作,很难预先预测该模型将如何工作。

解决这些问题的最佳实践是什么?

1. 多注意你的训练数据.

看看这个算法对它所训练的数据进行错误分类的情况。这样的错误几乎总是标注错误或者一些边界样本。不管怎样,你都想了解他们。让每个构建模型的人都查看一下训练数据并自己标注一些训练数据。对于许多用例来说,一个模型不太可能比两个独立的人达成一致的效果更好。

2. 先做端到端的工作,然后一次改进一件事.

从可能有效的最简单的事情开始,然后部署它。你会从中学到很多。过程中任何阶段的额外复杂性都会改进研究论文中的模型,但很少会改进现实世界中的模型。每一个额外的复杂性都需要验证。

将一些东西交到最终用户手中,可以帮助你尽早了解模型可能工作得有多好,并且它可能会带来一些关键问题,比如模型正在优化的内容与最终用户想要的内容之间的分歧。它还可能使你重新评估你正在收集的训练数据的类型。最好能尽快发现这些问题。

3. 寻找优雅的方法来处理不可避免的算法失败的情况.

几乎所有的机器学习模型在相当长的时间内都会失败,如何处理这一问题绝对是至关重要的。模型通常有一个可以使用的可靠的置信度评分。使用批处理过程,你可以构建包含人在里面的循环系统,将低可信度的预测发送给操作员,使系统能够可靠地端到端工作,并收集高质量的训练数据。对于其他用例,你可以使用一种标记潜在错误的方式,或者对最终用户来说不那么恼人的方式,来呈现低可信度的预测。

下面是一个没有被妥善处理的失败例子。微软没有预料到他们的Tay机器人能多快从推特上的喷子那里学会不良行为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31634

    浏览量

    224490
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137421
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KW45定制板消耗更多电量的可能原因是什么

    API,任何与 SDK 管理相关的,等等我能做的一切), 我正在分享截图,所以请分析它并让我知道这种电流消耗行为的可能原因是什么。如果我尽快得到答复,我将不胜感激,因为我被困住了。
    发表于 05-14 06:29

    珠宝库存难管理?试试RFID超高频珠宝标签 #珠宝标签 #rfid标签

    RFID
    深圳市融智兴科技有限公司
    发布于 :2026年05月08日 14:42:42

    非标机械设备行业,为什么要项目管理

    非标机械设备行业,随着中国制造的快速发展,传统制造业批量化的生产模式,已经满足不了这个时代,为什么说机械设备行业,一定要项目管理? 主要是以下个方面的原因 1、非标机械设备行业物料非常多,少则
    发表于 04-30 09:48

    通用运放、精密运放、高速运放、低功耗运放不能混用的根本原因是什么?

    运算放大器不能混用的原因是什么通用运放精密运放高速运放低功耗运放在信号链设计中,运算放大器承担着阻抗变换、信号放大与滤波等核心职能。工程选型时,料盘标签上常标注“通用”、“精密”、“高速”、“低功耗
    的头像 发表于 04-22 14:09 222次阅读
    通用运放、精密运放、高速运放、低功耗运放不能混用的根本<b class='flag-5'>原因是</b>什么?

    PCM设备灯闪的原因是什么?广州邮科工程师告诉你真相

    "PCM设备灯闪的原因是什么?"这是最近很多客户咨询我们的问题。别急,今天广州邮科的技术小哥就来给大家好好唠唠这个话题。 PCM设备灯闪,到底是好是坏? 很多客户一看到设备指示灯在闪,心里就发慌
    的头像 发表于 03-11 10:17 204次阅读
    PCM设备灯闪的<b class='flag-5'>原因是</b>什么?广州邮科工程师告诉你真相

    园区用电难管理?不妨试下ADW300 远程全监控

    安科瑞提供基于ADW300系列工业级WiFi智能电表的专业解决方案,其设计充分满足现代工业场景对准确计量、无线组网与数据安全的系统性要求。 35mm导轨安装方式,支持磁钢/穿刺取电方案,单表部署时间可控制在15分钟以内。内置工业级WiFi通信模组,支持2.4GHz频段与企业内网无缝接入,无需额外布线,即可构建覆盖全厂区的分布式无线计量网络。 在数据安全层面,电表支持加密认证,可完全接入工厂现有有线或无线内网,实现能耗数据从采集、传输到存
    的头像 发表于 03-10 10:28 252次阅读

    ACN配电监控模块:4路/8路多回路管理,50A磁保持继电器大功率适配

    、核心定位 ACN配电监控模块是智能配电系统的末端执行与感知单元,一体化安装控制,可直接负载5500W电机设备。相当于配电回路的“神经末梢”,可独立监测并控制多路(2/4/8路常见)交流负载,解决传统配电“看不见、控不了、难管理
    的头像 发表于 02-09 16:10 303次阅读

    色差是什么?它产生的原因是什么?

    色像差(简称色差)。色差产生的原因色差产生的根本原因就是由于光的色散效应。白光是由不同波长的可见光组成的,例如红色的光波长为620-750纳米,蓝色的波长为450
    的头像 发表于 01-27 17:19 1204次阅读
    色差是什么?它产生的<b class='flag-5'>原因是</b>什么?

    使用ads1292r,上电后,DOUT有持续波形,但是drdy始终为低,可能的原因是什么?

    上电后,按照手册的上电时序,start置1,clksel在电路板连avdd。结果DOUT有持续波形,但是drdy始终为低,可能的原因是什么?
    发表于 01-25 15:38

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 410次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    鹤山它人机器项目正式投产

    12月15日上午,位于鹤山市沙坪街道的鹤山市城乡融合发展产业园迎来重要时刻——鹤山它人机器项目正式投产,这一总投资2亿元的智能装备制造项目,将助力鹤山在机器人产业赛道加速布局,为区域
    的头像 发表于 12-23 17:20 1197次阅读

    东软集团荣获2025年度PMI中国项目管理大奖

    近日,在2025PMI项目管理大会上,东软集团“海外车载导航系统开发项目”荣获2025年度PMI(中国)项目管理大奖——杰出
    的头像 发表于 11-14 10:06 674次阅读

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题?

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题
    发表于 08-28 07:28

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3180次阅读

    STM32+Android实现的智能家政机器人电路代码论文及项目源码

    STM32+Android实现的智能家政机器人电路代码论文及项目部分截图:
    发表于 05-28 21:22