0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习项目难管理的原因是什么

汽车玩家 来源: AI公园 作者:Lukas Biewald 2020-04-19 11:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我看到过很多公司尝试使用机器学习 —— 有些大获成功,有些惨败。一个不变的事实是,机器学习团队很难设定目标和期望。这是为什么呢?

机器学习项目难管理的原因是什么

1. 很难预先分辨出什么是难的,什么是容易的

是在国际象棋中击败卡斯帕罗夫更困难,还是捡起棋子并移动棋子更困难?计算机在二十多年前打败了国际象棋世界冠军,但是可靠地抓取和举起物体仍然是一个未解决的研究问题。人类不擅长评估什么对人工智能来说是困难的,什么是容易的。即使在一个领域中,性能也可能有很大差异。预测情绪的准确性有多高?在影评中,有大量的文本和作者很容易搞清楚他们的想法,现在能期待的准确率是90-95%。在推特上,两个人在80%的情况下对一条推文的观点是一致的。在推文中,只要是关于航空公司的,那么总是把这条推文的情绪预测成负面的,就可以达到95%以上的准确率。

度量标准也可能在项目的早期提升很多,然后突然碰壁。我曾经举办过一场Kaggle竞赛,全世界成千上万的人竞相为我的数据建模。在第一周,准确率从35%上升到65%,但在接下来的几个月里,准确率从未超过68%。68%的准确率显然是数据对于最先进的机器学习技术的限制。那些在Kaggle竞赛中竞争的人非常努力地获得了68%的正确率,我确信这是一个巨大的成就。但在大多数情况下,65%和68%是完全无法区分的。如果这是一个内部项目,我肯定会对结果感到失望。

我的朋友Pete Skomoroch最近告诉我,作为一名研究机器学习的数据科学家,在工程部门工作是多么令人沮丧。工程项目通常会向前推进,但机器学习项目可能会完全停滞。花一周时间对数据进行建模,结果可能(甚至很常见)没有任何改进。

机器学习项目难管理的原因是什么

2. 机器学习很容易以意想不到的方式失败.

机器学习通常工作得很好,只要你有大量的训练数据以及你在生产中运行的数据看起来很像你的训练数据。人类非常善于从训练数据中归纳归纳,因此我们对此有着可怕的直觉。我做了一个小机器人,带着摄像机和一个视觉模型,这个模型是根据从网上获取的成百万的ImageNet图像制作的。我对我的机器人相机上的图像进行了预处理,使其看起来像来自网络的图像,但准确性比我预期的要差得多。为什么?网络上的图片往往会针对目标物体进行构图,但是我的机器人不一定会像人类摄影师那样直视一个物体。人类甚至可能都没有注意到这种差异,但使用现代深度学习网络的时候就会非常痛苦。有很多方法可以处理这种现象,但我之所以注意到它,只是因为它的性能下降非常严重,我花了很多时间调试它。

更厉害的是,导致性能下降的细微差异很难被发现。接受《纽约时报》训练的语言模型不能很好地概括社交媒体文本。我们可以预料到。但很显然,从2017年开始接受文本训练的模型,在2018年写的文本中表现不佳。上游分布随时间以多种方式变化。当对手适应了欺诈模型所做的事情时,欺诈模型就会完全崩溃。

3. 机器学习需要大量相关的训练数据.

每个人都知道这一点,但这是一个巨大的障碍。如果你能够收集并标记大量的训练数据,计算机视觉可以做很多惊人的事情。对于某些用例,数据是某些业务流程的副产品。这就是机器学习真正发挥作用的地方。对于许多其他用例来说,收集训练数据是非常昂贵和具有挑战性的。许多医疗用例对于机器学习来说似乎是完美的 —— 使用许多微弱的信号和清晰的结果来做出关键的决策 —— 但是数据由于重要的隐私问题而被锁定,或者一开始就没有被统一的进行收集。

许多公司不知道从哪里开始投资收集训练数据。这是一项重要的工作,很难预先预测该模型将如何工作。

解决这些问题的最佳实践是什么?

1. 多注意你的训练数据.

看看这个算法对它所训练的数据进行错误分类的情况。这样的错误几乎总是标注错误或者一些边界样本。不管怎样,你都想了解他们。让每个构建模型的人都查看一下训练数据并自己标注一些训练数据。对于许多用例来说,一个模型不太可能比两个独立的人达成一致的效果更好。

2. 先做端到端的工作,然后一次改进一件事.

从可能有效的最简单的事情开始,然后部署它。你会从中学到很多。过程中任何阶段的额外复杂性都会改进研究论文中的模型,但很少会改进现实世界中的模型。每一个额外的复杂性都需要验证。

将一些东西交到最终用户手中,可以帮助你尽早了解模型可能工作得有多好,并且它可能会带来一些关键问题,比如模型正在优化的内容与最终用户想要的内容之间的分歧。它还可能使你重新评估你正在收集的训练数据的类型。最好能尽快发现这些问题。

3. 寻找优雅的方法来处理不可避免的算法失败的情况.

几乎所有的机器学习模型在相当长的时间内都会失败,如何处理这一问题绝对是至关重要的。模型通常有一个可以使用的可靠的置信度评分。使用批处理过程,你可以构建包含人在里面的循环系统,将低可信度的预测发送给操作员,使系统能够可靠地端到端工作,并收集高质量的训练数据。对于其他用例,你可以使用一种标记潜在错误的方式,或者对最终用户来说不那么恼人的方式,来呈现低可信度的预测。

下面是一个没有被妥善处理的失败例子。微软没有预料到他们的Tay机器人能多快从推特上的喷子那里学会不良行为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30580

    浏览量

    219571
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题?

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题
    发表于 08-28 07:28

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2633次阅读

    10大机器项目落地苏州

    近日,苏州市具身智能机器人产业生态大会召开,据了解,本次大会共征集了84个具身智能机器人产业项目,总投资超160亿元,其中钧舵机器人、法奥机器
    的头像 发表于 04-11 10:16 1148次阅读

    《AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    继续分享第2篇阅读心得。 传统客服系统在知识库更新和多轮对话管理方面存在诸多技术瓶颈,本书第3章中提出的AI课程客服机器人架构巧妙地解决了这些问题。该架构采用Replit作为开发环境
    发表于 02-25 21:59

    AI项目管理平台有什么用

    当今,AI项目的复杂性和多变性给项目管理带来了前所未有的挑战。为了有效应对这些挑战,AI项目管理平台应运而生。那么,AI
    的头像 发表于 02-19 11:16 622次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 619次阅读

    ADC的谐波产生的原因是什么?

    ADC的谐波产生的原因是什么
    发表于 02-08 08:25

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1210次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    开源项目!能够精确地行走、跳舞和执行复杂动作的机器人—Tillu

    的语音识别系统响应语音指令 为什么打造Tillu? 打造Tillu不仅是一个项目,更是一次学习体验。通过深入探索机器人技术、编程细节以及自定义动作和表情,释放你的创造力。无论你是学生、爱好者还是创
    发表于 01-02 17:24

    测试项目管理系统 - TPA

    面对当今汽车行业高速迭代的研发节奏,测试业务的复杂性和高标准使得传统的手动管理方式面临巨大挑战。经纬恒润基于多年测试管理经验,推出了测试项目管理系统INTEWORK-TPA产品(以下简
    的头像 发表于 01-02 09:58 963次阅读
    测试<b class='flag-5'>项目</b><b class='flag-5'>管理</b>系统 - TPA

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 699次阅读

    zeta在机器学习中的应用 zeta的优缺点分析

    在探讨ZETA在机器学习中的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器学习
    的头像 发表于 12-20 09:11 1626次阅读

    cmp项目管理工具的优缺点

    CMP项目管理工具,在不同的语境下有不同的含义。一种是指综合项目管理平台(Comprehensive Management Platform),它旨在整合和优化
    的头像 发表于 12-17 09:42 1294次阅读

    贴片陶瓷电容器发生断裂的原因是什么?

    贴片陶瓷电容器发生断裂的原因是多方面的,主要包括以下几个方面:   一、机械应力   电路板弯曲:由于片状陶瓷电容器直接焊接到电路板上,因此它直接承受来自电路板的各种机械应力。由不同的热膨胀系数或
    的头像 发表于 12-10 14:41 1259次阅读
    贴片陶瓷电容器发生断裂的<b class='flag-5'>原因是</b>什么?