0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一些关于机器学习工具在学习过程中所犯错误的问题

5RJg_mcuworld 来源:lq 2019-01-14 14:56 次阅读

在学习过程中,机器学习会出错。运用机器学习的人需要预见到这一点——并且要注意不要因IT和业务的人为错误而使事情变得更糟。

一般来说,学习的过程通常意味着先犯错误以及选择错误的道路,然后再想明白如何在将来避免这些陷阱。机器学习也不例外。

当你在你的企业中运用机器学习时,要小心:一些技术营销可能会告诉你机器学习的过程是又快又好的,但这是一种对技术的不切实际的期望。事实是,机器学习过程中必定会出现错误。而且至少在相当一段时间内,这些错误会被编码到业务流程中。结果就是,这些错误现在大规模地发生,并且通常不受人的直接控制。

SPR咨询公司的首席数据科学家雷·约翰逊说:“只有盲目冒进的渴望而缺乏应有的务实和勤奋会导致机器学习带来的好处几乎沦为无用。”

检测机器学习过程中的错误并处理它们将有助于你在技术方面取得更大成功,以及满足你对机器学习的期望。

以下是一些关于机器学习工具在学习过程中所犯错误的问题,这些问题可能会使错误数量增加并延长犯错的时间——机器学习工具自身可能永远无法识别并纠正这些错误教训。

缺乏对问题的业务理解而使机器学习失败

一些使用机器学习模型的数据工作者并不真正理解机器学习正在试图解决的业务问题,而这可能会给流程引入错误。

金融服务网站LendingTree的副总裁兼战略分析主管Akshay Tandon表示,当他的团队使用机器学习工具时,他鼓励它从假设声明开始。该声明应该询问你要解决的问题是什么,以及你要构建哪些模型来解决该问题。

Tandon说,从统计学方面来看,今天可用的机器学习工具都非常强大。这样一来正确地使用它就成为更重大的责任,因为这些强大的工具,如果不仔细使用,可能导致错误决定而影响深远。如果数据分析团队不小心,他们最终得到的模型可能会不符合团队正在尝试学习的特定数据。快速恶化的结果,他说,就是事情可能很快就会出现重大事故。

此外,许多商业用户都不明白,从投入生产的那一刻起,模型的质量就会有一定程度的下降,Tandon说。认识到这一点后,就像汽车或任何其他机器一样,用户需要持续不断地监控它并注意它如何对决策产生影响。

数据质量差可能导致机器学习错误

垃圾进,垃圾出。如果数据质量不达标,机器学习将受到消极影响。数据质量差是数据管理员最忧心的问题之一。不管数据科学家和其他从事信息工作的专业人员原本的意图有多好,数据质量差都可能危及大数据分析工作并使他们的努力毁于一旦。它完全可以使机器学习模式一片混乱。

各界组织机构经常高估机器学习算法的韧性,却低估不良数据的影响。约翰逊说,糟糕的数据质量会导致糟糕的数据结果,进而导致组织做出不明智的商业决策。这些决策的结果将损害业务绩效,并使未来的计划难以获得支持。

根据过去和现在的经验,你可以从机器学习得出的结果中发现低质量数据的存在,因为这些数据结果看起来就是讲不通。

约翰逊说,探索性数据分析(EDA)是一个解决这一问题的主动方法。EDA可以识别基本数据质量问题,例如野值,空缺值和不一致的域值。您还可以使用统计抽样等技术来确定是否有足够的数据点实例来充分反映总体分布,并定义有关数据质量补救的规则和策略。

对机器学习的不正确使用

咨询公司Cambridge Consultants的专家级机器学习工程师Sally Epstein说:“我们仍然从公司看到的最常见的问题是,公司渴望运用机器学习没有其他原因,仅仅因为时髦而已。” 但她说,必须正确地使用该工具才能取得成功。而传统的工程方法可能更快地提供解决方案并且成本低很多。

约翰逊说,当机器学习可能不是解决问题的最佳选择而且用例并没有被完全理解时,可能会导致解决错误的问题。

此外,解决错误的问题将导致失去机会,因为组织正在努力将其用例定制为特定的,不合适的模型。这包括为了获得成果而在人员和基础设施方面部署的资源浪费,但这个成果本可以用更简单的替代方法来得到。

为避免对机器学习的错误使用,请考虑所需的业务成果,问题的复杂性,数据量和属性数量。约翰逊说,相对简单的问题,如分类,聚类和使用少量属性的少量数据的关联规则,可以通过视觉化或统计分析来处理。在这些情况下,采用机器学习可能需要更多的时间和资源。

当数据量变得庞大时,机器学习可能更合适。但是,先通过了一个机器学习练习,然后才发现业务结果尚未明确定义并导致解决了错的问题的情况并不罕见。

机器学习模型可能存在偏差

使用质量差的数据集可能会导致误导性的结论。它不仅会引入不准确性和缺失数据,还会引入偏差。人类肯定是可能会有偏见的,所以由人们创造或启发得出的模型也可能包含偏见。

Epstein说,每种机器学习算法对不平衡的类或分布都有不同的敏感性。如果没有解决这些问题,你最终可能会得到的结果会是,比如说,对肤色有依赖性的面部识别工具,或具有性别偏见的模型。事实上,这种情况已经多次在商业服务中发生过了。

结论的准确性——无论是经由算法还是人类得出的——都取决于被处理信息的广度和质量。咨询公司Deloitte咨询分析服务领域的负责人Vic Katyal表示,组织和个人面临的算法偏见带来的的财务,法律和声誉风险就是为什么任何使用机器学习的公司应该将道德规范作为组织要求的一个例子。

Katyal说,算法偏差的迹象已经被充分记录在了信用评分,教育课程,招聘和刑事司法判决等公共领域。收集,策划或应用不当的数据甚至可能在最精心设计和周密计划的机器学习应用程序中引入偏差。

他说,固有偏见的机器学习系统可能会使部分客户群体或社会利益相关者处于劣势,并可能造成或延续不公平的结果。

咨询公司麦肯锡在2017年的一份报告中指出,算法偏差是机器学习的最大风险之一,因为它会影响机器学习的实际目的。该公司表示,这是一个经常被忽视的缺陷,可以引发代价高昂的错误,如果不加以控制,可能会使项目和组织往完全错误的方向发展。

麦肯锡表示,如果在一开始就能有效地解决这个问题,将会获得丰厚回报,从而最大限度地实现机器学习的真正潜力。

资源不足,无法做好机器学习

在启动机器学习计划时,一个组织很容易低估自身在人员和基础架构方面所需的资源。机器学习可能对基础设施有大量的要求,尤其是在图像,视频音频处理方面。

约翰逊说,如果没有所需的处理能力,而又要及时开发基于机器学习的解决方案,往好了说是困难的,往坏了说压根就是不可能的。

还存在部署和消费问题。如果没有先决条件基础设施来允许其部署和用户对结果的消费,那么开发机器学习解决方案有什么用呢?

部署可扩展的基础架构以支持机器学习可能既昂贵又难以维护。然而,有几种云服务可以提供可扩展的机器学习平台,可以按需配置。约翰逊说,云方法可以大规模地进行机器学习,而不会受到物理硬件采集,配置和部署的束缚。

一些组织希望将他们的基础设施内部化。如果是这种情况,云服务可以作为踏脚石和教育体验,从而这些组织可以在进行大量投资之前从基础架构的角度了解机器学习需要什么。

从人员角度来看,缺乏知识渊博的资源,如数据科学家和机器学习工程师,可能会使机器学习的开发和部署脱离正轨。拥有了解机器学习概念及其应用和解读的人才,以确定是否实现了特定的业务成果,这一点至关重要。

约翰逊说,不能低估拥有丰富的机器学习技能的重要性。知识渊博的人可以帮助识别数据质量问题,确保正确使用和部署机器学习工具,并帮助建立最佳实践和管理策略。

糟糕的计划和管理的缺乏会破坏机器学习

对机器学习的努力可能会以热情开始,但随后失去动力并陷入停顿。这表明计划不周,缺乏管理。

如果不采取适当的指导方针和限制,机器学习工作将无限期地继续存在,可能导致巨大的资源支出而不会取得任何好处,约翰逊说。

组织们需要记住,机器学习是一个迭代过程,模型的修改可能会随着时间的推移而不断发生,以支持不断变化的需求。结果就是,从事机器学习的人可能对完成工作缺乏兴趣,这可能导致不良结果。项目发起人可能会转向其他工作,机器学习工作最终会停滞不前。

约翰逊说,需要定期监控机器学习工作,以确保事情顺利进行。如果进度开始放缓,可能是时候休息一下并重新审视这个项目了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2695

    浏览量

    47642
  • 机器学习
    +关注

    关注

    66

    文章

    8088

    浏览量

    130506

原文标题:机器学习失败的 6 种原因,你中招了吗?

文章出处:【微信号:mcuworld,微信公众号:嵌入式资讯精选】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    任正非:鸡血沸腾一定是犯错误的前兆

    任正非在去年年末一再强调华为终端要有战略耐性,要耐得住寂寞。如果你们匆匆忙忙发展,可能因为一个零件问题,这批手机几十万部、几百万部出问题,就会毁了整个终端公司,有时很难再爬起来。所以我们还是要踏踏实实,控制欲望、控制合理发展速度,“鸡血”沸腾一定是犯错误的前兆。
    发表于 10-24 16:24 2855次阅读

    在学习PROTEL99过程中容易出现的一些问题:

    在学习PROTEL99过程中容易出现的一些问题: Protel 98/99是电子设计自动化(EDA)特别是印制电路板(PCB)设计中广泛使用的种优秀软件。
    发表于 07-25 17:41

    关于keil的一些学习资料

    本帖最后由 eehome 于 2013-1-5 09:45 编辑 关于keil的一些学习资料。
    发表于 10-30 00:19

    在学习STM32的过程中积累的一些知识点

    包括:1.断言机制函数assert_param2.USART串口使用printf()函数重定向问题3.类型修饰符volatile4.触摸屏学习5、BMP(Bitmap-File)图形文件6、FatFs文件系统源码结构都是根据资料总结的一些比较零碎的知识
    发表于 10-04 22:45

    新人求一些关于ARM学习一些经验

    , 之后不知道从何学起 ,最近买了本C++谭浩强的书 准备学下 之后准备接触数据结构在学习ARM, 看了一些有经验的人发的帖子 不知道自己应该接触嵌入式硬件还是嵌入式软件 还有AR
    发表于 06-22 20:06

    你是否在学习STM32的过程中很迷茫

    你是否在学习STM32的过程中很迷茫,徘徊不定?本教程将解决这些问题,它用个个实际例子附带学习方法帮你打开STM32学习的大门。
    发表于 06-08 19:36

    请教关于学习DSP的 一些问题

    我是专科 专业是应用电子技术 ,懂C 会一些STM32编程 想学习DSP请问需要有哪些基础?要会算法?数学基础要特别好?请论坛里的前辈、高手或是正在学习DSP的坛友解答下,谢谢!
    发表于 09-23 11:38

    学习Linux内核过程中的心得总结

    在上了Linux内核这门课后,我对Linux内核开始有了初步的了解,关于Linux内核,我觉得最重要的部分还是进程的创建以及切换,这是整个内核的核心部分。以下是一些在学习Linux内核过程中
    发表于 07-12 07:27

    在学习tensorflow过程中遇到的问题有哪些

    在学习tensorflow过程中遇到的问题
    发表于 05-25 10:29

    学习DSP编程过程中经常遇到的问题汇总(1)

    我们已经连载了25篇有关于DSP编程技巧的文章。了解了这些技巧,相当于工具已经在手,但是每个人都是有定的学习曲线的,工具的使用都是
    发表于 04-02 06:27

    分享一些学习STM32的内容

    这里大概的罗列了一些学习STM32的内容,以及学习顺序。如果是新手的话,建议边看中文手册和学习视频(般都看原子的,视频的话百度就可以了,如
    发表于 11-22 08:19

    胆机DIY发烧友所犯错误手记

    胆机DIY发烧友所犯错误手记--容易犯错的地方哦
    发表于 03-10 17:25 0次下载

    C编程中容易忽视和犯错误的地方资料讲解

    讲解C编程中容易忽视和犯错误的地方
    发表于 03-28 17:15 2次下载

    机器学习新手常犯的错误怎么避免?

    机器学习中,有许多方法来构建产品或解决方案,每种方法都假设不同的东西。很多时候,如何识别哪些假设是合理的并不明显。刚接触机器学习的人会犯错误
    的头像 发表于 11-13 17:44 3136次阅读

    机器学习算法的随机数据生成简析

    在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。
    的头像 发表于 03-15 09:07 376次阅读