0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI和机器学习历程经验教训总结

汽车玩家 来源:今日头条 作者:闻数起舞 2020-05-03 18:06 次阅读

从我的AI /机器学习历程中学到的教训

我最近有幸与几位AI /机器学习专家一起参加了小组讨论。 有很多伟大的问题,但大多数与如何在大型组织中最有效地建立AI /机器学习(AI / ML)有关。

这使我有机会反思自己的经验,以帮助大型企业加速其AI /机器学习之旅,并且更具体地说,评估什么是行得通的,也许同样重要的是,什么行不通的。 我将这些总结为几个简单的"经验教训",希望它们对您组织的AI / ML之旅有用。

第1课:不要让完美成为够用的敌人

以我的经验,您的模型将永远不会是完美的。 因此,请勿尝试使其完美。 现在,请不要误会我-模型的准确性(或适用于您的情况的任何指标)很重要,但是获得绝对最佳的模型可能仅在Kaggle比赛中起作用。

相反,您的重点应该是使模型足够好以满足业务需求。 事实是,几乎所有企业都认为,要获得一个可以提供价值的"足够好"的模型,要获得完美的模型要花很长时间。 因此,我的建议非常简单:找出对您的组织"足够好"的内容,并专注于将模型投入生产。

第2课:建立模型只是工作量的10%

这是一个基本但基本上未被认可的事实:如今,企业中数据科学的绝大部分时间并没有真正花费在数据科学上。 相反,大部分时间(根据我的经验,有90%以上的时间)都花在了其他事情上,包括:获取数据,工程数据和功能集,解决安全问题,设置基础架构(云或数据中心)或 工作站,用于生产的包装模型,以及创建DEVOPS脚本以将完整的模型迁移到产品中……这还不是完整列表!

不幸的是,在大多数不成熟的组织(也就是说,大多数组织都认识到相对的"新颖性"或AI / ML)中,每个项目实际上都经历了这种额外的非数据科学工作。

这有什么大不了的吗? 的确如此。 假设您小组的预算为100万美元(一个很好的整数,这使数学很容易),这意味着某人(在很多情况下是您的高价数据科学家)将90%或90万美元用于与其他任务不直接相关的任务 到您雇用他们的目的。 那是很多钱! 这不仅令人痛苦,而且体验起来更加痛苦!

那么,如何避免这种痛苦呢? 好吧,这导致了我的下一堂课……

第3课:秘诀:AI / ML平台

正如我之前强调的那样,太多的项目将太多的时间花费在与AI / ML不直接相关的任务上。

解决方案:" AI / ML平台"。

首先,不要混淆" AI / ML平台"的含义。 不仅仅是云供应商提供的环境和工具包。 别误会,我喜欢AWS,Azure和Google提供的工具-没有它们,您真的无法有效地进行AI / ML。 但是,存在一些云供应商工具无法解决的重要考虑因素。 换句话说,云供应商工具是必需的,但还不够。

那么,什么是" AI / ML平台"? 简而言之,AI / ML平台的目的是加速将AI / ML模型投入生产。 它是在AI / ML环境和工具之上实现的"胶水",即脚本,安全策略,可操作性问题和自我配置基础结构。

让我们解决关键因素:

·安全性:解决访问敏感数据所需的安全性问题,需要大量的尽职调查。在大多数组织中,其根本原因是几乎每个项目都讨论,辩论和实施了几乎相同的安全问题。另一方面,AI / ML平台根据您组织的安全状况实施安全模型,执行一次,然后将其提供给所有项目。大多数组织,尤其是受到严格监管的组织,都需要远远超出云供应商通常提供的"虚拟公共云"功能的安全控制。至少应具有的一组附加功能包括:基于身份的访问控制(将解决几乎所有黑客问题),配置漂移管理(例如,捕获Capital One发生的错误防火墙规则更改),以及数据流的方式(例如,数据可以存储在平台上,但只能使用"类似于Citrix"的门户来可视化以使用工具-数据永远不会离开平台)

·可操作性:所有大型企业对生产代码都有严格的要求。 如今,AI / ML模型被认为是可部署的代码,并且受到与其他生产代码相同的要求的约束。 不幸的是,在大多数不成熟的组织中,这些要求是在每个项目的基础上实现的。 相比之下,AI / ML平台提供了生产级工具,可通过常用的日志记录,警报,异常处理,统计信息和指标捕获以及与企业操作控制台的集成来增强裸机模型,从而确保AI / ML模型也能解决 基本的企业关注点

·自我配置的基础架构:我发现组织迁移到云时发生了不幸的事情:他们带来了旧的数据中心包(主要是笨拙的流程和手动流程),并在云上实施了同样低效的流程。 错误的答案! 云供应商花费了数年时间优化工具和流程,以使数据科学家能够自行配置工具和环境,而无需其他监督或流程。 AI / ML平台整合了必要的DEVOPS和安全功能,以允许数据科学家和数据工程师快速获取数据并提供训练环境。

第4课:" AI / ML市场"是现代AI / ML的基本要求

简而言之,AI / ML市场是与AI / ML模型相关的所有工件的目录,可实现模型的可再现性,可追溯性,可解释性和可验证性:

· 为了解决可重复性问题,AI / ML Marketplace提供了对模型源代码的引用(当前版本和先前版本),并且用于训练模型的数据都保存在清单中

· 为了解决可追溯性,AI / ML Marketplace保留了对原始源系统数据和数据工程脚本的引用,这些数据用于转换和丰富其内容,从而在整个交付生命周期中提供对数据的所有更改的可见性。

· 为了解决可验证性,AI / ML市场管理对训练输出,日志和相关工件(包括与模型偏差和"道德"检查相关的输出日志)的引用,从而捕获模型有效性的证据。

· 为了自动化信息捕获过程,AI / ML市场将与AI / OPS(用于AI / ML的DEVOPS)过程集成在一起,以自动捕获上述工件。 有趣的是,主要的云提供商,传统的DEVOPS供应商以及较新的AI / OPS初创公司都可以使用工具和功能,可以将它们组合在一起以捕获许多所需的指标和元数据。

简而言之,AI / ML市场是目录和存储库,可通过充分解决可重复性,可追溯性,可验证性和可解释性来促进现代AI / ML开发,管理和治理。

第5课:立即开始您的Cloud-Native AI / ML程序!

在大多数企业中,我看到计算平台和数据/存储量的扩展远远超出了内部数据中心的功能。 GPU不在议程中。 三倍和四倍的存储池正在建设中。 但事实是,事实证明,即使是大型组织也无法跟上步伐。

大型国际咨询公司埃森哲(Accenture)说,问题很少:首先,"到现在为止,还没有经过验证的扩展蓝图,组织可能陷入一些常见的陷阱。"其次,"人工智能的陌生环境 意味着企业可以被诱使放弃久负盛名的行为,重新发明轮子并从头开始构建。"最后,"有许多行之有效的低成本AI选项可以立即购买并开始使用。 "

那么,当大型云供应商提供其他功能更强大,成本效益更高,可扩展的最新选项时,为什么要与之抗衡呢? 我的简单建议是:抛开批评家,让您的云原生AI / ML程序启动!

第六课:使AI / ML民主化

大多数组织,尤其是那些将AI / ML迁移到云中的组织,都有千载难逢的机会来组织其组织以取得成功。 我的愿景(我在大型企业中看到过的愿景)是"使AI / ML民主化"。 我的意思是,任何小组(假设他们具有技能)都应该能够随时随地使用他们需要的任何工具和库来构建AI / ML模型。

但是,您如何扩展和管理这种类型的组织结构? 简单来说,基本要求是在AI / ML平台和AI / ML市场中实现了规模和管理所需的必要防护栏。 考虑到这一点,以下是AI / ML组织中一组实用的组:

· AI / ML平台团队:该团队对建立,运行,支持和发展包括基础架构,云环境,安全性,工具和DEVOPS在内的所有组件具有完全的端到端责任。 该团队不仅要对平台负责,而且还要培训,支持和指导数据科学团队

· 分布式数据科学团队:由于许多跨领域的问题都融入了AI / ML平台中,因此这使数据科学家可以腾出时间从事数据科学工作,还可以使整个组织中的数据科学家快速,无缝地入职。 该指导原则允许任何具有数据科学技能的小组,以其小组的需求和业务需求所决定的速度进行数据科学。 没有集中的组。 没有象牙塔。

总结

我在本文中的目的是提供一些简单的经验教训,这些经验教训将帮助您加速企业的AI / ML之旅,并避免一些我遇到的减速带和坑洼。 希望我已经实现了这个目标。

但是我可以肯定地说的是,事情发展很快。 技术和方法可能会发展,而且很可能我应该考虑从现在开始一年编写一个新版本。 或者,也许,一年后,您将能够写出从您的组织的AI / ML之旅中学到的一些经验教训!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26497

    浏览量

    264192
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130677
收藏 人收藏

    评论

    相关推荐

    【换道赛车:新能源汽车的中国道路 | 阅读体验】 A 序

    怎样的影响? 国内外汽车企业的发展历程经验教训带给我们怎样的思考? 我国新能源汽车为什么能够实现突破从而领先世界? 我国新能源汽车产业未来提升的最大瓶颈和障碍是什么? 希望这样的探讨对读者有所启发。 接下来将用2篇观后感来分别解答这几个问题,以及最后一篇整体观感。
    发表于 03-12 23:05

    选择烧结银的经验总结

    选择烧结银的经验总结
    的头像 发表于 12-17 15:46 450次阅读
    选择烧结银的<b class='flag-5'>经验总结</b>

    嵌入式微控制器应用中的无线(OTA)更新:设计权衡与经验教训

    电子发烧友网站提供《嵌入式微控制器应用中的无线(OTA)更新:设计权衡与经验教训.pdf》资料免费下载
    发表于 11-23 16:01 0次下载
    嵌入式微控制器应用中的无线(OTA)更新:设计权衡与<b class='flag-5'>经验教训</b>

    全面总结机器学习中的优化算法

    几乎所有的机器学习算法最后都归结为求一个目标函数的极值,即最优化问题,例如对于有监督学习,我们要找到一个最佳的映射函数f (x),使得对训练样本的损失函数最小化(最小化经验风险或结构风
    发表于 11-02 10:18 276次阅读
    全面<b class='flag-5'>总结</b><b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的优化算法

    富士变频器维修经验总结

    富士变频器维修经验总结
    发表于 10-07 10:55 0次下载

    ARM学习历程分享

    该文档为ARM学习历程(入门版)的总结文档,是很不错的参考资料哦
    发表于 09-25 07:50

    AI智能呼叫中心

    、数据驱动决策以及人力成本节约,旨在深入剖析其核心优势和对企业的重要意义。一、自动化处理AI智能呼叫中心通过引入自然语言处理(NLP)、机器学习和自动化技术,使得呼叫中心的处理过程更加高效和准确,
    发表于 09-20 17:53

    机器学习发展历程中不同时期的标志性事件有哪些

    机器学习发展历程中不同时期的标志性事件有哪些 机器学习是人工智能领域的一个重要分支,随着数据科学和计算能力的不断提升,
    的头像 发表于 08-17 16:30 1034次阅读

    机器学习发展历程

    机器学习发展历程机器学习发展现状、机器学习发展前景
    的头像 发表于 08-17 16:30 1234次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    机器学习是什么意思?机器学习属于什么分支?机器学习是什么有什么用处?
    的头像 发表于 08-17 16:30 1292次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器学习算法优
    的头像 发表于 08-17 16:11 1110次阅读

    使用机器学习模型(AI)进行预测是否安全

    电子发烧友网站提供《使用机器学习模型(AI)进行预测是否安全.zip》资料免费下载
    发表于 06-14 11:04 0次下载
    使用<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型(<b class='flag-5'>AI</b>)进行预测是否安全

    20个必知的自动化机器学习库(Python)

    为了进行部署,企业需要有一个经验丰富的数据科学家团队,他们期望高薪。即使企业确实拥有优秀的团队,通常也需要更多的经验而不是AI知识来决定哪种模型最适合企业。机器
    的头像 发表于 05-26 15:04 696次阅读
    20个必知的自动化<b class='flag-5'>机器</b><b class='flag-5'>学习</b>库(Python)

    RISC-V架构师从过去指令集设计的错误中吸取的教训

    学习《RISC-V-Reader》中四个架构的特点,以及说明RISC-V架构的及取经验教训后的架构设计
    的头像 发表于 05-24 09:04 43w次阅读

    经验总结】一位近10年的嵌入式开发老手,到底是如何快速学习和使用RT-Thread的?

    经验总结】一位近10年的嵌入式开发老手,到底是如何快速学习和使用RT-Thread的?
    的头像 发表于 05-16 15:33 696次阅读
    【<b class='flag-5'>经验总结</b>】一位近10年的嵌入式开发老手,到底是如何快速<b class='flag-5'>学习</b>和使用RT-Thread的?