0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

吴恩达:一个机器学习团队80%的工作应该放在数据准备上

新机器视觉 来源:新智元 作者:新智元 2021-04-18 10:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】模型好就能碾压一切吗?吴恩达泼冷水,机器学习发展80%依靠数据集的进步!这也激起了业内对MLOps工具链的关注。

机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。 吴恩达对此的想法是,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

当去arxiv上查找机器学习相关的研究时,所有模型都在围绕基准测试展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,这些模型仅解决了业务问题的20%,在业务场景中取得更好的效果需要更好的数据。 传统软件由代码提供动力,而AI系统是同时使用代码(模型+算法)和数据构建的。以前的工作方式是,当模型效果不理想,我们就会去修改模型,而没有想过可能是数据的问题。 机器学习的进步一直是由提高基准数据集性能的努力所推动的。研究人员的常见做法是在尝试改进代码的同时保持数据固定,以模型改进为中心对模型性能的提升实际上效率是很低的。但是,当数据集大小适中(<10,000个示例)时,则需要在代码上进行尝试改进。  

8da3fe6e-9fbb-11eb-8b86-12bb97331649.png

根据剑桥研究人员所做的一项研究,最重要但仍经常被忽略的问题是数据的格式不统一。当数据从不同的源流式传输时,这些源可能具有不同的架构,不同的约定及其存储和访问数据的方式。对于机器学习工程师来说,这是一个繁琐的过程,需要将信息组合成适合机器学习的单个数据集。 小数据的劣势在于少量的噪声数据就会影响模型效果,而大数据量则会使标注工作变得很困难,高质量的标签也是机器学习模型的瓶颈所在。 这番话也引起机器学习界对MLOps的重新思索。

MLOps是什么? MLOps,即Machine Learning和Operations的组合,是ModelOps的子集,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。

8daf7302-9fbb-11eb-8b86-12bb97331649.png

与DevOps或DataOps方法类似,MLOps希望提高自动化程度并提高生产ML的质量,同时还要关注业务和法规要求。 互联网公司通常用有大量的数据,而如果在缺少数据的应用场景中进行部署AI时,例如农业场景 ,你不能指望自己有一百万台拖拉机为自己收集数据。 基于MLOps,吴恩达也提出几点建议:

MLOps的最重要任务是提供高质量数据。

标签的一致性也很重要。检验标签是否有自己所管辖的明确界限,即使标签的定义是好的,缺乏一致性也会导致模型效果不佳。

系统地改善baseline模型上的数据质量要比追求具有低质量数据的最新模型要好。

如果训练期间出现错误,那么应当采取以数据为中心的方法。

如果以数据为中心,对于较小的数据集(<10,000个样本),则数据容量上存在很大的改进空间。

当使用较小的数据集时,提高数据质量的工具和服务至关重要。

一致性的数据定义,涵盖所有边界情况,从生产数据中得到及时的反馈,数据集大小合适。 吴恩达同时建议不要指望工程师去尝试改善数据集。相反,他希望ML社区开发更多MLOps工具,以帮助产生高质量的数据集和AI系统,并使他们具有可重复性。除此之外,MLOps是一个新生领域,MLOps团队的最重要目标应该是确保整个项目各个阶段的高质量和一致的数据流。

一些MLOps的工具已经取得了不错的成绩。 Alteryx处于自助数据分析运动的最前沿。公司的平台“ Designer”旨在快速发现、准备和分析客户的详细信息。该工具用于易于使用的界面,用户可以连接和清除数据仓库。Alteryx的工具还包括空间文件的数据混合,可以将其附加到其他第三方数据。

Paxata提供自适应的信息平台,它具有灵活的部署和自助操作。它使分析人员和数据科学家可以收集多个原始数据集,并将它们转换成有价值的信息,这些信息可以立即转换为执行模型训练所需要的格式。该平台是基于所见即所得设计,具有电子表格风格的数据展示,因此用户无需学习新工具。此外,该平台能够提供算法协助以推断所收集数据的含义。 TIBCO软件最近在这个快速发展的领域中崭露头角。它允许用户连接、清理、合并和整理来自不同来源的数据,其中还包括大数据存储。该软件使用户可以通过简单的在线数据整理进行数据分析,并且提供完整的API支持,可以根据自己的个性化需求进行更改。

网友表示,吴恩达老师说的太真实了!

9161d666-9fbb-11eb-8b86-12bb97331649.png

也有网友表示,机器学习更像是数据分析,模型的搭建就是构建pipelines。

916b0434-9fbb-11eb-8b86-12bb97331649.png

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136285
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26063
  • 吴恩达
    +关注

    关注

    0

    文章

    26

    浏览量

    7335

原文标题:吴恩达的二八定律:80%的数据+20%的模型=更好的机器学习

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深圳人形机器人行走视频震惊英伟科学家,下一个划时代产品是AI机器人?

    电子发烧友网报道(文/子鹏)日前,深圳特区报发布了则国产人形机器人行走的视频,该视频引起了包括英伟高级AI研究科学家Jim Fan在内的业内人士和网友的广泛关注。由于这款
    的头像 发表于 01-14 00:53 3724次阅读
    深圳人形<b class='flag-5'>机器</b>人行走视频震惊英伟<b class='flag-5'>达</b>科学家,下<b class='flag-5'>一个</b>划时代产品是AI<b class='flag-5'>机器</b>人?

    拓斯上半年多关节机器人营收增长80%

    近日,拓斯公布了2025半年度报告。报告显示,今年以来拓斯连续两季度工业机器人业务保持20%以上快速增长。同时伴随下游客户需求增加、市场拓展突破,拓斯
    的头像 发表于 08-30 14:51 1742次阅读

    当不同的数据放在一个Flash页面上时,请问如何在不影响其他数据的情况下更改些单独的数据

    当不同的数据放在一个Flash页面上时,如何在不影响其他数据的情况下更改些单独的数据
    发表于 08-22 06:25

    入行嵌入式应该怎么准备?

    想入行嵌入式该怎么准备。很能理解大家对于嵌入式的关注,嵌入式系统是当今科技领域中的重要组成部分,它存在于我们生活的方方面面,各行各业。智能化时代的到来也让嵌入式技术炙手可热! SO,你该学习这些
    发表于 08-06 10:34

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这角落。在本文中,我们将把机器学习模型(神经网络)部署到边缘设备
    的头像 发表于 06-11 17:22 814次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    的限制和调控) 本书还有很多前沿技术项目的扩展 比如神经网络识别例程,机器学习图像识别的原理,yolo图像追踪的原理 机器学习训练三大点: 先准备
    发表于 04-30 01:05

    SOLIDWORKS 2025教育版有效的数据管理与团队协作

    在当今数字化时代,工程设计领域对数据管理和团队协作的要求日益提高。SOLIDWORKS 2025教育版作为款CAD软件,以其强大的数据管理和团队
    的头像 发表于 04-07 17:28 598次阅读
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>数据</b>管理与<b class='flag-5'>团队</b>协作

    深度解读英伟Newton机器人平台:技术革新与跨界生态构建

    的基础,它使机器人能够学习如何以更高的精度处理复杂的任务,与MuJoCo Playground或 NVIDIA Isaac Lab 等学习框架兼容,这是
    的头像 发表于 03-20 15:15 2498次阅读
    深度解读英伟<b class='flag-5'>达</b>Newton<b class='flag-5'>机器</b>人平台:技术革新与跨界生态构建

    ADS1298中drdy应该是转换数据准备就绪的标志输出吧?

    );那么当drdy为低电平时,这个语句会跳过去,执行下面的语句。 以前用这条语句非常顺利。最近发现程序运行时经常会卡在这里(drdy不会变低),有时候重新电再运行会解决这个问题,但有时候却不行 。 请问专家这是怎么回事,这应该是ADS1298的转换
    发表于 02-13 07:03

    TLK2711单工工作时,另外数据引脚和控制引脚应该怎么接?

    TLK2711单工工作时,另外数据引脚和控制引脚应该怎么接?
    发表于 02-08 07:05

    英伟组建ASIC团队,挖掘台湾设计服务人才

    英伟自2024年中旬起,便开始了从台湾地区半导体公司挖掘设计服务人才的行动。这系列举措旨在组建自家的ASIC(专用集成电路)团队,以在现有的Tensor Core GPU之外,开辟
    的头像 发表于 01-03 14:39 1032次阅读

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习般指神经网络算法)是
    的头像 发表于 12-30 09:16 1996次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】1.全书概览与第学习

    非常感谢电子发烧友提供的这次书籍测评活动!最近,我一直在学习大模型和人工智能的相关知识,深刻体会到机器人技术是极具潜力的未来方向,甚至可以说是推动时代变革的重要力量。能参与这次活动
    发表于 12-27 14:50

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据
    发表于 12-24 00:33

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器
    的头像 发表于 12-17 09:35 1343次阅读