0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在机器学习领域,数据和模型哪个更重要

智能感知与物联网技术研究所 来源:neptune.ai 作者:Harshil Patel 2022-03-24 14:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习领域,数据重要还是模型重要?这是一个很难回答的问题。

模型和数据是 AI 系统的基础,这两个组件在模型的开发中扮演着重要的角色。

人工智能领域最权威的学者之一吴恩达曾提出「80% 的数据 + 20% 的模型 = 更好的机器学习」,他认为一个团队研究 80% 的工作应该放在数据准备上,数据质量是重要的,但很少有人在乎。如果更多地强调以数据为中心而不是以模型为中心,机器学习会发展的更快。

我们不禁会问,机器学习的进步是模型带来的还是数据带来的,目前还没有一个明确的答案。

在本文中,Android 开发者和机器学习爱好者 Harshil Patel 介绍了「机器学习:以数据为中心 VS 以模型为中心」,通过对比以确定两者中哪个更重要,此外,Patel 还介绍了如何使用以数据为中心的基础设施。

以数据为中心的方法 VS 以模型为中心的方法

以模型为中心的方法意味着需要通过实验来提高机器学习模型性能,这涉及模型架构的选择、训练过程。而在以模型为中心的方法中,你需要保持数据相同,通过改进代码和模型架构来提高性能。此外,对代码的改进是以模型为中心的根本目标。

目前,大多数 AI 应用都是以模型为中心的,其中一个可能的原因是学术研究非常重视 AI 领域。根据吴恩达的说法,AI 领域 90% 以上的研究论文都是以模型为中心的,因为我们很难创建大型数据集,使其成为公认的标准。因此,AI 社区认为以模型为中心的机器学习更有前景。研究者在专注于模型的同时,往往会忽略数据的重要性。

对于研究者而言,数据是每个决策过程的核心,以数据为中心的公司通过使用其运营产生的信息,可以获得更准确、更有条理、更透明的结果,从而可以帮助公司组织更顺利地运行。以数据为中心的方法涉及系统地改进、改进数据集,以提高 ML 应用程序的准确性,对数据进行处理是以数据为中心的中心目标。

f0375be2-98a9-11ec-952b-dac502259ad0.png

数据驱动 VS 以数据为中心

许多人经常混淆「以数据为中心」和「数据驱动」这两个概念。数据驱动是一种从数据中收集、分析和提取见解的方法,它有时被称为「分析」。另一方面,以数据为中心的方法侧重于使用数据来定义应该首先创建的内容;而以数据为中心的架构指的是一个系统,其中数据是主要和永久的资产。数据驱动架构意味着通过利用大量数据来创建技术、技能和环境。

对于数据科学家和机器学习工程师来说,以模型为中心的方法似乎更受欢迎。这是因为从业者可以利用自身知识储备来解决特定问题。另一方面,没有人愿意花大量时间去标注数据。

然而,在当今的机器学习中,数据至关重要,但在 AI 发展中却经常被忽视和处理不当。由于数据错误,研究者可能花费大量时间进行查错。模型精度较低的根本原因可能不是来自模型本身,而是来自错误的数据集。

f04d9542-98a9-11ec-952b-dac502259ad0.png

除了关注数据外,模型和代码也很重要。但研究者往往倾向于在关注模型的同时忽略数据的重要性。最好的方法是同时关注数据和模型的混合方法。根据应用程序的不同,研究者应该兼顾数据和模型。

以数据为中心的基础架构

以模型为中心的机器学习系统主要关注模型架构优化及其参数优化。

f06851ca-98a9-11ec-952b-dac502259ad0.png

以模型为中心的 ML 应用程序

上图中描述的是以模型为中心的工作流适用于少数行业,如媒体、广告、医疗保健或制造业。但也可能面临如下挑战:

需要高级定制系统:不同于媒体和广告行业,许多企业无法使用单一的机器学习系统来检测其产品的生产故障。虽然媒体公司可以负担得起有一个完整的 ML 部门来处理优化问题,但需要多个 ML 解决方案的制造企业不能按照这样的模板进行实施;

大型数据集的重要性:在大多数情况下,公司没有大量数据可供使用。相反,他们经常被迫处理微小的数据集,如果他们的方法是以模型为中心的,那么这些数据集很容易产生令人失望的结果。

吴恩达曾在他的 AI 演讲中解释了他如何相信以数据为中心的 ML 更有价值,并倡导社区朝着以数据为中心的方向发展。他曾经举了一个「钢铁缺陷检测」的例子,其中以模型为中心的方法未能提高模型的准确率,而以数据为中心的方法将准确率提高了 16%。

f07c738a-98a9-11ec-952b-dac502259ad0.png

以数据为中心的 ML 应用程序

在实施以数据为中心的架构时,可以将数据视为比应用程序和基础架构更耐用的基本资产。以数据为中心的 ML 使数据共享和移动变得简单。那么,在以数据为中心的机器学习到底涉及什么?在实现以数据为中心的方法时,我们应该考虑以下因素:

数据标签质量:当大量的图像被错误标记时,会出现意想不到的错误,因此需要提高数据标注质量;

数据增强:让有限的数据产生更多的数据,增加训练样本的数量以及多样性(噪声数据),提升模型稳健性;

特征工程:通过改变输入数据、先验知识或算法向模型添加特征,常被用于机器学习,以帮助提高预测模型的准确性;

数据版本控制:开发人员通过比较两个版本来跟踪错误并查看没有意义的内容,数据版本控制是维护数据中最不可或缺的步骤之一,它可以帮助研究者跟踪数据集的更改(添加和删除),版本控制使代码协作和数据集管理变得更加容易;

领域知识:在以数据为中心的方法中,领域知识非常有价值。领域专家通常可以检测到 ML 工程师、数据科学家和标注人员无法检测到的细微差异,ML 系统中仍然缺少涉及领域专家的内容。如果有额外的领域知识可用,ML 系统可能会表现得更好。

应该优先考虑哪一个:数据数量还是数据质量?

需要强调的是,数据量多并不等同于数据质量好。当然,训练神经网络不能只用几张图就能完成,数据数量是一个方面,但现在的重点是质量而不是数量。

f09187de-98a9-11ec-952b-dac502259ad0.png

如上图所示,大多数 Kaggle 数据集并没有那么大。在以数据为中心的方法中,数据集的大小并不那么重要,并且可以使用质量较小的数据集完成更多的工作。不过需要注意的是,数据质量高且标注正确。

上图中是另一种标注数据的方式,单独或组合标注。例如,如果数据科学家 1 单独标注菠萝,而数据科学家 2 将其组合标注,则两者标注的数据不兼容,导致学习算法变得混乱。因此,需要将数据标签保持一致;如果需要单独标注,请确保所有标注都以相同的方式进行。

f0c2d94c-98a9-11ec-952b-dac502259ad0.png

上图为吴恩达解释了小数据集一致性的重要性

到底需要多少数据?

数据质量不可忽视,但数据量也是至关重要的,研究者必须有足够的数据支撑才能解决问题。深度网络具有低偏差、高方差特性,我们可以预见更多的数据可以解决方差问题。但是多少数据才够呢?目前这个问题还很难回答,不过我们可以认为拥有大量的数据是一种优势,但也不是必须的。

如果你采用以数据为中心的方法,请记住以下几点:

确保在整个 ML 项目周期中数据保持一致;

数据标注保持一致;

要及时反馈结果;

进行错误分析;

消除噪声样本。

那么,我们哪里可以找到高质量的数据集?这里推荐几个网站,首先是 Kaggle:在 Kaggle 中,你会找到进行数据科学工作所需的所有代码和数据,Kaggle 拥有超过 50,000 个公共数据集和 400,000 个公共 notebook,可以快速完成任务。

f0deb1ee-98a9-11ec-952b-dac502259ad0.png

其次是 Datahub.io:Datahub 是一个主要专注于商业和金融的数据集平台。许多数据集,例如国家、人口和地理边界列表,目前在 DataHub 上可用。

f0f95f4e-98a9-11ec-952b-dac502259ad0.png

最后是 Graviti Open Datasets:Graviti 是一个新的数据平台,主要为计算机视觉提供高质量的数据集。个人开发人员或组织可以轻松访问、共享和更好地管理开放数据。

原文标题:90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7375

    浏览量

    95248
  • AI
    AI
    +关注

    关注

    91

    文章

    42422

    浏览量

    303372
  • 模型
    +关注

    关注

    1

    文章

    3893

    浏览量

    52397

原文标题:90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习中的数据质量双保障:从“验证”到“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据
    的头像 发表于 04-24 15:48 187次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>中的<b class='flag-5'>数据</b>质量双保障:从“验证”到“标记”

    人工智能多模态与视觉大模型开发实战 - 2026必会

    的诊断建议。 未来展望:开启视觉智能新时代 随着技术的不断进步,视觉大模型将在更多领域发挥重要作用。未来,它有望与自然语言处理、机器人技术等领域
    发表于 04-15 16:06

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉
    的头像 发表于 01-31 09:34 958次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶<b class='flag-5'>模型</b><b class='flag-5'>学习</b>更快吗?

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家的工作习惯。需避免的机器学习和深度学习数据错误
    的头像 发表于 01-07 15:37 419次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    基于ETAS嵌入式AI工具链将机器学习模型部署到量产ECU

    AI汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成到ECU软件中,已成为业界面临的核心挑战。
    的头像 发表于 12-24 10:55 6551次阅读
    基于ETAS嵌入式AI工具链将<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>部署到量产ECU

    移动电源应用中,电容的高容值和低ESR,哪个对抑制纹波更重要

    移动电源应用中,电容的高容值和低ESR,哪个对抑制纹波更重要
    发表于 12-06 13:30

    探索RISC-V机器领域的潜力

    Pro则运行控制节点,通过Wi-Fi网络接收Gazebo发布的传感器信息(如激光雷达数据),并发布控制指令(速度指令)来驱动机器模型移动和避障。 • 体验: MUSE Pi Pro的K1 CPU
    发表于 12-03 14:40

    量子机器学习入门:三种数据编码方法对比与应用

    传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是
    的头像 发表于 09-15 10:27 1112次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以
    发表于 07-31 11:38

    3D 工业相机解析:轴向、平面、重复、线性精度到底哪个更重要

    3D 工业相机选型时,“精度” 往往是用户最先关注的指标,但面对参数表上的 “轴向精度 ”“平面精度”“重复精度”“线性精度”,很多工程师都会陷入困惑:这些参数到底代表什么?为什么同一台设备会有多个精度数值?实际检测中,哪个
    的头像 发表于 07-29 17:18 2403次阅读
    3D 工业相机解析:轴向、平面、重复、线性精度到底<b class='flag-5'>哪个</b><b class='flag-5'>更重要</b>?

    FPGA机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效
    的头像 发表于 07-16 15:34 3219次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练
    的头像 发表于 07-14 11:49 1451次阅读
    通过NVIDIA Cosmos<b class='flag-5'>模型</b>增强<b class='flag-5'>机器人学习</b>

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    教育等领域发挥着越来越重要的作用。​针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求,我们根据CSK6大模型语音视觉开发板已有功能,
    发表于 07-04 11:10

    模型半导体行业的应用可行性分析

    的应用,比如使用机器学习分析数据,提升良率。 这一些大模型是否真的有帮助 能够解决工程师的知识断层问题 本人纯小白,不知道如何涉足这方面
    发表于 06-24 15:10

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时
    的头像 发表于 06-11 17:22 1221次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理<b class='flag-5'>模型</b>部署与工业集成!