0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中的几种数据偏差

Dbwd_Imgtec 来源:Imagination Tech 作者:Hengtee Lim 2021-01-05 17:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误。

通常,用于机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是机器学习如何完成其工作的方式。数据偏差可能会发生在从人类报告和选择偏差到算法和解释偏差的一系列区域中。

解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方之后,你才可以采取必要的措施来纠正它,无论是解决数据不足还是改善注释过程的问题。考虑到这一点,请务必对数据的范围,质量和处理保持警惕,以免产生偏差。这不仅影响模型的准确性,而且还会涉及道德,公平和包容性问题。

下面,我列出了机器学习中最常见的7种数据偏见类型,以帮助你分析和了解其发生的位置以及你可以采取的措施。

数据偏差的类型

尽管并不详尽,但此列表包含了该领域中数据偏见的常见示例,以及其发生位置的示例。

样本偏差:当数据集不能反映模型将在其中运行的环境的实际情况时,就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差:排除偏差在数据预处理阶段最常见。通常,这是删除不重要的有价值数据的情况。但是,由于某些信息的系统排除,它也可能发生。例如,假设你有一个在美国和加拿大的客户销售数据集。98%的客户来自美国,因此你选择删除不相关的位置数据。但是,这意味着你的模型将不会因为加拿大客户的消费增加两倍多这一事实而受到影响。

测量偏差:当为训练而收集的数据与现实世界中收集的数据不同时,或者当错误的测量结果导致数据失真时,就会发生这种偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的照相机收集的,而生产数据是用另一种照相机收集的。在项目的数据标记阶段,由于注释不一致也会导致测量偏差。

召回偏差:这是一种测量偏差,在项目的数据标记阶段很常见。当你不一致地标记相似类型的数据时,就会产生召回偏差。这导致较低的精度。例如,假设你有一个团队将电话的图像标记为损坏,部分损坏或未损坏。如果有人将一张图像标记为已损坏,但将相似的图像标记为部分已损坏,则你的数据将不一致。

观察者偏差:也称为确认偏差,观察者偏差是看到你期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时,可能会发生这种情况。当标签制作者让主观思想控制他们的标签制作习惯,从而导致数据不准确时,你也可以看到这一点。

种族偏见:尽管不是传统意义上的数据偏见,但由于其在AI技术中的盛行,因此仍然值得一提。当数据偏向特定人群时,就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点,该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛提供了很好的例子说明了这种情况的发生。

关联偏差:当机器学习模型的数据加强和/或乘以文化偏差时,就会发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。但是,就你的机器学习模型而言,不存在女医生和男护士。社交偏见最出名的是造成性别偏见,这在“挖掘人工智能”研究中可见。

如何避免机器学习项目中的数据偏差?

防止机器学习项目中的数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时出现偏差,但是你可以采取许多步骤来帮助防止偏差或及早发现偏差。尽管远非详尽的清单,但以下要点为思考机器学习项目的数据偏差提供了入门级指南。

尽你所能,事先研究用户。请注意你的一般用例和潜在异常值。

确保你的数据科学家和数据标签团队是多元化的。

尽可能合并来自多个来源的输入以确保数据多样性。

为数据标签创建黄金标准。黄金标准是一组数据,可以反映任务的理想标记数据。它使你能够测量团队的注释的准确性。

为数据标签期望制定明确的准则,以便数据标签保持一致。

对于可能会出现数据准确性偏差的任何项目,请使用多次通过注释。例如,情感分析,内容审核和意图识别。

寻求具有领域专业知识的人员的帮助,以查看你收集和/或注释的数据。团队外部的人可能会看到团队忽略的偏见。

定期分析你的数据。跟踪错误和问题区域,以便您快速响应并解决它们。在决定删除或保留它们之前,请仔细分析数据点。

使偏差测试成为开发周期的一部分。Google,IBM和Microsoft都发布了工具和指南,以帮助分析许多不同数据类型的偏差。

如果你想更深入地了解偏见的产生方式,偏见对机器学习模型的影响以及过去在自动化技术中的偏见,我建议你参考玛格丽特·米切尔(Margaret Mitchell)的“人工智能的视野和语言偏见”演示。

链接:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

总结

请务必注意任何数据项目在机器学习中的潜在偏见。通过尽早安装正确的系统并保持数据收集,标记和实施的最顶层,你可以在出现问题之前就注意到它,或者在出现问题时对其进行响应。

责任编辑:xj

原文标题:机器学习中的7种数据偏见

文章出处:【微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95008
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209

原文标题:机器学习中的7种数据偏见

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    为何你的机器人手臂“知觉”存在偏差?探秘力传感器的奥秘

    ,甚至安装时的小角度偏差都算出来,最后实现精准的重力补偿,让传感器只反馈我们关心的“外部力”。整个过程不需要啥昂贵的校准设备,核心就是数学和编程。我会尽量用大白话把原理说透,再附上能直接运行的Python代码。不管你是学机器人的学生,还是现场干活的工程师,都能跟着一步步做
    发表于 04-13 15:25

    振弦式应变计安装时角度偏差会导致数据误差吗?

    振弦式应变计的安装精度是保证其测量数据准确可靠的关键前提之一。安装时产生的角度偏差,确实会直接影响测量结果的准确性。从仪器的工作原理分析,振弦式应变计的设计初衷是精确测量其轴线方向上的变形。当仪器
    的头像 发表于 03-20 13:32 441次阅读
    振弦式应变计安装时角度<b class='flag-5'>偏差</b>会导致<b class='flag-5'>数据</b>误差吗?

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 443次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化处理方法

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 673次阅读

    机器学习和深度学习需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据
    的头像 发表于 01-07 15:37 345次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b><b class='flag-5'>中</b>需避免的 7 个常见错误与局限性

    电能质量在线监测装置能测频率偏差吗?

    )的波动,输出频率偏差值、频率波动率等关键数据,为电网调度、稳定控制提供依据。 一、为什么能测?核心测量原理 电能质量在线监测装置通过 “ 高精度采样 + 基波频率提取算法 ” 实现频率偏差测量,核心步骤可拆解为 3 步,确保测
    的头像 发表于 10-13 17:48 1388次阅读

    【新启航】深度学习在玻璃晶圆 TTV 厚度数据智能分析的应用

    一、引言 玻璃晶圆总厚度偏差(TTV)是衡量晶圆质量的关键指标,其精确分析对半导体制造、微流控芯片等领域至关重要 。传统 TTV 厚度数据分析方法依赖人工或简单算法,效率低且难以挖掘数据潜在规律
    的头像 发表于 10-11 13:32 783次阅读
    【新启航】深度<b class='flag-5'>学习</b>在玻璃晶圆 TTV 厚度<b class='flag-5'>数据</b>智能分析<b class='flag-5'>中</b>的应用

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组
    的头像 发表于 09-15 10:27 944次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三<b class='flag-5'>种数据</b>编码方法对比与应用

    有哪些具体的方法可以减少电能质量监测装置的数据偏差

    LZ-300C电能质量在线监测装置 减少电能质量监测装置的数据偏差,需从硬件设计、校准溯源、环境控制、算法优化、安装维护等多环节入手,结合新能源并网场景的特殊性(如强电磁干扰、谐波丰富、波动频繁
    的头像 发表于 08-21 09:33 756次阅读
    有哪些具体的方法可以减少电能质量监测装置的<b class='flag-5'>数据</b><b class='flag-5'>偏差</b>?

    如何判断电能质量监测装置的数据偏差是否在允许范围内?

    LZ-DZ200电能质量在线监测装置 判断电能质量监测装置的数据偏差是否在允许范围内,需结合标准规范、装置精度等级、测量参数类型及实际应用场景(如新能源并网的特殊要求)综合评估,核心是将实测偏差
    的头像 发表于 08-21 09:28 1589次阅读
    如何判断电能质量监测装置的<b class='flag-5'>数据</b><b class='flag-5'>偏差</b>是否在允许范围内?

    实际运行,电能质量监测装置常见的数据偏差(如漂移、跳变)由哪些原因导致?

    LZ-DZ200A电能质量在线监测装置 在实际运行,电能质量监测装置的数据偏差(如漂移、跳变)往往是多因素共同作用的结果,尤其在新能源并网场景,因电力电子设备密集、电磁环境复杂,
    的头像 发表于 08-21 09:23 1630次阅读
    实际运行<b class='flag-5'>中</b>,电能质量监测装置常见的<b class='flag-5'>数据</b><b class='flag-5'>偏差</b>(如漂移、跳变)由哪些原因导致?

    高温季负荷激增,电压偏差影响电机效率?电能质量监测必不可少

    电压偏差的成因复杂,可能源于电网供电波动、厂区负荷突变或变压器分接头设置不合理等。在缺乏量化数据的情况下,问题溯源往往面临挑战。 CET电能质量监测方案提供“全周期、多维度”的数据记录,为偏差
    的头像 发表于 08-04 15:09 1166次阅读
    高温季负荷激增,电压<b class='flag-5'>偏差</b>影响电机效率?电能质量监测必不可少

    FPGA在机器学习的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3087次阅读

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据
    的头像 发表于 05-16 14:48 1593次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    相机标定是视觉系统的基石,直接影响后续图像处理的精度。书中详细介绍了单目和双目相机的标定流程,包括标定板的使用、参数优化以及标定文件的应用。 实际应用,标定误差可能导致机器人定位偏差,因此标定过程
    发表于 05-03 19:41