0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探究机器学习 (ML) 模型的性能

Tensorflowers 来源:TensorFlow 作者:Lora Aroyo 和 Pravee 2021-04-13 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器学习 (ML) 模型的性能既取决于学习算法,也取决于用于训练和评估的数据。算法的作用已经得到充分研究,也是众多挑战(如 SQuAD、GLUE、ImageNet 等)的焦点。此外,数据也已经过改进,包括一系列应对 ML 评估问题的研讨会。相比之下,专注于 - 用于评估 ML 模型的数据的研究和挑战并不常见。

此外,许多评估数据集包含容易评估的项目,例如带有易于识别的主题的照片,因此错过了真实世界环境的自然歧义。评估中缺少模糊的真实世界样本,削弱了可靠地测试机器学习性能的能力,这使 ML 模型容易形成“弱点”,即模型难以或无法准确评估的样本的类别,因为评估集中缺少这一类样本。

SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

GLUE

https://gluebenchmark.com/leaderboard

ImageNet

https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet

为了解决识别 ML 模型中这些弱点的问题,我们最近在 HCOMP 2020 上发起了众包机器学习不良测试集 (CATS4ML) 数据挑战赛(面向全球研究人员和开发者开放至 2021 年 4 月 30 日)。挑战的目标是提高 ML 评估集的标准,并尽可能多地找到使算法处理起来会有困惑或其他问题的样本。CATS4ML 依靠人们的能力和直觉来发现机器学习具有信心但实际上却分类错误的新数据样本。

众包机器学习不良测试集

https://cats4ml.humancomputation.com/

什么是 ML 的“弱点”?

弱点有两类:已知的未知(Known Unknowns)未知的未知(Unknown Unknowns)。已知的未知是指模型对正确分类没有把握的样本。研究界在被称为主动学习的领域研究这一问题,并发现了解决方法,用很笼统的话来说就是,在不确定的样本上向人们交互式地征集新的标签。例如,如果模型不确定一张照片的主题是否是猫,会要求人员进行验证;但如果系统确定,则不会要求人员验证。虽然这方面还有改进的空间,但令人欣慰的是,模型的置信度与其性能相关,也就是说,人们可以看到模型不知道的东西。

主动学习

http://digital.library.wisc.edu/1793/60660

另一方面,未知的未知是指模型对其答案充满信心,但实际上是错误的样本。主动发现未知的未知的研究(例如,Attenberg 2015 和 Crawford 2019)已经帮助发现了大量的非预期机器行为。与这类发现未知的未知方法相比,生成对抗网络 (GAN) 以计算机光学错觉的形式为图像识别模型生成未知的未知,导致深度学习模型犯下人类无法感知的错误。虽然 GAN 在有意操纵的情况下会发现模型漏洞,但真实世界样本可以更好地突出模型在日常性能中的失败。这些真实世界样本是 CATS4ML 感兴趣的未知的未知 - 挑战的目的是收集人类可以可靠地解释但许多 ML 模型会自信地不同意的未经操作的样本。

Attenberg 2015

https://dl.acm.org/doi/10.1145/2700832

Crawford 2019

https://excavating.ai

示例说明由对抗噪声引起的计算机视觉错觉如何帮助发现 ML 模型的机器操作未知的未知(基于 Brown 2018)

Brown 2018

https://ai.googleblog.com/2018/09/introducing-unrestricted-adversarial.html

CATS4ML 数据挑战赛第一版:

Open Images 数据集

CATS4ML 数据挑战赛侧重于视觉识别,使用Open Images 数据集的图像和标签。挑战赛的目标图像选自 Open Images 数据集,以及来自同一数据集的一组 24 个目标标签。挑战赛的参与者被邀请发明新的创造性方法探索这个现有的公开可用数据集,并以预先选择的目标标签列表为中心,为 ML 模型发现未知的未知样本。

CATS4ML 数据挑战赛

https://cats4ml.humancomputation.com/

CATS4ML 是对 FAIR 最近推出的 DynaBench 动态数据收集研究平台的补充。DynaBench 使用 ML 模型在人类参与下解决静态基准问题,而 CATS4ML 则专注于通过鼓励探索现有 ML 基准有无可能属于未知的未知不利样本改善 ML 评估数据集。结果将有助于检测和避免未来的错误,也将对模型的可解释性提供见解。

FAIR

https://ai.facebook.com/tools/dynabench/

DynaBench

https://dynabench.org/

CATS4ML 旨在由此通过提供数据集资源来提高人们对这个问题的认识,开发者可以利用这些资源发现算法弱点。这也将让研究人员了解如何为机器学习创建更平衡、更多样化、更具有社会意识的基准数据集。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95008
  • GLUE
    +关注

    关注

    0

    文章

    5

    浏览量

    7577
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209

原文标题:探索机器学习中的未解之谜

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ML610Q428/ML610Q429 8位微控制器:性能与应用解析

    ML610Q428/ML610Q429 8位微控制器:性能与应用解析 在电子设备不断发展的今天,微控制器作为核心部件,其性能和功能对于设备的整体表现起着至关重要的作用。今天我们要探讨的
    的头像 发表于 04-15 11:40 142次阅读

    ML610Q438/ML610Q439 8位微控制器深度剖析

    ML610Q438/ML610Q439 8位微控制器深度剖析 一、概述 在电子设计领域,高性能、低功耗的微控制器一直是工程师们的理想之选。LAPIS SEMICONDUCTOR的ML
    的头像 发表于 04-15 09:40 371次阅读

    LAPIS SEMICONDUCTOR ML610Q435/ML610Q436:高性能8位微控制器的卓越之选

    LAPIS SEMICONDUCTOR ML610Q435/ML610Q436:高性能8位微控制器的卓越之选 在电子设计领域,选择一款合适的微控制器对于项目的成功至关重要。LAPIS
    的头像 发表于 04-15 09:30 374次阅读

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 673次阅读

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉
    的头像 发表于 01-31 09:34 825次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶<b class='flag-5'>模型</b><b class='flag-5'>学习</b>更快吗?

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注
    的头像 发表于 01-07 15:37 345次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    基于ETAS嵌入式AI工具链将机器学习模型部署到量产ECU

    AI在汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成到ECU软件中,已成为业界面临的核心挑战。
    的头像 发表于 12-24 10:55 6365次阅读
    基于ETAS嵌入式AI工具链将<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>部署到量产ECU

    探索BGSA144ML10:超高压射频天线调谐SP4T开关的卓越性能

    探索BGSA144ML10:超高压射频天线调谐SP4T开关的卓越性能 在射频(RF)应用领域,天线调谐开关的性能对于系统的整体表现起着至关重要的作用。今天,我们就来深入了解一款高性能
    的头像 发表于 12-21 11:20 1069次阅读

    半导体缺陷检测升级:机器学习(ML)攻克类别不平衡难题,小数据也能精准判,降本又提效!

    一、引言机器学习ML)在半导体制造领域的应用,正面临传统算法难以突破的核心瓶颈。尽管行业能产生海量生产数据,但两大关键问题始终未能有效解决:一是极端类别不平衡,二是初始生产阶段训练数据集匮乏
    的头像 发表于 11-05 11:38 744次阅读
    半导体缺陷检测升级:<b class='flag-5'>机器</b><b class='flag-5'>学习</b>(<b class='flag-5'>ML</b>)攻克类别不平衡难题,小数据也能精准判,降本又提效!

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    如果你关注最新进展,可能已经知道 Nordic Semiconductor 收购了 Neuton.AI。 Neuton 是一家边缘 AI 公司,致力于使机器学习模型更易于访问。它创建的模型
    发表于 08-31 20:54

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文
    发表于 07-31 11:38

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3087次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练
    的头像 发表于 07-14 11:49 1265次阅读
    通过NVIDIA Cosmos<b class='flag-5'>模型</b>增强<b class='flag-5'>机器人学习</b>

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 1151次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理<b class='flag-5'>模型</b>部署与工业集成!

    数据标注与大模型的双向赋能:效率与性能的跃升

    ​‌在人工智能蓬勃发展的时代,大模型凭借其强大的学习与泛化能力,已成为众多领域创新变革的核心驱动力。而数据标注作为大模型训练的基石,为大模型性能
    的头像 发表于 06-04 17:15 2208次阅读
    数据标注与大<b class='flag-5'>模型</b>的双向赋能:效率与<b class='flag-5'>性能</b>的跃升