探究机器学习 (ML) 模型的性能-电子发烧友网

机器学习 (ML) 模型的性能既取决于学习算法，也取决于用于训练和评估的数据。算法的作用已经得到充分研究，也是众多挑战（如 SQuAD、GLUE、ImageNet 等）的焦点。此外，数据也已经过改进，包括一系列应对 ML 评估问题的研讨会。相比之下，专注于 - 用于评估 ML 模型的数据的研究和挑战并不常见。

此外，许多评估数据集包含容易评估的项目，例如带有易于识别的主题的照片，因此错过了真实世界环境的自然歧义。评估中缺少模糊的真实世界样本，削弱了可靠地测试机器学习性能的能力，这使 ML 模型容易形成“弱点”，即模型难以或无法准确评估的样本的类别，因为评估集中缺少这一类样本。

SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

GLUE

https://gluebenchmark.com/leaderboard

ImageNet

https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet

为了解决识别 ML 模型中这些弱点的问题，我们最近在 HCOMP 2020 上发起了众包机器学习不良测试集 (CATS4ML) 数据挑战赛（面向全球研究人员和开发者开放至 2021 年 4 月 30 日）。挑战的目标是提高 ML 评估集的标准，并尽可能多地找到使算法处理起来会有困惑或其他问题的样本。CATS4ML 依靠人们的能力和直觉来发现机器学习具有信心但实际上却分类错误的新数据样本。

众包机器学习不良测试集

https://cats4ml.humancomputation.com/

什么是 ML 的“弱点”？

弱点有两类：已知的未知(Known Unknowns)和未知的未知(Unknown Unknowns)。已知的未知是指模型对正确分类没有把握的样本。研究界在被称为主动学习的领域研究这一问题，并发现了解决方法，用很笼统的话来说就是，在不确定的样本上向人们交互式地征集新的标签。例如，如果模型不确定一张照片的主题是否是猫，会要求人员进行验证；但如果系统确定，则不会要求人员验证。虽然这方面还有改进的空间，但令人欣慰的是，模型的置信度与其性能相关，也就是说，人们可以看到模型不知道的东西。

主动学习

http://digital.library.wisc.edu/1793/60660

另一方面，未知的未知是指模型对其答案充满信心，但实际上是错误的样本。主动发现未知的未知的研究（例如，Attenberg 2015 和 Crawford 2019）已经帮助发现了大量的非预期机器行为。与这类发现未知的未知方法相比，生成对抗网络 (GAN) 以计算机光学错觉的形式为图像识别模型生成未知的未知，导致深度学习模型犯下人类无法感知的错误。虽然 GAN 在有意操纵的情况下会发现模型漏洞，但真实世界样本可以更好地突出模型在日常性能中的失败。这些真实世界样本是 CATS4ML 感兴趣的未知的未知 - 挑战的目的是收集人类可以可靠地解释但许多 ML 模型会自信地不同意的未经操作的样本。

Attenberg 2015

https://dl.acm.org/doi/10.1145/2700832

Crawford 2019

https://excavating.ai

示例说明由对抗噪声引起的计算机视觉错觉如何帮助发现 ML 模型的机器操作未知的未知（基于 Brown 2018）

Brown 2018

https://ai.googleblog.com/2018/09/introducing-unrestricted-adversarial.html

CATS4ML 数据挑战赛第一版：

Open Images 数据集

CATS4ML 数据挑战赛侧重于视觉识别，使用Open Images 数据集的图像和标签。挑战赛的目标图像选自 Open Images 数据集，以及来自同一数据集的一组 24 个目标标签。挑战赛的参与者被邀请发明新的创造性方法探索这个现有的公开可用数据集，并以预先选择的目标标签列表为中心，为 ML 模型发现未知的未知样本。

CATS4ML 数据挑战赛

https://cats4ml.humancomputation.com/

CATS4ML 是对 FAIR 最近推出的 DynaBench 动态数据收集研究平台的补充。DynaBench 使用 ML 模型在人类参与下解决静态基准问题，而 CATS4ML 则专注于通过鼓励探索现有 ML 基准有无可能属于未知的未知不利样本改善 ML 评估数据集。结果将有助于检测和避免未来的错误，也将对模型的可解释性提供见解。

FAIR

https://ai.facebook.com/tools/dynabench/

DynaBench

https://dynabench.org/

CATS4ML 旨在由此通过提供数据集资源来提高人们对这个问题的认识，开发者可以利用这些资源发现算法弱点。这也将让研究人员了解如何为机器学习创建更平衡、更多样化、更具有社会意识的基准数据集。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6514

浏览量
87609
GLUE

GLUE

+关注

关注
0

文章
4

浏览量
7322
机器学习

机器学习

+关注

关注
66

文章
8134

浏览量
130580

原文标题：探索机器学习中的未解之谜

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

深入探讨机器学习的可视化技术

机器学习可视化（简称ML可视化）一般是指通过图形或交互方式表示机器学习模型、数据及其关系的过程。

发表于 04-25 11:17 •54次阅读

深入探讨<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的可视化技术

机器学习（ML）推理主要计算之存内计算芯片

机器学习（ML）应用已经在汽车、医疗保健、金融和技术等各个领域变得无处不在。这导致对高性能、高能效 ML 硬件解决方案的需求不断增加。

发表于 04-07 10:48 •127次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b>（<b class='flag-5'>ML</b>）推理主要计算之存内计算芯片

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •362次阅读

如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>

机器学习模型评估指标

机器学习模型指标在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

发表于 09-06 12:51 •453次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

机器学习模型类型分类

机器学习按照模型类型分为监督学习模型、无监督学习模型

发表于 09-05 11:45 •1379次阅读

机器学习4个超参数调优方法

维基百科上说，“Hyperparameter optimization或tuning是为学习算法选择一组最优的hyperparameters的问题”。 ML工作流中最困难的部分之一是为模型找到

发表于 08-24 09:40 •248次阅读

机器学习算法汇总机器学习算法分类机器学习算法模型

是解决具体问题的一系列步骤，机器学习的算法被设计用于从大量的数据中自动学习并不断改进自身的性能。本文将为大家介绍机器

发表于 08-17 16:11 •729次阅读

机器学习超参数调试方法

ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。

发表于 08-10 10:24 •271次阅读

Apple机器学习和视觉生态系统更新：Core ML、Create ML和VisionKit

苹果工程师 Ben Levine 解释说，第一个有关 Core ML（运行在 iOS 设备上的机器学习框架）的改进是更快的推理引擎，不需要重新编译模型或修改任何相关代码就可以获得这种提

发表于 07-29 14:52 •743次阅读

如何有效地监控生产中的机器学习模型

监控生产中的机器学习模型指南

发表于 07-05 16:30 •301次阅读

开发和部署ML模型介绍

实践中的机器学习： ML 工作流

发表于 07-05 16:30 •541次阅读

如何部署ML模型到Google云平台

实践中的机器学习：在 Google 云平台上部署 ML 模型

发表于 07-05 16:30 •426次阅读

机器学习构建ML模型实践

实践中的机器学习：构建 ML 模型

发表于 07-05 16:30 •457次阅读

如今MCU上“跑”机器学习，也很给力

机器学习（ML）是解决涉及模式识别问题的一个非常好的工具，ML算法能将杂乱的原始数据转化为可用信号。其基本流程是基于数据产生模型，然后利用

发表于 05-19 09:55 •1494次阅读

将ML模型推向边缘实现了AI的新用例

如前文所讨论的那样，ML模型通常依赖于大量的并行运算。本质上讲，它们需要原始的计算能力。但是，在算力和设备消耗的实际功率之间始终要进行权衡与取舍。要将ML模型推向边缘，需要消耗功率尽可

发表于 05-09 09:51 •619次阅读