一个价值36.5万美元的机器学习模型打了水漂？-电子发烧友网

人们口口声声担心「人工智能的推断不可靠」，实则连个数据泄露的问题都敢忽略。

人们常会提到，当今流行的深度学习模型是黑箱状态——给它一个输入，模型就会决策出一个结果，其中的过程不为人所知。人们无法确切知道深度学习的决策依据以及结果是否可靠。近年来，越来越多的新研究面向构建可信的机器学习方法获得了成果。然而最近发生的一件事情告诉我们，很多时候被广泛应用的机器学习模型出问题的原因，压根就不会深入到算法层面。一点数据上的纰漏就会造成让人啼笑皆非的结果，而且最重要的是，这样的事比所谓「模型不可解释」造成的损失还要多出不少。

上个星期，美国宾夕法尼亚州历史保护官员和交通部门之间发送了大量邮件，其中内容混合了悲伤、困惑和沮丧的情绪。这一丑闻造成的影响仍在继续，在官方做出回应之前，我们还不能了解更多情况（尽管此事在当地考古学家之间已经人尽皆知了）。一个价值 36.5 万美元的机器学习模型打了水漂。发生甚么事了？五年前，一些人带着创意拜访了宾州交通部，提出为史前考古遗址创建一个全州范围预测模型。最终，政府部门选择与一家大型工程公司合作，后者一直在考古调查方面花钱。

从合同中我们可以看到，这家公司花费了纳税人 36.59 万美元，承诺提供一款最强大的模型，该模型还整合了 GIS（地理信息系统）叠加分析，其结果可供考古学家们使用。

从那以后直到今天，绝大多数宾夕法尼亚州交通部门的项目和所有需要进行文化资源调查的项目，在进行前都使用了这个机器学习模型的推断结果。

从数据准备、模型选择再到性能测试，这一项目原本看起来有模有样，然而错误一旦被人揭穿，情况就变得不忍直视了。他们将待预测区域当做负样本从 2013 年中到 2015 年，项目承包商花了一年半左右的时间向宾州交通部门交付了一个模型和 7 册文档。不幸的是，到目前为止，似乎没有人阅读过该文档。模型似乎会输出一些毫无意义的数字，而背后原因非常神奇。

咨询公司将未调研的土地用作负样本数据集，但是，这些土地不就是模型将要预测的那部分吗？一个花费了 30 多万美元的模型，却真实地包含了这样的错误。

无论如何，在一个（混合了回归和随机森林的）模型中使用 null 数据都是不合适的，这些本不应该作为负样本数据而出现。即使这些 null 数据存在于自变量中，而不是因变量，它们依旧能够对模型的推理结果造成严重破坏。他们检查项目时没有使用数据处理的最佳实践可为什么开发团队的数据科学家们辛苦工作了一年半，也没有意识到他们在第一步中就犯了错？这与他们检查项目的方式有关。一般来说，检查的金标准是留出一部分随机选择的部分。此时，只要你训练了模型，就可以知道该模型在给到真实数据时是否 work。

显然，在这件事中，相关研究人员未曾进行这样的验证。也许他们使用了一些神秘的统计方法？这就不得而知了。他们将已知地点视为随机采样的结果众所周知，即使在一个项目区域内，也并非所有土地的采样率都相同。仅使用铲测试坑（Shovel Test Pit），并假设你有 100 英亩的土地，其中 50 英亩是高概率，50 英亩是低概率，并以不同的间隔（常见的有 15 米、30 米）对其进行测试。这意味着你有 80% 的测试是在高概率土地上进行的，因为你可以在一英亩土地上以 15 米的间隔进行 16 次铲土测试，以 30 米的间隔进行约 4 次测试。因此你需要在高概率部分上找到 80% 的站点。因此我们有一些已知的站点，这些站点并不是从随机采样的土地中发现的，而是从人们认为能够找到它们的位置发现的。直觉上，大多数考古学家都知道这一点。这很重要，因为已知的正样本数据集的自变量分布已用于这些统计测试。这种分布是有偏置的，数据科学家不知道如何解释这些偏置。因此，我们需要留出一部分数据。项目管理，没有管理？

花费 36.5 万美元，并不意味着简单地让承包商派一个人过来，在办公室角落里捣鼓几年，而无需他人管理。追溯到 2014 年初，这个项目在交付给宾州交通部门的第三卷文档中，已经犯了致命的错误（使用 null 数据作为负样本数据）。难道这个项目无人监督吗？为什么在向宾州交通部门收取数十万美元之前，这个融合了 GIS 和机器学习的模型不值得其他人（无论是同事还是上级）关注？交通部门尽到职责了吗？交付文档之后，宾州交通部门中谁阅读过这些文档？作者猜测可能没人阅读，也没人能理解这些文档。不过这纯粹是猜测了，我们更愿意相信文档被读过，只是读地不仔细。

针对该模型中最大的错误而言，任何上过大学统计学课程的人都应该能够解决这个问题。但是正如有人指出的那样，考古学家很少学习这些数学课程，因此可能不会有考古学家来指出这些错误。教训这一错误浪费了纳税人 36.5 万美元，显示了美国交通部门和售卖该模型的公司在质量控制方面的漫不经心，同时也表明，一些有问题的模型目前仍在某些重要的大型项目中使用。老实说，如果想要一个预测模型，你拿出这个项目 3–5% 的经费就够了。把模型做得简单一点，这样你就能自己对它进行更新、测试。即使这个模型没有大量的质量控制问题，复杂的数学模型也不比简单的性能要好。揭露此事的人，Medium 博主 Archaic Inquiries 表示，他目前还在等待 SHPO 和 DOT 的回复。他特别强调，他既不在这个州工作，近期也没有这个打算，写这篇批评文章也没拿到什么报酬。他的动机很简单：看到这个模型由于缺乏监管而用于政策指导，作为一名专业人员的他为自己的领域感到尴尬。

机器学习的推断结果出错造成的损失有大有小，在这里可能意味着不少古人类遗迹被忽略，但最可怕的地方在于，在机器学习技术被广泛应用的今天，这样的错误其实屡见不鲜。在社交网络上，宾州算法事件被机器学习圈的人广泛讨论，有人表示：「我遇到的大多数数据科学家，都完全没有意识到这种错误推理的问题（数据泄露），而且因为对于机器学习的无条件信任，甚至相信算法，更甚于相信自己的领域知识。」「我认识一个政府机构的数据科学家，有很多次，我不得不向他解释一些数据科学领域中的基本概念。我不会点明他在哪个机构，但当美国人的生命受到威胁时，它会是人们首先想要求助的那个部门。」在 Reddit 上，用户 Stereoisomer 说道。不知此类在技术上没有什么解决难度的问题，以后会不会越来越少。

原文标题：模型花费几十万美元，五年之间指导无数项目，才发现负样本用的是null？

文章出处：【微信公众号：人工智能与大数据技术】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26441

浏览量
264036
人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230590
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130553
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119904

原文标题：模型花费几十万美元，五年之间指导无数项目，才发现负样本用的是null？

文章出处：【微信号：TheBigData1024，微信公众号：人工智能与大数据技术】欢迎添加关注！文章转载请注明出处。

Omdia 预测到 2028 年，机器人人工智能芯片组市场价值预计将达到 8.66 亿美元

Omdia 预测随着生成式人工智能的普及，到 2028 年，全球机器人人工智能芯片组市场价值预计将达到 8.66 亿美元伦敦2024年3月5日 /美通社/ -- 随着机器

发表于 03-06 15:43 •222次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •360次阅读

如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>

NVIDIA 向博士生颁发 6 万美元研究奖学金

NVIDIA 研究生奖学金计划现在进入了第 23 个年头，迄今为止已向 200 名学生颁发了超过 650 万美元的奖学金，推动了机器学习、计算机视觉、机器人和系统编程领域的科学研究工作

发表于 12-11 21:15 •437次阅读

机器学习模型评估指标

机器学习模型指标在机器学习建模过程中，针对不同的问题，需采用不同的模型评估指标。

发表于 09-06 12:51 •448次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>评估指标

机器学习模型类型分类

机器学习按照模型类型分为监督学习模型、无监督学习模型

发表于 09-05 11:45 •1342次阅读

机器学习theta是什么？机器学习tpe是什么？

解一下theta。在机器学习中，theta通常表示模型的参数。在回归问题中，theta可能表示线性回归的斜率和截距；在分类问题中，theta可能表示多项式模型的各项系数。这些参数通常是

发表于 08-17 16:30 •1223次阅读

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习算法汇总机器学习算法分类机器学习算法模型

发表于 08-17 16:11 •724次阅读

机器学习和深度学习的区别

　　机器学习是一种方法，利用算法来让机器可以自我学习和适应，而且不需要明确地编程。在许多应用中，需要机器使用历史数据训练

发表于 08-02 17:36 •388次阅读

创建一个边缘机器学习系统

。图像识别是一项相当复杂的机器学习任务，通常需要比关键字识别更高的性能。该指南也适用于想要为高端智能设备创建SoC的系统设计人员设备，比如智能手机。具体来说，该指南解释道: •为什么要为这个

发表于 08-02 11:02

开发基于硅光子的健康测试套件，SiPhox再获2700万美元投资

据麦姆斯咨询公司介绍，SiPhox Health是一家专注于医疗保健应用的硅光子初创公司，该公司表示，在完成价值1700万美元的A轮融资之后，现在又吸引了2700万美元的新资金投资。

发表于 07-25 09:12 •547次阅读

如何有效地监控生产中的机器学习模型

监控生产中的机器学习模型指南

发表于 07-05 16:30 •297次阅读

机器学习构建ML模型实践

实践中的机器学习：构建 ML 模型

发表于 07-05 16:30 •453次阅读

Transphorm上季度营收320万美元全年销售额1470万美元

该公司的收入为320万美元，前一季度为450万美元，2022会计年度第四季度为490万美元。运营费用为850万美元，上季度为720万美元，2

发表于 06-29 10:57 •403次阅读

台积电2纳米代工价近2.5万美元

IC设计业者表示，进入7纳米以下先进制程世代后，晶圆代工报价愈来愈贵，台积电7/6纳米每片晶圆报价翻倍冲上近1万美元，5/4纳米约1.6万美元，3纳米更是逼近2万美元，能有折扣优惠的是最大客户苹果（Apple），或是规模够大的订

发表于 06-27 15:53 •418次阅读

微软高管套现440万美元股票

微软高管套现440万美元股票据外媒报道，微软首席营销官克里斯·卡波塞拉5月份套现440万美元股票，克里斯·卡波塞拉目前任然持有约105，200股的微软股票；价值约合人民币2.25亿。当然不止是克里斯·卡波塞拉减持微软股票；近

发表于 05-12 15:39 •1408次阅读

搜索历史

一个价值36.5万美元的机器学习模型打了水漂？

评论

Omdia 预测到 2028 年，机器人人工智能芯片组市场价值预计将达到 8.66 亿美元

如何使用TensorFlow构建机器学习模型

NVIDIA 向博士生颁发 6 万美元研究奖学金

机器学习模型评估指标

机器学习模型类型分类

机器学习theta是什么？机器学习tpe是什么？

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习和深度学习的区别

创建一个边缘机器学习系统

开发基于硅光子的健康测试套件，SiPhox再获2700万美元投资

如何有效地监控生产中的机器学习模型

机器学习构建ML模型实践

Transphorm上季度营收320万美元全年销售额1470万美元

台积电2纳米代工价近2.5万美元

微软高管套现440万美元股票