Nature高光论文被质疑存在重大缺陷-电子发烧友网

一篇一年前的Nature论文近日在Reddit上引发热议，一位数据科学家认为这篇预测地震余震的论文在数据处理方法上存在重大缺陷，导致实验结果虚高，他向Nature去信反映意见，后者承认问题存在，但认为没有必要修正，而论文作者则态度强硬，不承认论文有问题。有人整理了事件的来龙去脉，引发热烈讨论。

近日，一篇一年前发表在《Nature》上的一篇关于使用深度学习技术预测大地震余震的文章在Reddit上引发热议。

事情的起源是，一位名叫Rajiv Shah数据科学家认为，这篇由哈佛大学和谷歌联合发表的论文在训练数据集和测试数据集划分和选择上存在重大缺陷，造成了“目标泄露”，导致预测性能结果偏高。这实际上使整个实验结果不再有效。

于是他联系了《Nature》表达了自己的对这篇文章的不同意见，然而Nature方面尽管承认他的意见有合理之处，论文在模型和算法设计上存在缺陷，但拒绝对此进行修正。两位论文作者也给出回复意见，否认了Rajiv Shah的全部意见。

一年前旧账重提：一篇Nature论文缺陷引发的争议

于是，近日Rajiv Shah在Medium上发文，将此事的整个过程讲述了一遍，并坚持自己的观点。随文附上了Nature论文、自己与Nature方面的通信往来，以及作者的回复意见等。热心网友将此文转到Reddit上，引发热烈讨论：

来看看当事人Rajiv Shah在Medium上的博客文章对于此事的梳理：（Medium原文编译）

人工智能，机器学习，预测建模和数据科学的研究在过去几年中发展迅速。随着人工智能研究和相关产业的持续增长，新一代的机器学习增强、自动化和GUI工具的诞生让越来越多的人构建预测模型。

但这样问题就来了：虽然使用预测建模工具变得更容易，但预测建模知识还不够普及，如果不小心，就很容易导致错误的结论。

不良方法会导致不准确的结果

大概一年前，我在《自然》上读到一篇文章，声称通过深度学习预测地震的余震达到了前所未有的准确性。但读过之后，我对他们的声称的结果产生了深深的怀疑。他们的方法的建模过程完全不够仔细，导致结果不再可信。

与此同时，这篇论文引发了广泛关注和认可。甚至在Tensorflow的官方说明中也提到了这篇文章，作为深度学习应用的例子。我发现这篇论文存在重大缺陷。论文中出现的数据泄漏问题会导致文中得出的准确度得分偏高，而且预测方法在模型选择上也不够关注（如果更简单的模型可以达到同样的准确度，就不必构建6层神经网络了）。

回到我之前的观点：论文中使用的方法很精巧，但在基本预测建模上的错误可能会使实验的整个结果无效。数据科学家应该在工作中及时发现并避免这些问题。我认为本文作者们完全忽略了这一点，所以我联系了作者，希望能改进文中的分析流程。虽然我们之前沟通过，但关于这篇文章的疑问，她没有回复我的邮件。

Nature回复：承认瑕疵，拒绝修正，论文作者表示没毛病

那么，我该怎么办？我的同事建议我发个Twitter就算了，但我认为应该大力提倡良好的建模习惯和理念。所以在接下来的6个月里，我一直在记录自己的结果，并与Nature方面进行了分享。

今年1月，我收到了Nature的一份回复说明，认为尽管关于数据泄漏和模型选择的严重问题使文中的实验结果不够可靠，但他们认为没有必要纠正，因为Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力，重点不是算法设计的细节。而此文的作者则做出了措辞更为严厉的回应。

我感到很失望。这是一篇重磅论文（毕竟发在Nature上啊），尽管文中的方法有缺陷，但它还是发表了，推动了对人工智能的又一波追捧。

本周，两位从事地震分析的数据科学家Arnaud Mignan和Marco Broccardo也撰文指出了在Nature那篇余震预测文章中发现了缺陷。我也把我自己的分析和可重现的代码放在了github上。

我想说清楚一点：我不是故意和Nature那篇论文的作者人品有问题。我不认为她们是有意为之，她们的目标只是展示如何将机器学习技术应用于余震预测。文章作者之一Devries是一位多才多艺的地震科学家，希望将最新的方法用于她的研究领域，并从中找到亮眼的结果。

但问题在于：这些观点和结果是基于有根本缺陷的方法得出的。仅仅说“这不是机器学习论文，而是地震论文”是解释不了的。一旦使用了预测模型，那么预测结果的质量就取决于建模质量，取得的成果就属于数据科学的成果，数据科学的结果必须严谨。

期刊方面历来对刊登对关于最新技术和方法的论文兴趣极高，但是，如果我们允许有基本问题的论文或项目取得进展，就会伤害我们所有人，对预测建模领域造成破坏。

Nature论文介绍：深度学习预测余震效果拔群

实际上，新智元在此前的报道中曾对Nature这篇文章进行过简要介绍：

谷歌和哈佛大学在Nature杂志发表的一篇论文中，研究人员展示了如何用深度学习预测余震位置，而且预测结果比现有模型更可靠。

他们训练了一个神经网络，在一个包含131000多个“主震-余震”事件的数据库中寻找模式，然后在一个包含30000对类似事件的数据库中测试其预测。

“主震-余震”事件的一个样本

深度学习网络比最有用的现有模型（称为“库仑破裂应力变化”）更可靠。在从0到1的精度范围内——1是完全准确的模型，0.5是一半准确的模型——现有库仑模型得分为0.583，而新的AI系统达到0.849。

“关于地震，你需要知道三件事情，”研究人员说：“它们什么时候发生、它们会有多强烈、它们会发生在哪里。在这项工作之前，我们有经验定律来解释它们发生的时间和规模，现在我们正在研究它们可能发生在哪。”

人工智能在这一领域的成功归功于该技术的核心优势之一：它能够发现复杂数据集中以前被忽视的模式。这在地震学中尤为重要，因为在地震学中看到数据中的关联性非常困难。地震事件涉及太多变量，从不同区域的地面构成到地震板块之间的相互作用类型，以及能量在地震波中穿过地球传播的方式。理解这一切是非常困难的。

研究人员表示，他们的深度学习模型能够通过考量一个被称为“米塞斯屈服准则”（von Mises yield criterion）的因素来做出预测，这是一种用于预测材料何时开始在压力下破裂的复杂计算。研究人员表示，这个因素常用于冶金等领域，“但在地震科学中从未流行过。”现在，随着这一新模型的发现，地质学家可以研究其关联性。

尽管这项研究取得了成功，但它还远未准备好在现实世界中应用。首先，AI模型只关注由地面永久性变化引起的余震，称为静态应力。但后续地震也可能是由于后来发生的地面隆隆声造成的，称为动态压力。现有模型也太慢而无法实时工作。这很重要，因为大多数余震发生在地震发生后的第一天，然后每过一天频率大致减半。

Rajiv的意见：训练方法缺陷导致“目标泄露”，实验结果虚高

在Rajiv致Nature的信中，指出这篇文章中存在“重大方法性错误”，使得文章结论不再严谨可靠。Rajiv主要提出了三点意见，以第一点为主。

第一，文中对模型训练和测试数据运用存在缺陷，出现了“目标泄露”（Target Leakage），论文中公布的预测精度实际上是偏高的结果（AUC=0.849）。论文中使用地震中部分数据来训练模型，然后再次使用这些数据来测试模型。这种目标泄露会导致机器学习中的结果偏高，而实际效果并没有这么好。为了避免这一错误，需要使用“分组分区”的方法，保证地震数据只会出现在训练部分或测试部分其中之一,而本文没有这样做。

第二个问题是没有使用学习曲线。

第三是上来就使用深度学习模型，而没有考虑逻辑回归、随机森林等基线方法。这可能会给读者造成误导，认为只有深度学习才能对余震预测任务取得良好效果，实际上并非如此，许多其他方法（如SVM、GAM）都可以获得与文中模型基本相当的性能。

在Nature的回复中，实际上在一定程度上承认了Rajiv意见的合理性，但拒绝对此进行纠正。

Nature方面的态度是：

尽管关于数据泄漏和模型选择的问题使文中的实验结果不够可靠，但没有必要纠正，因为本文作者Devries等人主要关注的是将机器学习作为一种工具来获得对自然世界的洞察力，算法设计的细节不是重点。

而论文作者方面给出的回复意见对这三点均予以反驳，二位作者表示：

1、Rajiv关于“数据泄露”使得模型性能虚高的说法在科学背景下不具备合理性。对地震数据训练集和测试集的分组符合机器学习的基本方法。

2、本文使用神经网络作为工具，为了获得关于余震的一些模式信息，并没有表示其他机器学习方法无用的意思。

3、整个文章的主旨就是神经网络能够成功学习简单的模式。

二位作者还在回复意见的最后部分表示，Rajiv的评论没有任何科学背景。我们是地震科学家，我们的目标是利用机器学习获得关于余震位置模式的信息，完成这个目标的是我们，而不是Rajiv的这些评论。如果Nature选择公开这些评论，我们会感到很失望。

网友热议：Nature承认有问题就该改，作者态度令人堪忧

Nature上的文章从来不缺少关注，尤其是出现重大争议的文章。虽然是一笔一年前的老账，但来龙去脉还很清楚，毫无悬念地成为Reddit上头号热帖。

从回复的热门帖子看，很多网友认为Rajiv的批评意见值得充分讨论，而Nature在承认论文中的算法存在一定问题的情况下仍然拒绝修改，没有尽到应尽的责任。至于二位作者的回复，一方面缺乏面对反对意见时的风度，而且对某些重要概念（比如数据泄露）的理解存在问题。

下面简单摘选几个：

1、我觉得论文作者的回复比批评意见本身更为“居高临下”啊。意见中提到使用更简单的方法也能得到基本相同的结果，这说明进行一些模型简化测试很有必要。尤其是作者回复的最后一段，简直是在说：我们是地震科学家，敢问您是哪位啊？然后还跟Nature讲，如果你公布了这些评论意见，我们会“很失望”的。作者凭什么这么说？为什么这些评论意见不该公布？难倒公布了不正能引发更多良性的科学讨论吗？而且评论中的意见也不是孤例，其他文章中也有提到这个问题。如果我是这篇文章的会议审稿人，我也会有类似的疑问，至少我会要求作者作一些模型简化测试。

2、我读了论文作者（Phoebe DeVrias和Brendan Meade）对Nature编辑的回应。虽然我不知道这些评论的背景，但可以肯定地说，她们面对批评意见表现得非常不成熟。

3、“我们承认在训练和测试集中都使用了来自同一地震的数据，但这并不重要，因为我们是聪明的地震科学家。”嗯，很好很强大。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230596
论文

论文

+关注

关注
1

文章
103

浏览量
14885
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24349

原文标题：Reddit热议：Nature预测余震论文被疑存重大缺陷，论文作者回怼

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

深圳恒兴隆机电｜高光玻璃电主轴：高效精密加工的新选择...

深圳恒兴隆机电｜高光玻璃电主轴：高效精密加工的新选择在当今的工业制造领域，高光玻璃电主轴以其高精度和高效率的特性，正逐渐成为精密加工行业的新宠。这种技术不仅提升了加工效率，更在产品质量

发表于 04-22 10:48

如何应对工业缺陷检测数据短缺问题？

这篇论文介绍了一种文本引导的变分图像生成方法，旨在解决工业制造中的异常检测和分割问题。传统方法通过训练非缺陷数据的分布来进行异常检测，但这需要大量且多样化的非缺陷数据。

发表于 03-14 10:15 •81次阅读

物理气相传输法生长SiC晶圆中的缺陷和测试

不同的是，SiC容易形成多型体，所以也存在一种多型共生缺陷。其中表面缺陷主要有：划伤，划痕，亚表面损伤，微型裂痕等，目前多用强光灯下目检来进行检测，碳包裹体和六方空洞也可以目检实现，这里不多做介绍。以下主要介绍多型共生

发表于 12-26 17:18 •1414次阅读

物理气相传输法生长SiC晶圆中的<b class='flag-5'>缺陷</b>和测试

再登Nature！DeepMind大模型突破60年数学难题，解法超出人类已有认知

（Function）一词的简写。利用大模型解决长期存在的科学难题，产生以前不存在的可验证且有价值* 的新信息。在Nature论文配套的新闻解读中，DeepMind负责人称

发表于 12-24 21:40 •337次阅读

再登<b class='flag-5'>Nature</b>！DeepMind大模型突破60年数学难题，解法超出人类已有认知

百度蛋白大语言模型研究成果登上Nature子刊封面

百度最新研究成果登上Nature子刊封面，文心生物计算大模型获国际顶刊认可！

发表于 11-25 11:25 •662次阅读

百度蛋白大语言模型研究成果登上<b class='flag-5'>Nature</b>子刊封面

【KV260视觉入门套件试用体验】三、缺陷检测

一、简介缺陷检测加速应用程序是一个机器视觉应用程序，它通过使用计算机视觉库功能自动检测芒果中的缺陷并在高速工厂管道中进行分类。缺陷检测应用这是在Xilinx SOM嵌入式平台上开发的缺

发表于 09-26 15:17

瑞萨电子深度学习算法在缺陷检测领域的应用

缺陷检测在电子制造业中是非常重要的应用。然而，由于存在的缺陷多种多样，传统的机器视觉算法很难对缺陷特征进行完全建模和迁移缺陷特征，致使传统机

发表于 09-22 12:19 •501次阅读

PCB缺陷有哪些？如何检查PCB缺陷？

今天主要是关于：PCB 缺陷以及如何检查PCB的缺陷。

发表于 08-18 11:05 •684次阅读

华为88全民健身日·浙里Nature计划——Nature Run嘉兴站活动顺利开展

COCOCity响应嘉兴体育局号召在嘉兴王江泾举办了“88全民健身日·浙里Nature计划——Nature Run嘉兴站”，全民健身健步走活动。本次健身健步走活动贴热8月8日全民健身日举办，全市20个跑团，260余嘉兴各地跑团成员以及周边众多居民齐聚王江泾莲泗荡绿道长虹

发表于 08-15 09:35 •426次阅读

华为88全民健身日·浙里Nature计划杭州站活动顺利开展

2023年8月8日是中国第15个“全民健身日”。为响应国家对推动全民健身和全民健康深度融合的号召，8月6日，华为运动健康在杭州大悦城举办了“88全民健身日·浙里Nature计划——Nature

发表于 08-14 11:41 •288次阅读

低质量图像的生成与增强的区别图像生成领域中存在的难点

1. 论文信息 2. 引言这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的图像中恢复高质量的细节信息。这对很多下游应用如监控视频分析等都是非常重要的。现有的图像生成

发表于 08-03 15:36 •1067次阅读

基于GAN的零缺陷样本产品表面缺陷检测

缺陷检测是工业生产过程中的关键环节，其检测结果的好坏直接影响着产品的质量。而在现实场景中，但产品瑕疵率非常低，甚至是没有，缺陷样本的不充足使得需要深度学习缺陷检测模型准确率不高。如何在缺陷

发表于 06-26 09:49 •618次阅读

颜宁新论文突然上线Nature子刊：结构是AI无能为力的

这篇论文的通讯作者是结构生物学家颜宁，主要从事与疾病相关的重要膜转运蛋白、电压门控离子通道的结构与工作机理及膜蛋白调控胆固醇代谢通路的分子机制方面的研究。

发表于 06-19 16:08 •364次阅读

ZnGeP2的本征缺陷计算之准PREPARE

ZnGeP2是一种非线性光学材料，但是其带隙内存在的较多光吸收峰限制了其应用，实验上认为这些吸收与点缺陷相关。因此，有必要对ZnGeP2的点缺陷性质开展理论计算，分析不同制备环境下其吸收峰的来源。

发表于 05-19 10:25 •317次阅读

AI读心重磅突破登Nature！大脑信号1秒被看穿，还能预测未来画面

来源：新智元导读最近，来自洛桑联邦理工学院的研究团队提出了一种全新的方法，可以用AI从大脑信号中提取视频画面。论文已登Nature，却遭网友疯狂「打假」。现在，AI不仅会读脑，还会预测下一个画面

发表于 05-12 10:32 •310次阅读