Goodfellow：同行评议才是现今AI会议论文水平下降的元凶！-电子发烧友网

Ian Goodfellow 今天发推表示，他怀疑正是同行评议机制导致了如今AI会议论文下降，评审人质量参差不齐是主要原因，浮夸的论文被选中，真正的好论文反而被埋没。作为科学界一贯以来的双盲同行评议机制，正在遭遇一场前所未有的灾难。

如果你让一位科学家只选一个科学界引以为傲的标准，估计不少人都会说“同行评议”。

同行评议是大多数国际期刊和会议对投稿论文进行筛选的其中一个过程。很多时候，期刊编辑或学术会议会邀请某一特定研究领域的专家，对文章进行评价，帮助决定投稿论文是否值得发表。

更广泛地说，同行评议是专家学者对本专业领域的学术成果的评价，包括著述的发表出版、评论、评奖、评职称、论文引用、论文鉴定等等。

同行评议是科学界能够“自我纠正”“自我完善”的光荣传统：以同行评议为核心的科学评价体系旨在清除不同形式的欺骗、实验误差或研究者的失误，防止和发现自欺行为和偏见。

但是，今天谷歌研究员、GAN的发明人Ian Goodfellow 却发布一条推文：他怀疑，实际上正是同行评议造成了如今机器学习里的一些怪现象！

尤其是机器学习和AI会议论文的一些同行评议结果，不但没有保持科学界的优良传统，反而导致一些华而不实的论文被发表，而真知灼见则往往因为评审人自身水平低、没看懂而拒稿遭到埋没。

现在的顶会评审，真是出了大问题。

Goodfellow：同行评议才是现今AI会议论文水平下降的元凶！

Goodfellow在推文中表示，作为频繁出任会议领域主席并且管理一支小型科研团队的研究者，他经常能看到很多人（包括他自己团队在内）工作的评审意见。

对于实证研究来说，最多的（拒稿）意见是没有“理论”，但评审人并没有针对某个特定问题去要理论，而是将其当做一种轻松的拒稿理由——Goodfellow 这样形容，“他们扫了一遍论文，没看到炫酷的公式”，好，拒掉吧，原因？写“缺乏理论”就好。

而投稿人为了应对这样的评审，最简单的方法之一，就是在论文中加入许多无用的数学推理和公式。评审人一般不会认为这些公式没用，相反，这样做还通过他们心目中“我扫了一遍，看到了炫酷的公式或者不明觉厉的理论名称”这个测试标准。

类似地，Goodfellow 指出，对于那些提出一种新方法取得更好性能的论文，评审人往往读过一篇，然后拒稿，理由是论文没有阐释为什么这种方法表现更好。而当论文有解释的内容时，无论说得多不靠谱，甚至根本不被证据支持，心软一些的评审人也会让其通过。

此外，评审人看见通过实证观察去理解一个系统工作原理的论文时，往往反馈“没有新算法”。这时候怎么办？扔一个新方法进去就行了呗，管它相不相关呢。

评审人一般不怎么喜欢纯科学论文（science papers），那理论研究怎么投稿？好办，象征性地加点新的工程方法进去就行啦。

Goodfellow 指出，也有个别科学论文全凭实力得到高分，但通常也是被拒稿多次以后才有幸遇到了真正能看懂的评审人。

总之，Goodfellow 说：“机器学习如今的怪现象里，有一些可能不是同行评议造成的，但评审人要求增加数学（公式）、增加虚假的解释和虚假的原创性，我已经司空见惯了。”

Goodfellow 指出，同行评议作为一种机制是经过时间检验的科学评价标准，但具体实施仍然要谨慎。

NIPS 2018初审结果出炉，哀声遍野：评审人不专业！

Goodfellow 提到的“机器学习怪现象”，实际上就是 ICML 2018 的一场辩论。CMU 助理教授 Zachary C.Lipton 携手斯坦福研究员 Jacob Steinhardt，撰写了一篇《机器学习令人担忧的趋势》（Troubling Trends in Machine Learning Scholarship），引发了热烈的讨论。

Lipton 和 Steinhardt 在文中指出，如今的机器学习论文存在几大问题：

无法区分客观阐述和推测；

无法确定取得更好结果的原因，例如，当实际上是因为对超参数微调而获得好效果的时候，却强调不必要的修改神经网络结构；

数学公式堆积：使用令人混淆的数学术语而不加以澄清，例如混淆技术与非技术概念；

语言误用，例如使用带有口语的艺术术语，或者过多使用既定的技术术语。

如此看来，也难怪 Goodfellow 会怀疑，正是现今的同行评议，造成了AI和机器学习会议论文水平下降！

看到 Goodfellow 的推文后，Lipton 也表示赞同。他回复推文说，确实，如今同行评议水平下降，以及由此导致投稿人心态扭曲，也是造成机器学习怪现象的原因之一。

实际上，前几天正好 NIPS 2018 的初审结果公布，社交网络上哀鸿遍野。对评审结果的抱怨，很大程度上就是 Goodfellow 指出的那些：没有数学公式、缺乏结果解释……

其中，最严重的问题，或许是评审人本身不专业，根本没有看懂论文！

中科院计算所的一位博士生导师告诉新智元，他们组这次提交的一篇 NIPS 2018 论文，反馈意见还不算太差，6、6、8（6=marginal accept，8=accept）。

其中，认为该接受的那位评审，确实是看懂了论文，提出了很多有针对性的具体问题和意见。而其他两位认为拒也可收也可的评审，只给出了非常简略的反馈，讽刺的是，其中一位的理由恰好就是“没有解释结果原因”。

这位博士生导师说：“很明显，那两名评审要么就是没有细看论文，要么就是对领域不熟。”

“我告诉学生，好好rebuttal，还是有希望的。”

论文数量激增，ICML、NIPS等顶会评审陷入困境

NIPS 2017，微软亚洲研究院刘铁岩组中了 4 篇论文。新智元在采访现任微软亚洲研究院副院长的刘铁岩博士时，后者也曾提到，近年来机器学习和 AI 会议论文数量激增，是好事，也是坏事。

与 Goodfellow 一样，同样是机器学习顶会领域主席常客的刘铁岩博士说，由于很难在短时间内找到足够多的严谨合格的评审人，权威评审人/领域主席的时间和精力有限，也只能看那么多篇论文，剩下的就只能找稍微次一些的评审，这些评审人很可能因为自己的水平有限，无法觉察优秀论文的创新和意义而直接拒稿。

另一方面，这些评审往往会被一些包装得很华丽、结果很漂亮，但对领域发展并没有那么大作用的论文所吸引，因此现在 NIPS 整体论文水平参差不齐。

但是，论文整体质量下降也并非单纯由于近年来论文数量激增、评审人质量下降造成。

NIPS 2014 做了一个实验，将当年投稿的10%（共166篇论文）同时交给两个不同的评审委员会评审，每个委员会由大会组委会的一半成员构成。评审结果令人吃惊：两个评审委员会对其中 42 篇论文（约25%）的评审意见相左。由于两个委员会都把论文录用率控制在 22.5% 左右，委员会一录用的 21 篇论文会被组委会二拒稿，而组委会二录用的 22 篇论文被组委会一拒稿！

也就是说，被其中一个评审委员会录用的论文，其中大约 57%会被另一个评审委员会拒稿。这样，从理论上讲，如果重新审稿，NIPS2014年录用的一半以上的文章将被拒稿！

上述实验表明，当录用率很低时，质量居中的论文录用的随机性将大大提高。比如在上述例子中，约7.5%肯定被录用，50%以上的文章肯定被拒稿，其余中间 47% 左右的论文是否被录用则有很强的随机性。

相对而言，NIPS 2014 的投稿远没有 NIPS 2018 多，因此上述评审人问题至少不会那么严重。

论文录取这件事，本身就有很强的随机性。

成也Arxiv，败也Arxiv：AI会议论文未来该如何评审？

目前，期刊和会议会采取不同的同行评议方式，有单盲、双盲、公开同行评议和发表后再进行同行评议等方式。不论采取哪种模式，同行评议的主要目的都是为了验证研究结果，保证所发表的工作具有全球性的影响。

ACL 已经采用了双盲评审机制，而且规定研究人员不能在一定期限内将论文上传到 arXiv，很大一个原因便是以 arXiv 为代表的预印版论文库干扰了同行评议，尤其是双盲评议。

CVPR 2019 程序主席、微软研究院首席研究员华刚博士此前在接受新智元专访时表示，ArXiv 虽然是一个非同行评议论文库，但其活跃度让如今大多数研究人员都把它作为一个定期跟踪的信息源。

但是，身为多个学术会议的主席以及多本学术期刊的编委，华刚博士在肯定 arXiv 加速学术交流的同时，一针见血地指出，“arXiv让学术会议的双盲评审形同虚设”，arXiv上的论文质量也是“鱼龙混杂”。

但如今，NIPS的双盲评审也暴露出种种问题。有人呼吁，强烈建议将“学生评审”加入到审稿人中来——与其邀请不合格的博士生甚至本科生，还不如明确地加入“学生评审”，让学生评审人先阅读论文，然后教授等高级评审人评论作为辅助信息，提供给最终评审，这在很大程度上可以摆脱目前审稿人质量参差不齐的灾难。

仅仅举办 5 年便被誉为“深度学习顶会”的ICLR，率先采用 Open Review 论文评审机制，评审和 rebuttal 全部公开，或许也是一种解决之道。

你认为呢？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26443

浏览量
264038
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130556

原文标题：Goodfellow 炮轰同行评议！双盲评审导致AI顶会论文变水

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

人类智慧水平AI即将到来，AI芯片已提前布局

拥有人类智慧水平的AI即将出现，但不必恐惧，Altman认为这种AI对世界的影响远没有人们想象得那么严重。人类水平AI即将到来从

发表于 01-22 06:44 •2184次阅读

特信会议室屏蔽器：如何使用能确保会议安全保密性？|深圳特信电子.

特信会议室屏蔽器：如何使用能确保会议安全保密性？|深圳特信电子在现代社会中，会议室屏蔽器被广泛应用于各种场合，以确保会议的机密性和安全性。会议

发表于 03-29 09:14

聚焦AI，探析边缘智能新动向，研华AI on Arm合作伙伴会议开启报名！

研华Arm人工智能合作伙伴会议将于3月28日于上海古井假日酒店召开，此次会议将汇集芯片厂家和软件生态合作伙伴，共同探讨Arm平台的AI技术创新及服务升级，开拓边缘智能在多行业全方位的应用机会

发表于 03-14 11:09 •291次阅读

高效管理会议空间：了解会议室屏蔽器的作用与应用？|深圳特信电子有限公司.

高效管理会议空间：了解会议室屏蔽器的作用与应用？|深圳特信电子有限公司在现代商务环境中，会议室屏蔽器作为一种重要的设备，在保障会议信息安全和提升会议

发表于 03-11 09:08

OpenAI CEO称人类水平的AI即将出现

OpenAI首席执行官山姆·奥特曼（Sam Altman）近日表示，达到人类水平的人工智能（AI）即将出现，但他认为这种技术对世界的影响可能远没有人们想象的那么大。

发表于 01-17 14:59 •514次阅读

AI写作神器！搭载讯飞星火认知大模型，能够智能写作的键盘！

的文章。风格多样：该模型能够模拟多种写作风格，包括散文、议论文、诗歌等，满足不同写作需求。实时更新：AI写作神器会根据用户反馈和写作环境的变化，实时调整作内容，提高写作质量。高效编辑：可以对生成的文章进行一键编

发表于 01-04 16:40 •333次阅读

关于可自抗扰的三相逆变器这个课题用来写ei会议论文怎么样

发表于 12-20 11:10

深兰科研黄智生教授团队6篇论文被国际医学信息科学顶尖学术会议“HIS 2023”收录

近日，深兰科学院智能科学首席科学家黄智生教授及其所带领的科研团队与同济大学团队，北京工业大学团队等合作，在国际医学信息科学顶尖学术会议“HIS 2023”上接连发表了六篇论文（其中有两篇论文的第一

发表于 11-08 10:07 •414次阅读

电机故障的五个元凶，如何处理？

1.过热过热是电机故障的最大元凶。事实上，本文所列的其他四个原因之所以上榜，部分是因为它们会产生热量。理论上，每增加10℃热量，绕组绝缘的寿命就会减半。所以，确保电机在合适的温度下运行是延长其寿命

发表于 09-22 08:08 •353次阅读

OpenAI联合创始人：自动驾驶和VR都是“歧途” AI智能体才是未来

谷歌旗下AI团队DeepMind的最新论文介绍了一种能够进行自我改进的AI智能体——RoboCat，本质上是由AI赋能的软件程序，相当于机器人的“大脑”。由其加持的机器人与传统机器人不

发表于 07-07 16:03 •375次阅读

全新分布式智能会议系统轻松实现各种不同行业需求

会议室也叫多媒体会议室或多功能会议厅，是举行会议的主要场所，能够满足人与人、部门与部门甚至是国与国之间的协作和沟通平台。而会议系统是

发表于 07-05 10:55 •472次阅读

高通在2023年国际计算机视觉与模式识别会议上，展示先进研究成果并将生成式AI引入边缘侧

6月18日至22日，IEEE/CVF国际计算机视觉与模式识别会议（CVPR）在温哥华举行，该会议不仅是计算机视觉，也是AI领域最重要的年度活动之一。会议期间，高通展示了已被业界认可的研

发表于 06-27 19:15 •326次阅读

峰会回顾第15期 | “产学研赛”四位一体构建OpenHarmony人才创新平台

系统与高端芯片工程中心主任。主要从事先进计算与智能系统研究。主持国家重点研发计划项目课题、核高基课题、国家自然科学基金项目等项目30余项；发表CCF推荐的顶级A/B类期刊和会议论文40余篇，获授权专利12项（含国际专利2项），获批软件著作权10项；获

发表于 06-15 08:39 •842次阅读

边缘计算相关论文汇总

刚读研发现找论文真的很累给大伙做个论文汇总吧近三年ccf A B期刊论文（无会议论文）资源链接：边缘计算论文汇总CCFAB2

发表于 05-18 15:45 •0次下载

如何使用ChatGPT在1天内完成毕业论文

如何使用ChatGPT在1天内完成毕业论文几天前，亲眼见证了到一位同学花了1天时间用ChatGPT完成了他的毕业论文，世道要变，要学会使用黑科技才能混的下去。废话到此结束，下面说明这么用AI生成

发表于 05-17 16:22 •733次阅读

搜索历史

Goodfellow：同行评议才是现今AI会议论文水平下降的元凶！

评论