0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Reddit上掀起机器学习论文也要实行“预注册”的大讨论

DPVg_AI_era 来源:未知 作者:李倩 2018-10-27 09:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,关于“预注册”(Pre-registered)的研究方式在Reddit论坛上引发了热烈讨论。“预注册”是先向期刊提交理论研究和实验设计方案,在评审并接受后,再展开进一步工作的一种方式。Reddit用户呼吁在机器学习领域中也采用这种方式,引发了网友们的热议。

所谓“预注册”研究,通俗点说就是,在实际着手开始研究之前,先将研究假设和实验设计方案等前期重要信息,向欲投稿的学术期刊进行事先注册,由期刊先行组织专家进行同行评议。

如果评议通过,则期刊一般原则性承诺同意发表。然后再进入正式研究和论文撰写、投稿等后续环节。

显然,这一方式与现行的研究和论文发表流程有很大不同。

英国卡迪夫大学的研究人员特别对“预注册”制度及其影响做了首次分析研究。

研究结果表明,采用这种模式,最终产生无效结果(即研究结果无法证明假设)的情形会大大增高,尤其是在心理学领域。这表明“预注册”制度对一些“削足适履”的假结果起到了明显的过滤作用。

传统研究流程中,研究人员为了获得“优质结果”,易产生发表偏见、p值作弊、可重复性低的严重问题

于是,Reddit上今天也掀起机器学习论文也要实行“预注册”的大讨论。

预注册有多好?能够避免“发表偏见”

研究人员指出,在传统的提出假设——设计实验——验证结果——投稿发表的研究流程中,研究人员容易为获得正面结果而产生“发表偏见”,可能会对不利于证明研究假设的结论有意隐瞒,甚至对数据进行篡改等造假作弊手段。

他们认为,在进行研究之前记录下研究假设和实验方案,确实可以取得预期的结果,能够减少为获得正面结果而产生的“发表偏见”。

日前,《Nature》网站也撰文称,“预注册”制度确实可以起到预期的“去伪存真”的作用,提高科学研究的可信度和可重复性。

在开始收集数据之前,先将研究方案进行登记和记录,可能会改变研究结果。图片来源:Ariana Lindquist / Bloomberg / Getty

文中提到,没有获得正面结果的研究往往被归档,从此不见天日,这会导致为获取正面结果而产生的“发表偏见”,损害科学文献的可信度。

现有分析表明,在进行研究之前,对研究方案进行登记和同行评议,可以改善这个问题,并有助于纠正为获取正面结果而产生的发表偏见问题。

来自英国卡迪夫大学的研究人员称,他们的这一研究是对“预注册”研究方式是否有效的第一次分析。结果发现,事先将研究方案进行登记的研究更有可能报告无效的结果。该分析于10月17日发表在PsyArXiv资源库上。

预注册去伪存真:真的能提高研究结果质量

在“预注册”制度下,研究人员需要在研究开始前就向相应期刊提交研究方案。如果研究方案通过了同行评议,该期刊会暂时承诺在研究完成时将论文发表,无论研究结果如何。

这种做法在过去几年中已经开始在科学界出现,这一制度起源于美国法律强制要求的临床试验中的“预登记”制度。目前约有140种期刊使用这种方式,有130份进行预注册的研究报告,其最终研究结果已经发表。

“预注册”制度的支持者希望,该方式能够打击那些可疑的研究活动,比如先看结果,或根本不报告负面结果,然后再回头提出研究假设。

为了考察“预注册”方式是否会增加研究报告无效结果的频率,心理学家Chris Allen和David Mehler分析了生物医学和心理学中113份预登记报告的结果。

在这些研究中,他们考察了296个彼此独立的研究假设,结果发现,总体而言,这些研究后来发表的结果中,有61%不支持最初的假设。对于考察可重复性研究的验证研究,这个数字比例要更高一些,为66%,对于原始研究,这一比例为55%。

来源:PsyArXiv,https://psyarxiv.com/3czyt(2018)。

这些数字远远高于一般科学文献中提出的无效结果的比例,以前的研究表明,研究人员估计该比例在5%到20%之间。

预注册报告的数量呈指数级增长,但研究的代表性还有待提升

不过,荷兰埃因霍温科技大学的心理学研究人员Anne Scheel表示,这项研究可能仍然低估了无效研究结果的真实比例。

据其他研究估计,在心理学中测试中的假设实际上为假的比例可能高达90%,Scheel说。这表明当前科学文献中的实际上的无效结果“与我们期望中不存在任何发表偏见的情况”大不相同。

她表示,这一分析是探索性的,而且研究结果也可以有其他解释。

比如Scheel说,由于采用“预注册”可以或多或少地保证论文发表,人们可能会策略性地使用这种制度,提出一些预期可能无法通过验证的研究假设。

她补充说,“预注册”制度诞生不久,有可能迄今为止发表的研究并不能更广泛地代表心理学领域的情况。 “目前还有很多未知因素,”Scheel说。 “但对于科学家来说,这也是一个非常激动人心的时刻。”

目前,预注册报告的数量正呈指数级增长,Allen现在希望能够进行样本量更大的另一项研究,以便回答之前研究提出的一些问题,而且计划将这项研究也进行“预注册”。

Reddit呼吁ML中采用“预注册”:无效结果会比其他领域有用得多

Reddit上便有位用户抛出了一个讨论:

若是能在机器学习领域中召开预登记实验的会议/期刊就好了。你只要提交理论部分的论文以及实验的设计,然后让评审们进行评估,若是他们觉得OK,你再继续做实验。而且,无论实验结果如何,这篇论文都算是被接受了。

此贴一出,便得到了众多网友的围观与评论,网友Flag_Red评论到:

目前很多机器学习的研究都属于工程学,我觉得在这种情况下,无效结果会比其他领域有用得多。我认为这主要归结于机器学习在工程方面要比理论方面超前很多。

在其他领域中,他们会说:“这是我的假设”,然后再对其进行测试。若结果无效,仍然是一件非常有意思的事情,“我的假设”本应该有效,却不知什么原因变得无效了。

然而,在机器学习中,几乎没有人在测试假设之前就说,“我认为这将会因为某某原因而起作用”。许多的发现都是来自简单的实验。

如果我们能在ML学术界培养一种更传统的科学文化,那么发表无效结果论文数的增加,也未尝不是一件好事。但就目前的状况而言,我认为并不会有多大帮助。

另一位网友表示:

这可能为时过早。无效结果在物理学领域中非常有用,并且具有完善的理论框架。

现在大多数的深度学习是由研究生根据直觉和实证结果结合在一起的。 无效结果可能是一个很好的启发式方法,但如果没有一个坚实的理论框架,这个假设期刊中的信噪比会非常高。

当然,这甚至还没有解决大规模超参数搜索和随机初始化的问题,我认为这才是真正的问题。你的方法失败是因为你的原始概念不健全,还是因为你无法找到超参数和/或随机初始化的正确组合呢?

那么对于在机器学习领域也采用“预注册”制度,你怎么看呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209
  • Reddit
    +关注

    关注

    0

    文章

    34

    浏览量

    5831

原文标题:机器学习论文呼吁“预注册”,事先评审专治“注水研究”!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 678次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 346次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    思必驰与上海交大联合实验室五篇论文入选NeurIPS 2025

    近日,机器学习与计算神经科学领域全球顶级学术顶级会议NeurIPS 2025公布论文录用结果,思必驰-上海交大联合实验室共有5篇论文被收录。NeurIPS(Conference on
    的头像 发表于 10-23 15:24 1090次阅读
    思必驰与上海交大联合实验室五篇<b class='flag-5'>论文</b>入选NeurIPS 2025

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1048次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署深度<b class='flag-5'>学习</b>神经网络

    机器也要大模型?英飞凌、ADI宣布跟进

    近日,NVIDIA(英伟达)在官方博客公布了新一代边缘计算平台 Jetson Thor,专门面向通用机器人应用。 英伟达Jetson Thor采用NVIDIA Blackwell GPU提供高达
    的头像 发表于 09-10 10:54 752次阅读
    <b class='flag-5'>机器</b>人<b class='flag-5'>也要</b><b class='flag-5'>上</b>大模型?英飞凌、ADI宣布跟进

    易控智驾与中科院端到端自动驾驶方案入选CoRL 2025

    近日,旨在分享和探讨机器人技术与机器学习交叉领域最新进展的国际顶级机器人学习会议CoRL 2025 (Conference on Robot Learning)
    的头像 发表于 08-18 14:43 2512次阅读
    易控智驾与中科院端到端自动驾驶方案入选CoRL 2025

    贸泽电子2025边缘AI与机器学习技术创新论坛回顾(

    2025年,随着人工智能技术的快速发展,边缘AI与机器学习市场迎来飞速增长,据Gartner预计,2025年至2030年,边缘AI市场将保持23%的复合年增长率。
    的头像 发表于 07-21 11:08 1317次阅读
    贸泽电子2025边缘AI与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>技术创新论坛回顾(<b class='flag-5'>上</b>)

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3088次阅读

    树莓派5的Gemma 2:如何打造高效的边缘AI解决方案?

    (通用集成机器模型算法,第二版)是一个复杂的框架,专为可扩展和灵活的机器学习模型训练而设计,特别是在分布式和资源受限的环境中。在其前身的基础,GEMMA2引入了增强
    的头像 发表于 06-20 16:57 1804次阅读
    树莓派5<b class='flag-5'>上</b>的Gemma 2:如何打造高效的边缘AI解决方案?

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 1152次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时推理模型部署与工业集成!

    机器学习赋能的智能光子学器件系统研究与应用

    腾讯会议---六月直播 1.机器学习赋能的智能光子学器件系统研究与应用 2.COMSOL声学多物理场仿真技术与应用 3.超表面逆向设计及前沿应用(从基础入门到论文复现) 4.智能光学计算成像技术
    的头像 发表于 06-04 17:59 756次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>赋能的智能光子学器件系统研究与应用

    STM32+Android实现的智能家政机器人电路代码论文及项目源码

    STM32+Android实现的智能家政机器人电路代码论文及项目部分截图:
    发表于 05-28 21:22

    NVIDIA在多模态生成式AI领域的突破性进展

    在今年的国际学习表征大会(ICLR),NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。
    的头像 发表于 05-15 10:49 1169次阅读

    光纤端接方式有几种

    光纤端接方式主要包括以下几种,每种方式都有其独特的特点和应用场景: 工厂端接(Factory Pre-terminated) 特点:在工厂环境下,通过高精度设备将光纤连接器(如LC、SC、MPO
    的头像 发表于 05-13 14:13 981次阅读

    老板必修课:如何用NotebookLM 在上下班路上吃透一篇科技论文

    作者:算力魔方创始人/英特尔创新大使刘力 作为私营企业主,每天的工作都非常繁忙,真正能学习的时间,可能就是在开车上下班或去拜访客户的路上。 作为科技企业的领航人,坚持学习并深入理解先进技术,是非
    的头像 发表于 05-07 16:13 782次阅读
    老板必修课:如何用NotebookLM 在上下班路上吃透一篇科技<b class='flag-5'>论文</b>?