0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google AI发数据集论文、办挑战赛却拒绝开放数据集?

电子工程师 来源:lq 2019-01-18 14:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,有网友在 reddit 上提出 Google AI 拒绝公开 Conceptual Captions 数据集(相关论文发表在 ACL 2018 上),谷歌除了发表相关论文以外还举办了使用该数据集的挑战赛(比赛结果在 2018 年 NeurIPS 会议上公布)。这引发了网友对这种做法是对是错、学术会议同行评审是否应该把论文复现作为重要考量因素等的激烈讨论。

原帖主要内容是:

谷歌曾在 ACL 2018 上发表了一篇数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,该数据集 Conceptual Captions 共有大约 330 万张图像。但他发现了几个问题:

谷歌拒绝共享预训练模型,这使得基准测试变得异常艰难:

https://github.com/google-research-datasets/conceptual-captions/issues/3;

拒绝共享与每张图像相关的 Alt 文本(讽刺的是这篇论文的标题中恰好有 Alt-text 一词):

https://github.com/google-research-datasets/conceptual-captions/issues/6;

拒绝共享图像/镜像链接(尽管我认为这关乎法律问题,但仅有该数据集的几百张图像,社区很难对比不同模型):

https://github.com/google-research-datasets/conceptual-captions/issues/1

发帖人表示对此很难过。他希望社区意识到数据集论文是一项重大责任,如果存在阻挡数据集共享的法律问题,那么可以基于私人数据发表论文,但是基于同样的模型或整个数据集举办挑战赛的行为不太好。

此帖发出后,引发了网友的大量讨论。有网友认为谷歌这么做没什么问题,他们的任务是分享研究、把研究成果作为自己的优势,而不是相反。但评论中更多的是对这种行为的反对。

反对此类行为

网友_michaelx99 表示:

DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或企业网站上的「论文」并不是真正的发表,其主要目标是表明该企业已经具备了某种能力。我并不是说所有大企业在线发表的论文都这样,但其中一些确实如此。

ModernShoe 表示:

我曾听吴恩达谈论商业如何利用 AI 盈利。他说企业应该保护训练/测试数据集,而不是保护某个算法。或许这与数据集论文不公布数据集有某种关系?

网友 epic:

这种行为不利于科学和机器学习的发展。虽然我们理解谷歌不发布数据集的原因,但这种行为仍然是不好的。尤其是数据集论文,在没有数据的情况下复现研究及其困难。有能力的组织和人们应该作为表率来引领社区,而不是相反。

网友SkinnyJoshPeck:

这是对机器学习和机器学习专家的海量需求的后果吗?我在一家大企业工作,与机器学习科学家接触较多,他们当中一些人缺乏对科学方法的基本尊重,这令我非常惊讶。我认为这并非技巧的缺乏(一些研究已经发表),而是不明白「可观的结果未必是准确、有效的」。

我的大学专业是数学,而且专门学习了代数。我了解表示论和代数几何,因此我知道大多数模型和技术的底层数学基础,这些让我对这些专家能够坐在现在的岗位上感到惊讶。

复现性

网友GoAwayStupidAI:

复现性是科学的重要标志。没有相关数据、结果无法复现的研究都是垃圾。

网友kemfic:

论文就应该是可复现的。如果不能,那么期刊就不应该接收它们。

网友duckbill_principate:

让我觉得困扰的不是共不共享模型、代码或者数据集的问题,而是在这种事情发生的时候论文仍然被接收了。这某种程度上是同行评审的失败,其责任则属于我们每一个审稿人,因为这样的论文往往是基于信任或权威而被接收的(我们知道尽管有双盲评审,但我们不难推断出某些论文一般会来自哪个研究组)。这更像是广告而不是科学。

网友duckbill_principate:

在我实现的 20 多篇论文中,5 篇存在部分或完全影响研究结果验证的错误/bug。而这些论文都是顶会上经过同行评审的论文。

我认为这是学术丑闻。

有些案例中问题被揪出来,作者进行了修改。但即使是在这种比较好的场景中,修改数字后的论文(可能使用了全新的超参数搜索!)静悄悄地出现在 arXiv 上,而发表在会议上的论文并没有修改,更不会被撤回。为什么?大家都知道原因,也熟悉那些辩护理由:「尽管我们的结果不如预想中的好,但我们认为这项技术非常棒,非常有前途……」不管是从数学角度,还是从没有所谓的「当前最优结果」的论文不该被接收的角度,这种说法都非常糟糕。

网友 habanero_ass_fire 认为:

OpenImages 的图片是从网上获得的,其他几个比较知名的数据集也是如此。就法律意义上来看,图片的作者拥有版权,因此论文作者是不能共享这些图片的。另外,无效的链接在现实中经常发生。因此我对这种没有公开数据集的行为没有意见,只要他们能够分享一个预训练模型即可;如果你可以依照论文训练出自己模型,即使没有预训练模型也不会让论文无效。

但这立刻遭到网友 duckbill_principate 的反驳:

如果你能够训练出一个模型精确复现,那没问题。但如果你曾试图复现论文时就会明白,实际情况往往是,即使那些发布了自己代码且提供定义清晰且可用的数据集的论文,复现的结果也往往是不可预测的。他们是公布了自己的代码和参数,但却可能没有说明自己的训练过程;他们公布了训练代码,但却可能遗漏了部分自定义库;他们使用了公共数据集,但却没有明确说明他们对这些数据集做了什么样的预处理;他们公布了代码、数据集,甚至也对此做了大量且详尽的说明,但却可能遗漏一些非常关键的内容,等等不一而足。

事实是,如果没有预训练模型,或者没有对训练过程的完整描述,谈复现性就是一个笑话。

正如网友所说,在没有数据的情况下复现研究及其困难,尤其是数据集论文。

关于研究复现的讨论由来已久,前段时间在某篇 CVPR 论文复现出现问题时,大家更是对顶会/期刊论文复现性进行了大量讨论。不少人认为论文复现也应该作为同行评审中的重要部分。有网友表示「总体而言,论文评审过程不包含复现实验结果。评审者不得不在很大程度上依靠作者的诚信」、「同行评审通常更关心论文中描述的方法。潜在的解决办法是要求作者提交现成的实现(如通过 docker)。然而,在哪里运行仍然是一个问题。也许 AWS 资源等可以从提交费用中提取,供评审人员重新运行模型。然后,问题是确保评审人员不会「滥用」资源进行他们自己的实验等。在任何情况下,「通过计算的方法」进行 DL 论文评审都很棘手」。

学术会议对研究复现也很重视。2017 年,ICML「机器学习复现 Workshop」就对这一问题进行过讨论;2018 年,ICLR 举办了复现挑战赛,旨在保证接收论文公布的结果是可靠的、可复现的。此外,为了鼓励可复现性和高质量论文的提交,ICML 2019 在论文提交上做出了一些重要改变,如鼓励提交的论文附带代码,结果的可复现性和代码的易用性将作为论文接收和进一步决策的考虑因素。KDD 2019 的征稿通知中也表明:今年会议采取双盲评审制度,论文接收结果公布之前投稿者不得将论文发布于 arXiv 等开放性平台上。更重要的是,只有在论文中公开研究代码和数据的论文才有资格竞选「最佳论文奖」。

科学研究的复现性非常重要,机器学习社区一贯重视开放性、复现性,而这需要社区人们的维护。上述学术会议的变化无疑将促进研究复现性,鼓励研究人员更加审慎地对待自己的研究、更加开放地共享研究的具体细节。那么具备强悍研究能力和开发能力的大型企业会不会做好表率呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60263
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110252
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:Google AI发数据集论文、办挑战赛却拒绝开放数据集?结果被怼了……

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科天机开放共享全球高分辨率气象数据

    大模型、AI算力、数据是推动新一代人工智能快速发展的三大关键要素。在大模型走向开源开放AI算力实现普惠平权的同时,发展高质量的
    的头像 发表于 09-24 09:41 442次阅读

    NVIDIA推出多语种语音AI开放数据与模型

    新发布的 Granary 数据包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
    的头像 发表于 09-23 15:34 602次阅读

    2025 EDA精英挑战赛华大九天题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-26 15:00 1308次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>华大九天<b class='flag-5'>赛</b>题发布

    2025 EDA精英挑战赛紫光同创题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-25 09:40 1261次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>紫光同创<b class='flag-5'>赛</b>题发布

    AI Cube如何导入数据

    我从在线平台标注完并且下载了数据,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    Denodo全新AI SDK认证发布,携手大学挑战赛共筑快速AI应用开发新生态

    ,Denodo学术计划2025年度大学挑战赛数据与人工智能驱动现实影响力”正式启动,诚邀全球高校学子通过创新实践,展示数据管理与AI技能,推动社会变革。 自2024年11月Denod
    的头像 发表于 06-24 13:36 561次阅读

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    NVIDIA推出开源物理AI数据

    标准化合成数据的初始版本预计将成为世界上最大的此类数据,目前已作为开源版本提供给机器人开发人员。
    的头像 发表于 03-24 17:52 894次阅读

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    平头哥半导体亮相AICAS 2025挑战赛技术研讨会

    近日,历时两个多月,600余支参赛队伍激烈角逐,AICAS 2025全球技术挑战赛初赛阶段赛程已顺利结束,中技术研讨于2月22日在杭州圆满召开。本次研讨会作为AICAS全球技术挑战赛的重要环节,在初赛和复赛之间架起桥梁,为参赛
    的头像 发表于 02-25 11:23 1101次阅读

    微软AI开发者挑战赛即将开启

    人工智能,正在重塑世界。2 月 5 日至 4 月 23 日,加入我们,共赴一场聚焦 AI 技术的开发者挑战赛!在这里,创意、技术和无限可能将碰撞出耀眼火花。无论你是开发新秀还是经验丰富的技术专家,这场由微软 Azure 驱动的在线竞赛,将为你打开一扇通往未来的大门。
    的头像 发表于 02-12 16:18 668次阅读

    EDA精英挑战赛果公布!思尔芯“战队”薪火相承斩获“麒麟杯”

    2024中国研究生创芯大赛·EDA精英挑战赛12月7-8日,2024中国研究生创芯大赛·EDA精英挑战赛(原“集成电路EDA设计精英挑战赛”)总决赛及颁奖典礼在南京成功举办。此次大赛,思尔芯作为核心
    的头像 发表于 12-11 01:03 1400次阅读
    EDA精英<b class='flag-5'>挑战赛</b><b class='flag-5'>赛</b>果公布!思尔芯“战队”薪火相承斩获“麒麟杯”