0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

向来提倡open的谷歌,现在也玩儿“自闭”?

DPVg_AI_era 来源:lq 2019-01-20 08:56 次阅读

谷歌AI又成了话题。Reddit网友找到了谷歌AI一个名叫Conceptual Captions的数据集,发现该数据集并不完善,于是乎联系谷歌AI相关人员,却惨遭三连拒。

向来提倡open的谷歌,现在也玩儿“自闭”?

昨天谷歌AI大佬Jeff Dean刚刚发表长文总结了2018年的主要研究成果,其中包括“开源软件和数据集”:

发布开源软件和创建新的公共数据集是我们为研究和软件工程社区做出贡献的两种主要方式。

然而细心的Reddit网友却发现,谷歌AI并没有那么“开源”,反而还拒绝共享数据:

事情是这样的。

这位网友发现了谷歌AI一个叫Conceptual Captions数据集相关的比赛,以及描述这个数据集的论文(ACL 2018):

论文地址:

http://aclweb.org/anthology/P18-1238

在GitHub中对此数据集的描述为:一种包含330万张图像的大规模图像数据集,专门用于机器学习图像字幕系统的训练和评估。

GitHub地址:

https://github.com/google-research-datasets/conceptual-captions

然而,当这位网友跃跃欲试想要拿这个数据集操练一番时却发现了一些问题:这个数据集全部图像都是托管的,一些链接现在已经失效。

于是,这位网友开始试图联系谷歌AI相关人员。

结果,真可谓是大跌眼镜。

惨遭三连拒,热心研究者被泼冷水

第一拒:拒绝分享预训练模型

这就使得基准测试和论文里的结果数字变得非常难以复现。毕竟,不是每个人都有1k的TPU。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/3

问:哪里可以找到基于Conceptual Captions数据集的预训练模型(RNN-,Transformer-based)?

答:预训练模型没有发布。

第二拒:拒绝分享与每个图像关联的Alt-text

讽刺的是,这篇论文标题是“Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning”。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/6

问:是否会发布与每个图像关联的Alt-text?用于生成字幕的代码也会公开吗?

答:没有发布Alt-text或代码的计划。

第三拒:拒绝分享图像/镜像链接

这位网友表示:虽然我同意存在法律问题,但数据集中缺少数百张图像,其他研究人员要想比较模型变得超级困难。

地址:https://github.com/google-research-datasets/conceptual-captions/issues/1

问:您能提供从tsv文件通过url下载图像的示例代码吗?Python的urllib无法下载某些url (IOError: [Errno socket error] [Errno 110] Connection timed out)。但是我可以在浏览器中看到这些图像。

答:谢谢你的关注!不幸的是,由于版权/法律问题,我们无法提供通过url从tsv文件下载图像的代码。

谷歌AI“自闭”拒共享,引网友热议

这位热心网友在惨遭三连拒后表示对这样的事情非常痛心:

一篇数据集论文对于复现结果非常重要,如果存在阻碍数据集共享的法律问题,那么发表私人数据集论文就好了(有些领域不公开Alt-text),但基于一个不公开预训练模型、不完全共享的数据集举办挑战赛,我认为这就不太酷了。

而后,其它网友们也炸锅了。

热心网友1:_michaelx99

Deepmind的一些论文也是这样,仅仅根据他们发表的论文,完全不可能把结果复现出来。我花了一段时间才意识到Arxiv或他们网站上的一篇“论文”并不是真正的出版物,因此它的主要目标是展示公司已经开发了某种能力。这与其他人能够证实或否认他们在科学过程中所做的事情关系不大。我并不是说大公司在网上发布的所有论文都是这样,但正如你刚刚发现的,其中一些论文确实如此。

热心网友2:duckbill_principate

据我所知,四分之一的ML论文本质上是美化的广告。

热心网友3:GoAwayStupidAI

可重复性是科学的标志。没有这些数据,这个结果是不可复制的,所以科学会很糟糕。

热心网友4:Silver5005

这是ML论文最大的问题。我一直在尝试实现一个股票预测的LSTM,你可以找到数百篇论文都在做同样的概念。但它们都没有数据集,也不会谈论它们如何清理或标准化它们的数据。

热心网友5:duckbill_principate

人们不分享他们的模型、代码或数据集,这本身并不困扰我。令我困扰的是,这种情况发生了,而这些论文仍然被接受。这是同行评审过程的绝对失败,它的责任完全落在审查员(和我们)的肩上。这些论文是在信任的基础上被接受的,在某些情况下甚至是权威(我们都知道,尽管存在着双盲的本质,但不难推断出某些论文可能来自哪个群体),这是绝对不可接受的。

这更接近于广告而不是科学。

热心网友6:epic

我不知道为什么有这么多谷歌的辩护者。这对科学和机器学习都不利。是的,我们都明白为什么,但这仍然很糟糕。特别是像这样的论文,如果不能从数据中分离出来的话,再现性是非常困难的。有机会的组织和个人应该以一个好榜样来领导这个领域,而不是反过来。

对此,你怎么看?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5855

    浏览量

    103250
  • AI
    AI
    +关注

    关注

    87

    文章

    26430

    浏览量

    264036
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24349

原文标题:谷歌AI遭猛怼!发布数据集论文和挑战赛,却拒绝公开数据集

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    opc ua open62541.c和open62541.h如何移植到stm32中?

    如题 想问各位大神 opc ua open62541.c和open62541.h 如何移植到stm32中
    发表于 04-15 07:37

    谷歌模型怎么用手机打开文件

    要用手机打开谷歌模型文件,首先需要确定该文件的具体类型和格式。谷歌模型文件可能是以各种格式存在的,比如.pb(Protocol Buffers)、.h5(Keras/TensorFlow
    的头像 发表于 02-29 18:17 942次阅读

    谷歌交互世界模型重磅发布

    谷歌模型
    北京中科同志科技股份有限公司
    发布于 :2024年02月28日 09:13:06

    python中open函数的用法详解

    python中open函数的用法详解 Python中的open()函数用于打开文件。它接受文件名和模式作为参数,并返回一个文件对象。文件对象可用于读取、写入和管理文件。 open()函数的基本语法
    的头像 发表于 01-30 15:31 430次阅读

    open harmony照明开关应用介绍

    最近几年,智能家居成为了人们日常生活中的热门话题。其中,智能照明系统作为智能家居的重要组成部分之一,正在迅速流行起来。而今天我将为大家详细介绍一款智能照明系统中的开关——open harmony照明
    的头像 发表于 01-05 17:00 376次阅读

    嵌入式open函数的使用

    嵌入式系统是指嵌入到其他设备或系统中,用于控制和管理硬件资源的计算机系统。在嵌入式系统中,通常需要与外部设备进行数据交互,例如读取传感器数据、控制执行器等。open函数是C语言标准库中提供给开发者
    的头像 发表于 01-04 15:51 242次阅读

    芯原与谷歌携手合作开源项目Open Se Cura

    2023年12月19日,中国上海——芯原股份 (芯原,股票代码:688521.SH) 今日宣布与谷歌合作支持新推出的开源项目Open Se Cura。
    的头像 发表于 12-19 09:07 249次阅读

    谷歌向人工智能聊天机器人初创公司Character.AI投入数亿美元

    为了对抗Open AI和微软在AI领域的挑战,谷歌正不断的将明星AI初创公司收入自家阵营。
    的头像 发表于 11-14 10:41 604次阅读

    2195亿!open RAN

    11月2日消息,一家市场调研公司counterpoint research预计,到2030年,电信网络运营啥将在open RAN方面花费300亿美元(约合人民币2195.58亿元)。2025年之后移动网络运营商的open RAN投资将开始同比增长。
    的头像 发表于 11-02 16:26 304次阅读

    雷迪埃 OCTIS 在通讯行业Open Ran中的应用

    开放无线接入网也被称为Open RAN或O-RAN,它让无线接入网中的不同软件实体,能够实现互联互通,从而实现运营商组网的灵活性。 什么是Open RAN? 了解Open RAN前,需要了解无线
    发表于 11-01 13:52 125次阅读
    雷迪埃 OCTIS 在通讯行业<b class='flag-5'>Open</b> Ran中的应用

    在littlefs中lfs_file_open()的时候,申请不到内存,堆大小调大试了是哪里的问题?

    在littlefs中lfs_file_open()的时候,申请不到内存,堆大小调大试了
    发表于 05-26 07:18

    协议测试Open Lab分析底层PCIe的问题

    最近某开发嵌入式平台的客户到我们的协议测试Open Lab分析底层PCIe的问题。
    的头像 发表于 05-06 09:25 812次阅读
    协议测试<b class='flag-5'>Open</b> Lab分析底层PCIe的问题

    Mavenir的Open vRAN解决方案赢得Open RAN最佳云解决方案大奖

    Mavenir是一家利用可在任何云上运行的云原生解决方案来构建未来网络的网络软件供应商。该公司在Open RAN World Awards颁奖典礼上荣获Open RAN最佳云解决方案奖项。该奖项认可
    的头像 发表于 05-04 11:18 343次阅读

    关于StarRC的open/short GUI定位功能

    starRC通过使用一个默认(很小)的电阻,把输出的pin和open 的net重新连接在一起,这样对于STA 而言,并不会出现一个很大的开路延迟。所以,使用小电阻的虚拟连接显然比保持open更加合理。
    的头像 发表于 04-28 10:23 857次阅读
    关于StarRC的<b class='flag-5'>open</b>/short GUI定位功能