0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

卡奥斯开源社区 来源:jf_92107760 作者:jf_92107760 2024-07-16 18:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。

详情戳:卡奥斯智能交互引擎

大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍

具体是这么个事儿:

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

wKgZomaU9T2AXrHoAAG1BeKSfaU834.jpg

两篇论文探讨的都是一种规范模型文本生成结构的方法。

抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

wKgaomaU9T2AHYavAAFhm5uvStU696.jpg

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:

谷歌对两者差异性的表述“简直荒谬”。

wKgZomaU9T6AOkr6AAC_JZhIQ10286.jpg

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

wKgaomaU9T6AbYBCAAB8wssMOrU153.jpg

唯一区别是换了概念?

wKgZomaU9T-AD2jWAAD3NA3mVs8991.jpg

赶紧瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的摘要对比。

谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。

该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。

而“原告”的说法大致是:

提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历

同样“不依赖于具体模型”。

方向上确实大差不差,我们还是接着来看看更多详细内容。

我们用谷歌Gemini 1.5 Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。

对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作

wKgZomaU9UCATA06AAEjH_XH-c4672.jpg

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。

通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。

此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。

而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换

“原告”的具体方法是:

利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。

通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。

wKgaomaU9UCAZvnjAAC44-JgvY0844.jpg

Gemini列出了两篇论文的共同点。

wKgZomaU9UGAc8cuAAEv1Efok08682.jpg

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。

前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

最相关的研究是Outlines(Willard&Louf, 2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。

谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。

另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。

wKgZomaU9UOAZnUeAAKK56mr1Is974.jpg

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。

一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。

另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。

与Outlines类似,该方法依赖于定制算法

但吃瓜群众们显然不是很买账:

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

wKgaomaU9UOAVJwBAACdvxU0w0Q229.jpg

网友:这事儿不罕见…

这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。

哦对了,Normal Computing的创始团队有一部分就来自Google Brain……

另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。

说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

去年10月我们完成了一项工作,最近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。

wKgZomaU9USAPf8yAADM_7JeHkE383.jpg

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

wKgaomaU9UWACmbpAAERKhJDwLU533.jpg

不过,也有网友表达了不同的意见:

如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?

wKgZomaU9UWACO1JAADRIh2Cfds649.jpg

对此,雷米怒怼:

好家伙,发布预印本论文并开源代码 = 占坑;
写篇数学论文,甚至不需要任何伪代码 = 好工作???

wKgaomaU9UaABzdPAABlSXcp86U685.jpg

布兰登老哥也表示yue了:

开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

wKgaomaU9UmAKX0jAACKdiKAIos415.jpg

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~

两篇论文戳这里:
谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1
原告论文:https://arxiv.org/abs/2307.09702

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112241
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12472
  • ChatGPT
    +关注

    关注

    31

    文章

    1609

    浏览量

    10455
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    传音相关研究成果入选计算机视觉会CVPR 2026

    (Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机视觉领域的国际顶级学术会议CV
    的头像 发表于 04-03 17:45 3100次阅读
    传音相关研究<b class='flag-5'>成果</b>入选计算机视觉<b class='flag-5'>顶</b>会CVPR 2026

    奕行智能论文入选国际计算机体系结构顶级会议 ISCA 2026

    的学术会议之一,与 MICRO、HPCA 并称"三大会"。谷歌 TPU 初代架构论文(ISCA 2017)发布于此,历届论文见证了算力架构
    的头像 发表于 04-01 15:24 638次阅读
    奕行智能<b class='flag-5'>论文</b>入选国际计算机体系结构顶级<b class='flag-5'>会议</b> ISCA 2026

    江苏省语言计算及应用实验室多项成果入选ICASSP 2026

    近日,国际声学、语音与信号处理会议 ICASSP 2026 公布录用结果。江苏省语言计算及应用实验室多篇论文会议接收。ICASSP 长期
    的头像 发表于 03-11 11:47 743次阅读
    江苏省语言计算及应用实验室多项<b class='flag-5'>成果</b>入选ICASSP 2026

    西井科技携手同济大学 三篇AI研究成果入选会ICLR 2026

    科技携手同济大学长聘教授、上海创智学院全时导师陈广,共有3篇人工智能研究成果大会正式录用。作为全球人工智能领域最具影响力的学术会议之一,ICLR 致力于推动深度学习与表征学习的前沿突破。此次三篇
    的头像 发表于 02-12 17:42 1.1w次阅读
    西井科技携手同济大学 三篇AI研究<b class='flag-5'>成果</b>入选<b class='flag-5'>顶</b>会ICLR 2026

    后摩智能4篇论文入选人工智能会ICLR 2026

    继斩获NeurIPS、ICCV、AAAI、ACMMM四大会认可后,后摩智能再传捷报——4篇论文成功入选国际顶级人工智能会议ICLR 2026(International Conference
    的头像 发表于 02-09 14:18 1121次阅读

    小鹏汽车与北京大学研究论文成功入选AAAI 2026

    近日,AAAI 2026公布了论文录用结果,该会议是人工智能领域的国际顶级会议之一。据悉,AAAI 2026共收到23,680份论文投稿,其中4,167篇
    的头像 发表于 01-04 11:22 872次阅读
    小鹏汽车与北京大学研究<b class='flag-5'>论文</b>成功入选AAAI 2026

    西北灯塔:兰州大学开源鸿蒙技术俱乐部的“创新方程式”

    团队研发的智能水质监测设备,正稳定运行于野外的监测点;在甘肃,与省中医院合作的自助终端项目,正悄然提升着患者的就医效率。 在全球,俱乐部在开源许可证合规领域的科研成果,荣获了IEEE国际软件可靠性工程会议的最佳
    的头像 发表于 12-31 19:11 419次阅读
    西北灯塔:兰州大学<b class='flag-5'>开源</b>鸿蒙技术俱乐部的“创新方程式”

    后摩智能六篇论文入选四大国际

    2025年以来,后摩智能在多项前沿研究领域取得突破性进展,近期在NeurIPS、ICCV、AAAI、ACMMM四大国际会上有 6 篇论文入选。致力于大模型的推理优化、微调、部署等关键技术难题,为大模型的性能优化与跨场景应用提供了系统化解决方案。
    的头像 发表于 11-24 16:42 1533次阅读
    后摩智能六篇<b class='flag-5'>论文</b>入选四大国际<b class='flag-5'>顶</b>会

    理想汽车12篇论文入选全球五大AI

    2025年三季度以来,理想汽车基座模型团队在国际顶级AI学术会议上取得重大突破,共有12篇高质量研究论文入选AAAI、NeurIPS、EMNLP、ACM MM、ICCV五大会。
    的头像 发表于 11-21 14:44 1122次阅读
    理想汽车12篇<b class='flag-5'>论文</b>入选全球五大AI<b class='flag-5'>顶</b>会

    云知声论文入选自然语言处理会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知声提交的《面向门诊病历生成的高质量医患对话合成技术
    的头像 发表于 11-10 17:30 986次阅读
    云知声<b class='flag-5'>论文</b>入选自然语言处理<b class='flag-5'>顶</b>会EMNLP 2025

    开源鸿蒙出席地方开源生态建设圆桌交流会

    近日,在2025开放原子开源生态大会“地方开源生态建设圆桌交流会”上,开源鸿蒙项目群工作委员会委员、华为终端BG软件部副总裁章晓峰发表了题为《先行先试,发展
    的头像 发表于 07-28 17:41 1084次阅读

    开源鸿蒙持续取得显著成果

    近日,2025开放原子开源生态大会开源鸿蒙主题演讲在北京国家会议中心成功举办。大会聚焦开源鸿蒙技术创新、人才发展与产业落地,全面呈现“Powered by OpenHarmony”生态
    的头像 发表于 07-28 17:39 1144次阅读

    思必驰与上海交大联合实验室研究成果入选两大顶级会议

    近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文
    的头像 发表于 07-11 16:24 1156次阅读
    思必驰与上海交大联合实验室研究<b class='flag-5'>成果</b>入选两大顶级<b class='flag-5'>会议</b>

    开源鸿蒙社区年中技术会议成功举办

    近日,由开源鸿蒙项目群工作委员会主办的开源鸿蒙社区年中技术会议在东莞三丫坡盛大召开。本次会议汇聚了行业领袖、技术专家与开发者,共同探讨开源鸿
    的头像 发表于 06-26 17:15 1222次阅读

    企业开源战略培训交流会议成功举办

    此前,5月28日至29日,由开放原子开源基金会主办的“企业开源战略培训交流会议”在北京成功举行。来自政府部门、科研机构、央国企、互联网企业和初创公司等80余位代表齐聚一堂,围绕企业开源
    的头像 发表于 06-05 14:21 1276次阅读