0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

深度学习自然语言处理 来源:机器之心 2023-12-18 16:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

除了表达自己获得 NeurIPS 2023 时间检验奖的感想之外,Tomas Mikolo 还对 NLP 和 ChatGPT 的现状给出了自己的一些思考。

几天前,NeurIPS 2023 公布了获奖论文,其中时间检验奖颁给了十年前的 NeurIPS 论文「Distributed Representations of Words and Phrases and their Compositionality」。这项工作引入了开创性的词嵌入技术 word2vec,展示了从大量非结构化文本中学习的能力,推动了自然语言处理新时代的到来。

这篇论文由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰写,被引量超过 4 万次。

6db585ca-9d7c-11ee-8b88-92fbcf53809c.png

不过,Word2vec 首篇论文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。这篇论文的引用量也已经接近 4 万。

6db9b87a-9d7c-11ee-8b88-92fbcf53809c.png

论文地址:https://arxiv.org/abs/1301.3781

近日,Tomas Mikolov 分享了论文背后更多的故事,包括被首届 ICLR 拒稿以及之后的进展等。

6dc46cac-9d7c-11ee-8b88-92fbcf53809c.jpg

图源:https://www.facebook.com/tomas.mikolov

以下为原贴内容,我们做了不改变原意的整理。

我非常高兴 word2vec 论文获得了 NeurIPS 2023 时间检验奖,这是我获得的第一个最佳论文类型的奖项。实际上,word2vec 原始论文在 2013 年首届 ICLR 会议被拒绝接收了(尽管接收率很高),这让我想到审稿人预测论文的未来影响是多么困难。

这些年,我听到了很多关于 word2vec 的评论,正面的还有负面的,但至今没有在网络上认真地发表过评论。我觉得研究界正在不断地被一些研究人员的 PR 式宣传淹没,他们通过这样的方式获得他人的论文引用和注意力。我不想成为其中的一部分,但 10 年后,分享一些关于论文背后的故事可能会很有趣。

我经常听到的一个评论是,代码很难理解,以至于有些人认为是我故意地让代码不可读。但我没有那么邪恶,代码最终被过度优化了,因为我等了好几个月才被批准发布它。我也试图让代码更快更短。回想起来,如果当时团队中没有 Greg Corrado 和 Jeff Dean,我怀疑自己是否会获得批准。我认为 word2vec 可能是谷歌开源的第一个广为人知的 AI 项目。

在 word2vec 发布一年多后,斯坦福 NLP 小组的 GloVe 项目也引发了很大争议。虽然该项目从我们的项目中复刻了很多技巧,但总感觉 GloVe 倒倒退了一步:速度较慢,还需要更多内存,生成的向量质量比 word2vec 低。然而,GloVe 是基于在更多数据上预训练的词向量发布的,因而很受欢迎。之后,我们在 fastText 项目中修复了相关问题,在使用相同数据进行训练时,word2vec 比 GloVe 好得多。

尽管 word2vec 是我被引用最多的论文,但我从未认为它是我最有影响力的项目。实际上,word2vec 代码最初只是我之前项目 RNNLM 的一个子集,我感觉 RNNLM 很快就被人们遗忘了。但在我看来,它应该和 AlexNet 一样具有革命性意义。

在这里,我列举一些在 2010 年 RNNLM 中首次展示的想法:递归神经网络的可扩展训练、首次通过神经语言模型生成文本、动态评估、字符和子词级别的神经语言建模、神经语言模型自适应(现在称为微调)、首个公开可用的 LM 基准。

我发布了第一项研究,显示当一切正确完成时,训练数据越多,神经网络就能比 n-gram 语言模型更胜一筹。这在今天听起来是显而易见的,但在当时这被广泛认为是不可能的,甚至大多数谷歌员工都认为,数据越多,除了 n-gram 和平滑技术外,其他任何工作都是徒劳的。

我很幸运能在 2012 年加入谷歌 Brain 团队,那里有很多大规模神经网络的「信徒」,他们允许我参与 word2vec 项目,展示了它的潜力。但我不想给人留下到这里就足够完美的印象。在 word2vec 之后,作为后续项目,我希望通过改进谷歌翻译来普及神经语言模型。我确实与 Franz Och 和他的团队开始了合作,在此期间我提出了几种模型,这些模型可以补充基于短语的机器翻译,甚至可以取代它。

其实在加入谷歌之前,我就提出了一个非常简单的想法,通过在句子对(比如法语 - 英语)上训练神经语言模型来实现端到端的翻译,然后在看到第一句话后使用生成模式生成翻译。这对短句子效果很好,但在长句子上就不那么奏效了。

我在谷歌 Brain 内部多次讨论过这个项目,主要是与 Quoc 和 Ilya,在我转到 Facebook AI 后他们接手了这个项目。我感到非常意外的是,他们最终以「从序列到序列(sequence to sequence)」为名发表了我的想法,不仅没有提到我是共同作者,而且在长长的致谢部分提及了谷歌 Brain 中几乎所有的人,唯独没有我。那时是资金大量涌入人工智能领域的时期,每一个想法都价值连城。看到深度学习社区迅速变成某种权力的游戏,我感到很悲哀。

总之,多年来人们对语言模型的兴趣增长缓慢,但自从 ChatGPT 发布以来,人们对它的兴趣呈爆炸式增长,看到这么多人终于将人工智能和语言联系在一起,真的很酷。我们还没有到达那个阶段,我个人认为我们需要有新的发现来突破神经模型的泛化极限。我们无疑生活在一个激动人心的时代。但是,让我们不要过分信任那些想要垄断基于数十位甚至数百位科学家辛勤工作的技术,同时声称这一切都是为了人类的利益的人。

不过,Tomas Mikolov 的发言也让人感叹,他也要步 LSTM 之父 Jürgen Schmidhuber 的后尘吗?

6dd0b426-9d7c-11ee-8b88-92fbcf53809c.png

图源:https://twitter.com/agihippo/status/1736107652407849208

你们怎么看呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4941

    浏览量

    73151
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23192
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10074

原文标题:论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SAA认证常见原因分析:如何一次通过审核顺利清关?

    设计不符合标准,最终导致认证驳回或市场抽查不合格。本文结合2025年最新监管趋势,深入剖析SAA认证过程中最常见的原因,并提供针对性解决方案,助您一次通过审
    的头像 发表于 11-24 10:46 380次阅读
    SAA认证常见<b class='flag-5'>被</b><b class='flag-5'>拒</b>原因分析:如何一次通过审核顺利清关?

    pdf转换成word文档格式乱了

    df转换成word文档格式乱了   将 pdf 转为 word 是常见的操作,但很多人发现结果很乱,文字会移位,字体变化,表格断裂,图片偏离原位.这是因为 pdf 存储的是最终的排版用于显示或打印
    的头像 发表于 11-22 10:04 754次阅读

    怎么把UI设计稿转为代码?在线UI设计工具一键生成!

    近日,华为开发者大会2025(HDC)在东莞松山湖正式拉开帷幕,这场备受瞩目的盛会为全球科技行业带来了诸多惊喜。其中,Pixso团队发布的全新设计稿一键转代码功能,成为了本次大会的一大亮点。这项创新
    的头像 发表于 06-25 12:04 755次阅读
    怎么把UI设计<b class='flag-5'>稿</b>转为<b class='flag-5'>代码</b>?在线UI设计工具一键生成!

    鸿蒙5开发宝藏案例分享---性能优化案例解析

    鸿蒙性能优化宝藏指南:实战工具与代码案例解析 大家好呀!今天在翻鸿蒙开发者文档时,意外挖到一个 性能优化宝藏库 ——原来官方早就提供了超多实用工具和案例,但很多小伙伴可能没发现!这篇就带大家手把手
    发表于 06-12 16:36

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文)下载

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文)推荐下载!
    发表于 05-29 21:45

    基于STM32的智能水产养殖系统电路+代码+论文实例打包下载

    基于STM32的智能水产养殖系统电路+代码+论文实例打包,推荐下载!
    发表于 05-29 21:40

    后摩智能四篇论文入选三大国际顶会

    2025 年上半年,继年初 AAAI、ICLR、DAC 三大国际顶会收录 5 篇论文后,后摩智能近期又有 4 篇论文入选CVPR、ICML、ACL三大国际顶会,面向大模型的编码、量化
    的头像 发表于 05-29 15:37 1091次阅读

    STM32+Android实现的智能家政机器人电路代码论文及项目源码

    STM32+Android实现的智能家政机器人电路代码论文及项目部分截图:
    发表于 05-28 21:22

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文) 项目实例下载

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文) 项目实例下载! 纯分享帖,需要者可点击附件免费获取完整资料~~~【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知
    发表于 05-23 20:55

    美报告:中国芯片研究论文全球领先

    据新华社报道,美国乔治敦大学“新兴技术观察项目(ETO)”3日在其网站发布一份报告说,2018年至2023年间,在全球发表的芯片设计和制造相关论文中,中国研究人员的论文数量远超其他国家,中国在高
    的头像 发表于 03-05 14:32 1720次阅读

    后摩智能5篇论文入选国际顶会

    2025年伊始,后摩智能在三大国际顶会(AAAI、ICLR、DAC)中斩获佳绩,共有5篇论文收录,覆盖大语言模型(LLM)推理优化、模型量化、硬件加速等前沿方向。
    的头像 发表于 02-19 14:02 1190次阅读
    后摩智能5篇<b class='flag-5'>论文</b>入选国际顶会

    MediaTek与vivo合作背后故事

    全焦段 HDR 等先进技术,突破手机长焦限制。在天玑 9400 强大的计算摄影能力之下,搭配 vivo 算法优化,vivo X200 系列能轻松实现 20 倍以上的长焦拍摄,让你在演唱会上坐得再远也能轻松拍出 C 位画面。
    的头像 发表于 02-15 16:16 1248次阅读

    Spire.Cloud.Word云端Word文档处理SDK介绍

    Spire.Cloud.Word 是一款专业的云端 Word 文档处理 SDK,开发人员使用它在云端创建、读取、编辑、转换和保存 Word 文档。作为一款完全独立的组件,运行环境无需安装
    的头像 发表于 02-11 11:11 787次阅读
    Spire.Cloud.<b class='flag-5'>Word</b>云端<b class='flag-5'>Word</b>文档处理SDK介绍

    openKylin开源桌面操作系统的背后故事

    近日,在2024开放原子开发者大会暨首届开源技术学术大会开幕式上,开放原子开源基金会与openKylin、EasyAda、KWDB开源项目举行捐赠签约仪式。
    的头像 发表于 12-30 10:18 941次阅读

    华为Mate 70 Pro+高亮钛背后的材料工艺故事

    华为Mate 70 Pro+全新高亮钛玄武架构,运用航天级钛铝复合技术,可靠匠心打造。本集《以质为名》纪录片和你一起探索背后的材料工艺故事
    的头像 发表于 12-25 09:34 2120次阅读